データ分析手法 - ロジスティック回帰

ロジスティック回帰

教師あり学習の代表的な手法の一つがロジスティック回帰分析です。ある事象が発生するか否かの2値の結果が起こる確率を0~1の範囲で予測することができます。

手法について

ロジスティック回帰分析とは多変量解析の一つであり、目的変数がカテゴリー値の際に複数の説明変数を用いて質的確率を予測するモデルです。
発生するかしないか等の予測したいことを数値化したものを目的変数とし、目的変数に影響を与える変数を説明変数をもとに目的変数の発生確率を算出します。
発生確率は0~1の値で算出され、1に近いほど発生確率が高いことを示します。
説明変数を選択する際には、データの値が全て同じでないことや数値以外のデータの場合は数値に置き換えるといったルールがあることに注意が必要です。

手順・式

ロジスティック回帰の回帰式を適用することで、予測値を得ることができます。
回帰式をグラフで表すと、以下の図表のようなS字カーブとなります。

【回帰式】

※exp{ } :指数関数
 a :定数
 b1~k :回帰係数
 x1~k :説明変数の値

メリット・デメリット

【メリット】

①結果を理解しやすい
 使用する説明変数がどの程度、目的変数に影響しているかが明確であるため、解釈がしやすいです。

②予測対象の数が少なくてもモデル構築が可能

【デメリット】

①外れ値の影響を受けやすい
 外れ値の影響を受けやすいモデルのため、外れ値を含む変数を利用する際には変数加工を行ったり、使用する変数の再検討を行う必要があります。

②数値変数もしくは2値で表せる変数しか使用できない

データ分析手法 ー ロジスティック回帰