決定木

教師あり学習の代表的な手法の一つが決定木分析です。決定木と呼ばれる樹形図を作成し、条件に「該当する」or「該当しない」で分割を繰り返し、目的変数の予測モデルを作成する方法です。分析結果は決定木で可視化されているためモデルの理解がしやすく、マーケティングや意思決定などの多くの場面で使用されています。

手法について

決定木分析は教師あり学習の一つであり、指定した目的変数に影響を与える複数の説明変数を分析し、決定木を作成することで目的変数の予測モデルを作成する手法です。
決定木分析は、準備したデータをノード(節点)とエッジ(枝)で構成された木構造に分類することで、データの特徴や関係を分析することが可能です。
決定木は複雑なデータ構造をわかりやすく可視化することができるため、医療や金融・製造業など様々なビジネス分野で使用されています。

手順・式

決定木分析では、目的変数と複数の説明変数を用意する必要があります。
決定木の作成手順は以下の通りです。

(1)データ分割

準備した全てのデータを一つのノード(根ノード)とします。その後、データを分割する条件を決定します。

(2)ノード分割

分割の条件をもとに、二つのノード(ノード1,ノード2)に分割します。

(3)クラスの決定

(1)と(2)をクラスができるまで繰り返し行います。クラスとは分割が終了したノードのことを指し、そのクラスに属するデータに対して同一の予測値が与えられます。

(4)モデルの評価

決定木の予測精度を評価します。

メリット・デメリット

【メリット】

①可視化されているため理解しやすい
結果までの過程がツリー図で可視化されてわかりやすくホワイトボックスなモデルであるため、結果を理解しやすく、分析とは馴染みのない第三者からの理解も得られやすい手法です。

②前処理が少ない
データを二分化していく手法のため外れ値の影響を受けにくく、データの準備が最小限で済みます。

【デメリット】

①過学習をしやすい
木が深くなりすぎると、学習データに対して過剰に適合し、結果の理解が難しくなってしまうことや実際のデータにあてはめた際に想定した結果より精度が低い可能性があります。

関連分析技術

ランダムフォレスト
勾配ブースティング決定木

データ分析手法 ー 決定木