データ分析手法 - 主成分分析

主成分分析

主成分分析とは、多数の変数を少ない変数に置き換え要約することでデータを理解しやすくする手法です。

手法について

機械学習の教師なし学習における代表的な手法の一つです。
分類されていないデータの特徴を表す属性値から、データ間の類似性を探しだし評価することでグループ分けを行い第1主成分を作成します。
情報量をさらに残す場合は、第2主成分・第3主成分と順に設定していきます。
主成分分析を行うことで、本来の要素数より少ない要素数(各主成分)に次元削減をし、できるだけ元の特徴を失わずにグラフ化できます。

手順・式

(1)データの平均値を算出する
(2)重心から最も大きく分散している主成分を第1主成分とする
(3)次に大きく分散している主成分を第2主成分とする
(4)データの次元分(主成分の数)繰り返す
(5)寄与率や主成分負荷量など分析結果を確認し、主成分を選択する
(6)選択した主成分を軸とした散布図から、データの特徴を見つける

メリット・デメリット

【メリット】

①処理時間を短縮
変数をまとめることで使用するデータが少なくなり、処理時間を短縮することができます。

【デメリット】

①取りこぼす情報がある
データを要約し分析をしているため、元の情報を全て反映することはできません。

②解釈が難しい
各主成分が持つ意味は分析者が考察する必要があるため、主観的な考察となってしまいます。

データ分析手法 ー 主成分分析