データ分析手法 - クラスター分析

クラスター分析

クラスター分析とは機械学習の教師なし学習の一つであり、様々な性質をもつデータが大量に集まった中から、特徴が似ているデータを集めていくつかのグループに分類する手法です。
データの特性や共通項を把握したり、大量のデータを扱いやすくすることができます。

手法について

クラスター分析とは機械学習の教師なし学習における代表的な手法の一つであり、分類されていないデータの特徴を表す属性値からデータ間の類似性を探しだし、それを評価することでグループ分けを行う分析手法です。
クラスター分析を行うことで、個々のデータがそれぞれの特徴に基づき複数のグループの何れかに分類され、結果として類似度が高いデータごとにグループ化され1つのクラスータのデータが同質になり、またそれぞれのクラスターが異質になるように分類することができ、大量のデータが単純化され理解しやすくなります。
アンケート結果や顧客属性をいくつかのグループに分け、それぞれのグループの傾向を把握したい際などに利用されます。

手順・式

クラスター分析は(1)階層的クラスター分析と(2)非階層的クラスター分析の2種類の手法に分けることができます。

(1)階層的クラスター分析

類似したデータを順に結合し、クラスター間の関係を階層構造で表現した手法です。近い階層のデータは特徴が類似しており、ユークリッド距離法を用いてデータ間の距離を計算します。

(2)非階層的クラスター分析

階層構造を持たず、事前に定めたクラスターの分割数にデータを分割する手法です。すべてのデータ間の距離を計算する必要がないため処理時間が少なく済むため、処理件数が膨大な際に使用されることが多いです。

メリット・デメリット

【メリット】

①データを理解しやすい
 類似するデータを集約して1つのクラスターとするため、各クラスターやデータ全体の大まかなな特徴を把握しやすいです。

【デメリット】

①解釈が難しい
 各主成分が持つ意味は分析者が考察する必要があるため、主観的な考察となってしまいます。

②処理時間がかかる
 階層的クラスター分析の場合、全データを総当たりで計算するためデータ量が膨大すぎると計算ができないことがあります。

データ分析手法 ー クラスター分析