国際的データマイニング・コンテストで世界第2位に入賞
データマイニングの分野で活発な研究活動を行っている国際的団体に、ACM/SIGKDD(注1)があります。毎年、同団体主催でKDDカップ(Knowledge
Discovery and Data Mining Cup)と呼ばれる競技会が開催され、精度の高いモデルを構築する技術を競っています。今年は450を越えるチームが全世界からエントリーし、その中で、当社は
SLOW TRACK (モデル構築の期間が1ヶ月)のセクションで過去最高の第2位となり、また、FAST TRACK(モデル構築の期間が5日間)のセクションでも入賞は逸しましたが第5位となりました。
今年のテーマは、携帯電話のチャーニング(乗り換え)、クロスセル、アップセルに関わる問題でした。これらの行動に関する個人データを分析して予測モデルを構築し、その精度につき競います。具体的には、主催者側より上記行動を行ったかどうかを示すフラグが付いたデータセットが提示され、構築したモデルをフラグが付いていないデータセットに適用し、ROC(注2)を尺度とし判定し、その説明力により精度を競います。3つの行動確率が予測されますが、最終評価は3つのROCの平均値が対象となります。説明変数はLARGE(変数が約1万5千項目)とSMALL(変数が240項目)の2種類が用意されました。
当社は若手のコンサルタント主体に4チーム(各チーム4名程度)を編成し、基本的には各自、業務終了後の作業で対応しました。各チームそれぞれ工夫を凝らした分析手法を採用しました。第2位になったチームが採用した分析手法は、Stochastic
Gradient Boostingと呼ばれるもので、変数の選択・加工のステップにかなり独自の工夫をこらしています。必ずしも、採用した手法・ツールのみで分析の精度が決定するわけではありませんが、日頃の実務経験によって蓄積された分析に関するノウハウが活かされたものと考えています。
利用したツールは米国製の商用ソフトウェアで、日本では当社の親会社である新日鉄ソリューションズ株式会社が販売しております。日本語版についても近いうちに販売開始予定です。
本件問合せ先

(注1)ACM : the Association for Computing Machinery
SIGKDD:Special Interest Group on Knowledge Discovery and Data Mining
(注2)ROC :Receiver Operating Characteristic
ページトップへ