昨今、社会の情報化に伴って、膨大なデータが生み出されています。鉄道の料金がICカードで支払われるようになり、私たちの移動した結果が膨大なデータとして蓄積されています。
このような膨大なデータをビッグデータと呼ばれ、その中から役に立つ新しい知見が生まれると期待されています。
このビックデータは古典的な統計的なデータ解析手法(正規分布など)では、溢れるデータを処理しきれなくなります。
そこで、たくさんあるデータの中から意味のある有用な情報を掘りだす「データマイニング」という技術が開発されました。
このデータマイニングでは統計の手法でうまく分析できないものに対して有用になります。
データマイニングの言葉が出てきたのは1990年代です。会計時にバーコードで商品をスキャンし、商品販売のデータが集計されるシステムが導入されたことで、顧客の購買データが詳しく取られるようになりました。
あるスーパーが購買データを分析したところ、おむつよビールが一緒に買われていることが多いという現象が発見されました。
では、この現象はスーパーが持つなんらかの特徴があると考え、以下の仮説を考えることができます。
・小さな子供がいる家族が週末にまとめ買いをしているかもしれない。
父母がいるため、おむつと一緒にビールが購入されている考えですね。
・小さな子供がいる家庭の父親が家族のまとめ買いをしているかもしれない。
父親が買い物に担当で、ついでにビールを買うという考えもありますね。
このように仮説を立てて、仮説通り、ターゲットとした顧客が多いのであれば、その家族や個人に響くキャンペーンを打ち出すことができます。
データマイニングは捉え所のないデータの中から意味のあるものを見つけて様々な仮説を立てるきっかけになります。
上記のような仮説を立てるための深い組み合わせを探るのを「パターンマイニング」といいます。
ちなみに、ビールを買う人はおむつも買うという相関関係が強く、はっきり説明できる場合はルールと呼ばれます。
このように雑多なデータからパターンを見出し、仮説を立てて、マーケティングなどに活かせるデータマイニングはいろんな場面で使えそうな技術と考えます。
コメント