2008.07.17
データマイニング基礎
クラウドマップではソーシャルブックマークのタグ付けデータを解析しています。これはいわゆるデータマイニングと呼ばれるもので、大量のデータの背後にある隠れた構造を露わにするものです。データマイニングの手法は多数提案されていますが、今日はその中で、最も基礎的で重要な手法である主成分分析(principal component analysis)とクラスタ分析(k-means clustering)について、さわりだけ紹介します。また、タグ付けデータに適用するとどうなるのかもお見せします(結論から言うと、これらの手法ではタグ付けデータをうまく解析することができません)。
■主成分分析を初めとするデータマイニング手法が行うことは、基本的には「データ圧縮」です。データの背後にある本質的な構造は、そのデータ自身よりも簡潔に記述できると想定できるからです。どのような制約の下で圧縮するかが手法の種類を決めると言えます。主成分分析の場合は次のようにデータ圧縮します:

▼
