妄想(1):リファラキーワードを分類する

アクセス解析をしていると、リファラキーワード(検索エンジンで検索したワード)の数の多さに辟易することがある。


あーもう、さくっと見れるようにしてくれぇ〜〜


そこで考えた。こうすれば簡単に且つ自動的にキーワードをグループ分けできる。
まずデータベースを用意する、内容はこうだ。
1.
現在存在するWebサイトのソースの中に同時に出現する2個のワードの組み合わせをクローラーで取得する(ちなみに日本語だけだと広辞苑の第五版では23万余語、助詞、助動詞を省いてもほぼ変わらないので約23万語とする)。
2.
その組み合わせの出現数で総組み合わせ数を割ったものを距離データとし、n×nの正方行列に表示する(方向を考えないので実際計算に使うのは左下の二等辺直角三角形の部分、つまり(n^2-n)/2、上記の日本語の語数で計算すると、264億4988万5千パターンになる)。
3.
当該サイトのリファラデータのn×nの正方行列を作成し、そこに上記のデータを当て込んでゆき距離行列を作成する。
4.
それをクラスター分析にかけ、適当なクラスター数に分類する。


ほらできた



・・・実際、上記のデータは検索エンジンにとって重要な機密事項なので、ほぼ間違いなく頂けません。かといって自分で作るとなると上記のデータ数ですから無理です。

やはり妄想は、妄想に過ぎないってことで。