July 12, 2005
ドメイン判定にはgoogle。まじお勧め。
えーと。あれだ。
単語の共起関係からドメイン判定をするというのはまあありきたりなアプローチなんだと思うんだけど、それにgoogleを使ってる論文があったんで、その手法を実際に実験してみようと思った。その結果を報告するよ。
提案手法は、ある単語があるドメインに属するかどうかを、googleの検索件数を使って判定するというもの。
先ずは式を示す。
R(Domain, Word) = H(Domain, Word) / H(Domain) + H(Word)
ここで、Domainはそのドメインを表す単語、Wordはそのドメインに属するか判定したい単語。
R(Domain, Word)がWordのDomainに対する関連度。H(hoge)でgoogleでのhogeの検索件数。H(hoge, hage)ならhogeとhageでand検索したときの検索件数。
論文では、関連度Rに閾値を設定することで、単語がドメインに属するかの判定を行っていた。
お手軽で面白いなと思ったので、実際にやってみた。
ドメインは「車」とし、それに対して、「車」ドメインに含まれる単語5つ、含まれない単語5つを設定した。
ただし、含まれるかどうかの判断は僕の主観に依っている。
それらの検索件数は以下のようになった。
| 単語w | 検索件数H(w) |
| 車 | 6,700,000 |
| 単語w | 検索件数H(w) | H(車, w) |
| エンジン | 3,230,000 | 712,000 |
| アクセル | 1,030,000 | 355,000 |
| ブレーキ | 906,000 | 1,950,000 |
| セダン | 599,000 | 437,000 |
| トヨタ | 1,070,000 | 660,000 |
| 単語w | 検索件数H(w) | H(車, w) |
| ハードディスク | 1,280,000 | 238,000 |
| オーケストラ | 886,000 | 150,000 |
| 洗濯機 | 1,050,000 | 308,000 |
| ドーナツ | 824,000 | 149,000 |
| 日立製作所 | 752,000 | 65,600 |
続いて、これら10の単語について、Rを算出してみる。
| 単語w | 関連度R(車, w) |
| エンジン | 0.0717 |
| アクセル | 0.0459 |
| ブレーキ | 0.256 |
| セダン | 0.0599 |
| トヨタ | 0.0849 |
| ハードディスク | 0.0298 |
| オーケストラ | 0.0198 |
| 洗濯機 | 0.0397 |
| ドーナツ | 0.0185 |
| 日立製作所 | 0.00880 |
意外と悪くない。0.04あたりに閾値を設定すれば、とりあえず分離できてるね。
とはいえちょっと怪しい感じはするなあ :-)
Trackback
You can ping this entry by using http://windy.ac/MT/mt-tb.cgi/808 .
[http://blog.windy.ac/archives/000847.html:title=ドメイン判定にはgoogle。まじお勧め。] (from [http://blog.windy.ac/:title=今日の井原]) えっと、元の論文が紹介されていないのですが、[http://nlp.nagaokaut.ac.jp/:title=長岡技術大学]の[http://nlp.nagaokau...
