July 12, 2005

ドメイン判定にはgoogle。まじお勧め。

Posted at July 12, 2005 02:40 PM in .

 えーと。あれだ。

 単語の共起関係からドメイン判定をするというのはまあありきたりなアプローチなんだと思うんだけど、それにgoogleを使ってる論文があったんで、その手法を実際に実験してみようと思った。その結果を報告するよ。

 

 提案手法は、ある単語があるドメインに属するかどうかを、googleの検索件数を使って判定するというもの。
 先ずは式を示す。

 R(Domain, Word) = H(Domain, Word) / H(Domain) + H(Word)

 ここで、Domainはそのドメインを表す単語、Wordはそのドメインに属するか判定したい単語。
 R(Domain, Word)がWordのDomainに対する関連度。H(hoge)でgoogleでのhogeの検索件数。H(hoge, hage)ならhogeとhageでand検索したときの検索件数。

 

 論文では、関連度Rに閾値を設定することで、単語がドメインに属するかの判定を行っていた。
 お手軽で面白いなと思ったので、実際にやってみた。

 ドメインは「車」とし、それに対して、「車」ドメインに含まれる単語5つ、含まれない単語5つを設定した。
 ただし、含まれるかどうかの判断は僕の主観に依っている。

 それらの検索件数は以下のようになった。

 

単語w検索件数H(w)
6,700,000

 

単語w検索件数H(w)H(車, w)
エンジン3,230,000712,000
アクセル1,030,000355,000
ブレーキ906,0001,950,000
セダン599,000437,000
トヨタ1,070,000660,000

 

単語w検索件数H(w)H(車, w)
ハードディスク1,280,000238,000
オーケストラ886,000150,000
洗濯機1,050,000308,000
ドーナツ824,000149,000
日立製作所752,00065,600

 

 続いて、これら10の単語について、Rを算出してみる。

 

単語w関連度R(車, w)
エンジン0.0717
アクセル0.0459
ブレーキ0.256
セダン0.0599
トヨタ0.0849
ハードディスク0.0298
オーケストラ0.0198
洗濯機0.0397
ドーナツ0.0185
日立製作所0.00880

 

 意外と悪くない。0.04あたりに閾値を設定すれば、とりあえず分離できてるね。
 とはいえちょっと怪しい感じはするなあ :-)



Trackback

You can ping this entry by using http://windy.ac/MT/mt-tb.cgi/808 .

[http://blog.windy.ac/archives/000847.html:title=ドメイン判定にはgoogle。まじお勧め。] (from [http://blog.windy.ac/:title=今日の井原]) えっと、元の論文が紹介されていないのですが、[http://nlp.nagaokaut.ac.jp/:title=長岡技術大学]の[http://nlp.nagaokau...

Trackbacked from [Web] ドメイン判定にはgoogle on ねごとと、たわごとと、もうそうと(別館)←仮称.

Comments

Post a comment










Remember personal info?