August 01, 2005

戯れに作ってみた Noun-Verb Network

Posted at August 1, 2005 01:52 PM in .

nvn.PNG

 

1. これはなんですか

 関連度の高い名詞と動詞の組み合わせを線で結んだものです。

 上の画像をクリックすると、全体図が新しいウィンドウで開きます。サイズがでかい(9610×1142 pixel, 1.97MB)ので御注意。
 (上の画像は、全体の一部を切り出して縮小したものです)

2. どうやってつくったんですか

 まず、名詞と動詞を以下のようにして選びました。

 ・名詞
  研究室に転がってた類語辞書をめくりながら、適当に単語を選んだ。全部で107語。
 ・動詞
  日本語能力試験3・4級の試験範囲に含まれる動詞から、他動詞として働くものを選んだ。全部で110語。

 続いて、googleを叩いて、以下のように検索件数を取得しました。
 ここで、H(w)で単語wの検索件数を表すものとしましょう。
 H(w1, w2)なら、2つの単語w1とw2のand検索の検索件数とします。

 ・すべての名詞Nについて、H(N)
 ・すべての動詞Vについて、H(V)
 ・すべての名詞Nと動詞Vの組み合わせについて、H(N, V)

 次に、すべての名詞Nと動詞Vの組み合わせについて、以下のようにして、その関連度Rを算出します。
 Rは1〜0の値を取ります。ただし、R(N, V)が負の値になるときはゼロに丸めています。
 式は適当に作ったもので、これといった根拠はありません。

 R'(N, V) = H(N, V) / H(N) + H(V)
 R(N, V) = 1.0 + log10( R'(N, V) ) - log10( max( R'(N, V) ) )

 最後に、ここまでの処理結果をグラフ構造として描画しました。
 名詞と動詞の一つ一つをノードとします。また、関連度が0を超えるときに、その名詞と動詞の間にエッジが引かれるものとします。
 グラフの描画にはオープンソースで開発されているグラフ構造可視化ツール「Graphviz」を使いました。

3. なんのためにつくったんですか

 暇つぶしのために。
 強いて言えば、こんなラフな方法でどれくらいの品質のアウトプットが得られるのか、実際にデータに出して眺めてみたかったというところです。

4. これってなんのやくにたつんですか

 うーん。どうなんでしょう。
 「こういうことに使えそうだ」というのがあったら是非おしえてください。



Trackback

You can ping this entry by using http://windy.ac/MT/mt-tb.cgi/825 .

Comments

Post a comment










Remember personal info?