October 11, 2005
[論文紹介]blogをネタにした研究報告を、3つ。
Posted at October 11, 2005 04:14 PM in アホの子だけど論文を紹介しちゃうぞ
.
大学図書館で情報処理学会の研究報告に目を通していたら、blogものが3報も出ているのを見つけた。ざっと読んだので、内容をここに書いておく。
(1) 中島伸介 et. al., Blogスレッドの解析に基づく重要なbloggerの発見 −blogスレッド形成におけるTrackbackの影響に関する考察−, 情報処理学会研究報告, DBS-137, pp31-38.
- 国内blogのTrackback利用状況に関する調査報告。タイトルには"重要なbloggerの発見"とあるが、そこにはあまり深く踏み込んでいない。
- nifty.com, typepad.com, typepad.jp, weblogs.jp, blog.ocn.ne.jp, blogzine.jp, mo-blog.jp, no-blog.jp, de-blog.jpの9ドメインからblogデータを収集し、そこから15,035のトラックバックを抽出、それらについて分析した結果を報告している。
- 全体の84.6%は空トラックバック(トラックバック先の記事へのリンクを貼っていない記事からのトラックバック)だった。この数字の中にはトラックバックスパムが含まれるが、全てがトラックバックスパムというわけではない。
- 全体の11.5%は相互トラックバック(2つの記事がお互いにトラックバックを送り合うこと)だった。
- 空トラックバックを伴う50組の記事を無作為に選択し、人手により各々の組に内容的な関連があるかを調べた。すると、その全てに内容的な関連があると判断された。(ただし、この結果を持ってトラックバックスパムの割合を推定するのは適切ではない。既にblogの書き手によって削除されてしまっている等の可能性を考慮しなければならないため)
- 考察として、空トラックバックは必ずしもスパムではなく、あまり一般的には認識されていないような緩やかなコミュニティを形成しているケースが存在するとしている。
(2) 竹原幹人 et. al., Blogにおける書き手の興味を考慮した意見情報の提示手法, 情報処理学会研究報告, DBS-137, pp39-45.
- ニュース記事に関する意見をblogから抽出し、ほげほげする手法を議論。
- ちょっと漠然としているなあ
- これを書くなら、先の信学会論文誌に載ったnews & blog searchの論文を引用するべきでは。
(3) 倉島健 et. al., 街Blogからの体験抽出とその空間的提示手法の提案, 情報処理学会研究報告, DBS-137, pp47-53.
- 観光地など、ある場所を実際に訪れて書かれた記事をblogから抽出する手法、およびそれを地図上にプロットして提示するインタフェースの提案。これはかなり面白い。
- たとえばblog検索エンジンで「清水寺」などと検索しても、その検索結果はノイズ混じりなものとなる。そこでもっと質の良い検索結果を得たいというのが研究のモチベーション。
- 記事のタイトルと本文から、相関ルールを用いて行為を意味する文を抽出する。たとえば「紅葉を拝観する」など。処理は文単位。相関ルールの要素としては、日付、地名、名詞、動詞、サ変名詞を用いる。
- 処理の流れ。1、複数のblog検索エンジンを用いて地名で検索し、検索結果を得る。2、得られた記事のタイトル・本文から文節を抽出する。Chasenを用いて形態素解析。3、相関ルールを抽出。月ごとのような時間的な区切りを単位として行う。4、ユーザが検索する。うまー。
- 結果を見ると、かなり良くできているとは思うが、「言う」「思う」のような一般的な動詞が多く現れる、同義語の問題など、改善点が見られる。
Trackback
You can ping this entry by using http://windy.ac/MT/mt-tb.cgi/902 .
