| Su | Mo | Tu | We | Th | Fr | Sa |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
blogとWeb検索を絡ませたネタである。
blogの書き手は、ある商品や出来事について記事を書くとき、記事中でその話題の元となったURLへリンクを張ることが多い。それはたとえばメーカのWebサイトで公開されている商品の紹介ページかも知れないし、ニュースサイトの記事かも知れない。
そのようなblogの記事は、リンク先のURLに対するアノテーション(注釈)と捉えることができる。特に最近ではblogユーザの数が急激に増加しており、一つの商品や記事について、何十ものblog記事が書かれることも少なくない。それらのblog記事をアノテーションとしてインデックスに統合し、うまく検索結果に反映させることができれば、検索結果の向上を達することができるのではないか。
この研究の背景と目的はこのようなところだ。
では、具体的にどのような手法でそれを実現しようとしているのか。ここで、筆者らは「blogの書き手をスコアリングする」という着想を持ち出している。blogを多く読んでいる人ならよく分かっていることだろうが、blog記事というのはそのクオリティ(抽象的な表現であるが……)に大きな開きがある。従って、筆者らはすべてのblog記事を等価なものとして扱うべきではないという考えに立ち、blogの書き手がどれくらい信頼に足る人物であるかということを明らかにしようとしている。
実際、現在行われているblog研究ではblog記事を各個で全く独立したものとして捉える傾向が強いが、blogには「blog記事」と「書き手」との関連を容易に取得できるという便利な性質がある。よって、blogの書き手をスコアリングし、その書き手がどのくらい信頼できるのかを定量的に明らかにしようというのは非常に正しいアプローチであると思われる。
以下は論文からの引用である。
たとえば、どれだけ多くのユーザに読まれているか(人気)、最近の注目のトピックやニュースを早く記事として載せているか(すばやさ)、記事中で参照するコンテンツを他の信頼できるblogサイトも紹介しているか(参照)、などが要素としてあげられる。
この研究では、そのために、ある書き手の書いたblog記事をすべてクローリングし、それらをまとめて一つのコーパスとして統計的な処理を行う。Chasenを用いて形態素解析を行い、頻度の高い単語を上位n件まで取り出す。そしてそれがどのようなカテゴリに属する言葉なのかを、カテゴリ検索サービスを用いて階層的情報として取得する。これによって、その書き手がどのような分野について詳しいのかを判断している。また、簡単なパターンマッチングの処理によって、参照先のページに良い評価を与えているかを判断している。
筆者らはプロトタイプを実装し評価を行っているが、あまりしっかりした評価ではない。
これからの発展を注視したい。
Web情報検索のためのBlog情報に基づくトラスト値の算出方法
http://www.ieice.org/iss/de/DEWS/proc/2004/paper/I-2/I-2-02.pdf

