2004年6月23日
『News & Blog Search』
http://news.drecom.jp/
本日正午にサービスが開始された。CNETに記事がある。
ドリコム、ニュースとブログの検索サービスを開始--グーグルニュースの日本語版となるか
http://japan.cnet.com/news/media/story/
0,2000047715,20069384,00.htm
さっそくユーザ登録して弄くってみた。IT系のニュース記事へのリンクを適当にクリックすると、なるほど、「おすすめブログ」の欄にblogの記事が表示されるようになる。おもしろい。
以下、箇条書きにて。
立命館大学と株式会社ドリコムによる産学協同なプロジェクト。へぇ。
先行する類似のサービスとしてはreadoneがあるが、軽く使ってみた感じでは、推薦の精度に明らかな差はないと感じた。
プロジェクトが立ち上がったのは2002年の9月だとか。早い。2年近く前にこれを着想し、動き出していたのか。
記事の各々について、関連する記事のリストを取れる。Bulkfeedsと同様のサービスだが、Bulkfeedsがblog記事への埋め込みという体裁を取っているのに対して、こちらは検索エンジンのインターフェースに組み込まれているため、使いやすいと感じる。関連記事の精度だが、Bulkfeedsと比較してどちらが優れているかはよくわかんない。この手の主観に依存するシステムの優劣というのは短時間では分かりづらい(というか、長い時間を掛けてもわからんかもしれない)。
興味深いのが、こんな感じで、かなり細かいところまで記事をクラスタリングできているってこと。この例では、Pentiumに関する記事だけをうまく取り出せている。5個程度のキーワードの組み合わせを作ってやり、and条件で全文検索し、引っかかったものをそのトピックに属する記事としている様子。問題はキーワードの組み合わせをどうやって選ぶかだ。手動でやってるなら偉くもなんともない。自動でやってるならなかなかいかしてる。自動でやってるとして、どんなふうな仕組みになってるんだろう。形態素解析ツールに喰わせるところまではいいとして、問題はそのあとの、キーワードの組み合わせをどうやって選ぶかだ。共起関係とかの統計的な情報だけでこれだけ綺麗にやれるものだろうか。シソーラスでも使ってるのか。ん~。このあたり勉強不足だな。
CNETの記事からの引用。
同大学教授の小柳滋氏による独自のデータマイニング技術、マトリクスクラスタリングを応用し、コンテンツの関連づけやパーソナライズ機能を同サイト上で実現する。
どんなアルゴリズムなんだろ。
立命館大の小柳研究室はここ。学生の卒論がpdfで取れる。
「大学等発ベンチャー創出支援制度」なるものに採択されてる。どんな制度なのかは調べてない。題名は「データマイニングを用いたWWWサービス支援システムの研究開発」。
「マトリクスクラスタリング」はこれか。
S.Oyanagi, K.Kubota, A.Nakase :
“Mining WWW Access Sequence by Matrix Clustering”
International Workshop on Web Mining for Usage Patterns and User Profiles,
(WEBKDD-2002) pp.91-99, (2002.8)
webで取れるが有料だ。fuck. 大学の図書館にもない。使えねーな。
http://springerlink.metapress.com/app/home/contribution.asp?
wasp=2ggmwgrwqldgjxhpyddj&referrer=parent&backto=
issue,8,10;journal,359,1601;linkingpublicationresults,1:105633,1
この手のシステムって、評価するのが難しい。分かりやすく優劣を付けられる客観的な指標がないのだ。この手のシステムはどこで差別化されるのか。アルゴリズムの優劣(推薦される記事の質の良さ)にはっきりとした差が付くなら、もちろんそれが第一になるとおもうのだが、推薦される記事が良いか悪いかってのは主観的なものだし、あまりはっきりとした差が付くかどうかは怪しい。そうなるとローンチの早さやインターフェースの使いやすさのようなシステムの完成度が問題になるのかな。ローンチの早さという点では「BlogWatcher」やlivedoorの一連のアレやらが挙げられる。インターフェースでは「こうさぎ」が面白い。あとは学習のリソース(?)をどうするか。ユーザの読んだ記事の履歴を使うのが今回の『News & Blog Search』やreadone、ユーザの書いたblogの記事をつかうのがこうさぎ。他に協調フィルタリングみたいなのもある。
トラックバック URL :
http://windy.ac/mt/mt-tb.cgi/794
今日の井原. Since 2003.11.12 by Ihara
614 Entries - 0 Comments