| Su | Mo | Tu | We | Th | Fr | Sa |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
大学図書館で情報処理学会の研究報告に目を通していたら、blogものが3報も出ているのを見つけた。ざっと読んだので、内容をここに書いておく。
(1) 中島伸介 et. al., Blogスレッドの解析に基づく重要なbloggerの発見 -blogスレッド形成におけるTrackbackの影響に関する考察-, 情報処理学会研究報告, DBS-137, pp31-38.
(2) 竹原幹人 et. al., Blogにおける書き手の興味を考慮した意見情報の提示手法, 情報処理学会研究報告, DBS-137, pp39-45.
(3) 倉島健 et. al., 街Blogからの体験抽出とその空間的提示手法の提案, 情報処理学会研究報告, DBS-137, pp47-53.

blogとWeb検索を絡ませたネタである。
blogの書き手は、ある商品や出来事について記事を書くとき、記事中でその話題の元となったURLへリンクを張ることが多い。それはたとえばメーカのWebサイトで公開されている商品の紹介ページかも知れないし、ニュースサイトの記事かも知れない。
そのようなblogの記事は、リンク先のURLに対するアノテーション(注釈)と捉えることができる。特に最近ではblogユーザの数が急激に増加しており、一つの商品や記事について、何十ものblog記事が書かれることも少なくない。それらのblog記事をアノテーションとしてインデックスに統合し、うまく検索結果に反映させることができれば、検索結果の向上を達することができるのではないか。
この研究の背景と目的はこのようなところだ。
では、具体的にどのような手法でそれを実現しようとしているのか。ここで、筆者らは「blogの書き手をスコアリングする」という着想を持ち出している。blogを多く読んでいる人ならよく分かっていることだろうが、blog記事というのはそのクオリティ(抽象的な表現であるが……)に大きな開きがある。従って、筆者らはすべてのblog記事を等価なものとして扱うべきではないという考えに立ち、blogの書き手がどれくらい信頼に足る人物であるかということを明らかにしようとしている。
実際、現在行われているblog研究ではblog記事を各個で全く独立したものとして捉える傾向が強いが、blogには「blog記事」と「書き手」との関連を容易に取得できるという便利な性質がある。よって、blogの書き手をスコアリングし、その書き手がどのくらい信頼できるのかを定量的に明らかにしようというのは非常に正しいアプローチであると思われる。
以下は論文からの引用である。
たとえば、どれだけ多くのユーザに読まれているか(人気)、最近の注目のトピックやニュースを早く記事として載せているか(すばやさ)、記事中で参照するコンテンツを他の信頼できるblogサイトも紹介しているか(参照)、などが要素としてあげられる。
この研究では、そのために、ある書き手の書いたblog記事をすべてクローリングし、それらをまとめて一つのコーパスとして統計的な処理を行う。Chasenを用いて形態素解析を行い、頻度の高い単語を上位n件まで取り出す。そしてそれがどのようなカテゴリに属する言葉なのかを、カテゴリ検索サービスを用いて階層的情報として取得する。これによって、その書き手がどのような分野について詳しいのかを判断している。また、簡単なパターンマッチングの処理によって、参照先のページに良い評価を与えているかを判断している。
筆者らはプロトタイプを実装し評価を行っているが、あまりしっかりした評価ではない。
これからの発展を注視したい。
Web情報検索のためのBlog情報に基づくトラスト値の算出方法
http://www.ieice.org/iss/de/DEWS/proc/2004/paper/I-2/I-2-02.pdf

久しぶりに論文など紹介してみようと思う。
偉そうに論文紹介のカテゴリを作っておきながら、一年でたった5本しか紹介していないとなると、「こいつは論文もまともに読まないうんこ院生なのではないか」と思われそうだが、もちろんもっと色々と読んでいるのだ。ただここに書いていないだけだ、ということを断っておきたい。でも僕がうんこ院生だというのはその通りだと思いますけれど:-)
で。今回紹介する論文のタイトルは「The EigenTrust Algorithm for Reputation Management in P2P Networks」。 スタンフォード大のKamvarらによってWWW2003で発表された論文である。
たとえ話から入る。気になる商品があるが、その商品の分野について自分には十分な知識がない。 そういう場合、その分野に詳しい知り合いに声を掛けて、「あれが気になるんだけどどう思う?」と聞くのはよくあることである。
これをもう少し一般化して換言すると。つまり、自分にとって未知の対象を評価するのに、それを知る(1人、あるいは複数の)誰かにクエリを投げてその誰かの評価値を受け取り、それを自分の中で統合して間接的に評価値を決定するわけである。未知の対象を評価するのに、間に誰かを挟むところがミソだ。
この論文では、そういう「間接的な評価」を定式化し、P2Pのノード管理やらWeb検索やらに適用するスコアリングアルゴリズム"EigenTrust"として提案している。
元々はP2Pなファイル交換ネットワークでうんこなノードを見つけるために、各々のノードについてunique global trust valueを算出しましょう、という話から出発している。……のだが、定式化されたアルゴリズム自体は広く応用が利きそうな、なかなか興味深いものになっている。お勧めの論文である。
アルゴリズム自体もシンプルで、高度な応用数学を使ってどうこう、というようなことはしていないので、すんなり理解できるとおもう。途中、CAN(P2Pネットワークで使われる分散ハッシュの形態の一つ)をあれこれする部分が出てきて、その辺りの知識がないとわけわかめだと思うが、この辺りはすっ飛ばしてかまわない。
P2Pネットワークや検索技術に興味があるなら、読む価値のある論文だと思う。
The EigenTrust Algorithm for Reputation Management in P2P Networks
http://www.stanford.edu/~sdkamvar/papers/eigentrust.pdf

オントロジひいてはセマンティックWebについてその概要を紹介するサーベイ論文。ラッセルやらヴィトゲンシュタインやら認知心理学やらエジプト文明のヒエログラフやらを紐解きながらオントロジ技術の最新の動向を敷衍するという内容で、読み物としてとてもおもしろい。著者の大野邦夫氏はドコモシステムズ所属で、そのためか文中には携帯電話への言及があったりする。
以下、興味を惹かれた部分を適当にまとめる。
OWLで表現される概念はおおきく3つに分類される。分類概念、特性概念、定量概念である。
Thing, Nothingという根っこから出発して、世界をオブジェクトに分類していこうというもの。たとえば世界から「動物(animal)」という概念を切り出すケースを考えよう。
まず、Animalというクラスを宣言する。Labelタグで新しい概念を導入する。
<owl:Class rdf:ID="Animal" > <rdfs:label>Animal</rdfs:label> <rdfs:comment>これは「動物」を表す概念だよ。</rdfs:comment> <owl:Class>
これで「動物」という概念を新たに宣言したことになるらしい。この概念をさらに分割していく。たとえば、動物には雄と雌がいるので。
<owl:Class rdf:ID="Male> <rdfs:subClassOf rdf:resource="#Animal"/> </owl:Class>
<owl:Class rdf:ID="Famale"> <rdfs:subClassOf rdf:resource="#Animal"/> <owl:disjoingWith rdf:resource="#Male"/> </owl:Class>
subClassOf要素で、概念の親子関係を表現する。また、disjoint要素でお互いに排他的な関係であるということを表す。上の例では、雄であると同時に雌であるというような動物は存在しないということになる。
こんな感じで、世界をどんどん概念に切り分けていく。
すでに分類されてる概念を修飾する。オブジェクト間の関係を記述するものと、オブジェクトとデータ型の関係を記述するものに分けられる。
<owl:ObjectProperty rdf:ID="hasParent"> <rdfs:domain rdf:resource="#Animal"/> <rdfs:range rdf:resource="#Animal"/> </owl:ObjectProperty>
<owl:ObjectProperty rdf:ID="hasFather"> <rdfs:subPropertyOf rdf:resource="#hasParent"/> <rdfs:range rdfs:resource="#Male"/> </owl:ObjectProperty >
この場合、オブジェクト間にhasParent関係を定義する(2つの動物を関連づける)。また、hasParent特性の関係する適用領域(domain)と、結果として値が取りうる範囲(range)を宣言する。この場合は親子が共にAnimalなので、domainもrangeも同じになる。
特性を継承することにより範囲を狭めることができる。たとえば、値となる親のレンジを雄に限ることで父親を定義する。
すでに定義されている特性概念に、数の情報を付加する。
<rdfs:subClassOf> <owl:Restriction owl:cardinality="1"/> <own:onProperty rdf:resource="#hasFather"/> </rdfs:subClassOf>
長くなってきたのでエントリを分ける。

人工知能学会の「第7回セマンティックウェブとオントロジー研究会」の発表で使われた資料。著者はsemblog.orgの武田英明氏。
たった4頁という短さのため、かなり駆け足になっているが、blog(=Weblog)をネタにした国内外の諸研究について見通しよくまとめており、面白い内容になっている。blog研究に関心を持っているひとは、ぜひ目を通してみてほしい。
わざわざ言うまでもないことだが、CMS(content management system)としてのblogには、技術的な新規性はほとんどない。必然、blogを扱った研究というと、大勢の人々によって書かれた膨大なドキュメントのなかから情報を取り出すというような、いわゆるテキストマイニング的なアプローチが中心になるようだ。文中では、blogデータからのトレンド解析や、評判情報抽出の研究が紹介されている。また、blogや記事同士の関係を明らかにしようというものもある。個人的に興味を持ったのは、「リンクとしては張られていない関係」を用いてblog間の関係を推定しようという[13]の研究。ぐぐったらpdfがヒットしたので読んでみようとおもう。
また、研究対象としてのblogについて、
一つはWeblogを新しいメ ディアと考え,このメディアと人間あるいは社会 との関わりとしてWeblog を分析するものである. これは主に心理学,社会学の範疇の研究である. 当然メディアの技術を研究するものもある.この メディアにおける技術の評価や新規技術の提案な どである.これは工学的研究といえよう.また, これと関連しているが,Weblog がつくる情報空 間の分析もある.
としたうえで、心理学的立場からblogを扱った研究についても紹介している。こちらもなかなか面白そうだ。
Weblog研究の現状
http://www.jaist.ac.jp/ks/labs/kbs-lab/sig-swo/papers/SIG-SWO-A402/SIG-SWO-A402-06.pdf

Microsoftのやってるプロジェクト『MyLifeBits』に関する論文。MyLifeBitsについてはITMediaのこの記事なんかを参照すると、だいたいのところが掴めるとおもう。
MSの「MyLifeBits」は何から何まで記録する
http://www.itmedia.co.jp/news/0304/21/cead_coursey.html
ストレージの大容量化に伴って、人間の一生をまるごとハードディスクの中に溜め込めるようになりました。そこでそのためのデバイスやアプリケーションを作っていきましょう、というのがMyLifeBitsの骨子で、プロジェクトのリーダーであるGordon Bellというひとが自ら実験台となり、日々の記録を蓄積している。
We have used Gordon Bell’s life for an experimental corpus. Everything possible from his past has been digitized, including: articles, books, cards, CDs, letters, memos, music, papers, photos, posters, paintings, presentations, home movies, videotaped lectures, and voice recordings. These are combined with media from his PC such as digital photos, email, and calendar events.
日常生活の中で関わったものを、デジタル化可能ならばなんでも保存してしまおうという、非常に徹底したアプローチで、上の一節を読んでぼくなどはちょっと吃驚してしまった。読んだ本や聞いたCDは良いとして、電話の内容や手紙までを保存の対象としてしまうことには、ぼくなら抵抗を感じるからだ。データをため込んだPCをhackされて誰かにデータを盗まれたらどうするのかとか、Gordon Bellは心配じゃないんだろうか。上に挙げたITMediaの記事では、「プライバシなんて知ったことか」的な発言をしているが、彼くらいの情熱に駆られると、そんなことは気にもならなくなるのかなあ。
それにしてもこのシステムは非常にスケールがでかい。日常生活を記録していくためのカメラやマイクといったウェアラブルなデバイスを作らなくちゃならないし、膨大なデータを管理するためのデータベース技術が必要になるし、文章画像音声動画と異なるメディアを統合的に扱うための検索技術だって必要だ。それだけじゃない。データを守るためのセキュリティは? 軽快で使いやすいユーザ・インターフェースは? ブラウザやEPGとの連携は? ……挙げていくと切りがない。論文中にはシステムの概要図が示されているのだが、なんとも壮大で、Microsoftの潤沢な人的・経済的なリソースがあってこそのプロジェクトだという感じがする。
また、論文のなかに次の一節がある。
The MyLifeBits system supports capture, storage, retrieval, reporting, annotation, and story creation.
MyLifeBitsが、単純にありとあらゆるデータを溜め込むだけのシステムではなく、そこから先の、検索や注釈付けまでを含んだものであることが述べられている。"story creation"ってのが何なのかが気になるが、論文中ではこれ以上触れられていない。storyっていったい何だ。絵本仕立ての物語でも作ってくれるんだろうか。
実際、日常の膨大なデータをデジタル化し、巨大なストレージに溜め込んでいくことは、このシステムのほんの入り口に過ぎない。溜め込んだデータを適切にインデクシングし、ユーザがそれを活用していくことに本質があるのだとおもう。話はやや逸れるがぼくの研究室にこのMyLifeBitsにやや通ずる研究をしている先輩氏がいるのだが、氏のやろうとしていることにしても、データを蓄積することはあまり重要でないというか、わりと些末的な事項なのであって、蓄積したデータをどうやって後から活用できるようにしていくかが研究の要になるんじゃないかと思うんだが氏はいまいちそのあたりを認識していないような気がしてちょっともったいないなとおもう。まあそれはいいとして。
切りの良いところでエントリを分ける(続く)。

Personal Knowledge Publishing Suite with Weblog
Personal Knowledge Publishing Suite with Weblog">http://www.blogpulse.com/papers/www2004ohmukai.pdf
"semblog"とは、"Semantic Web"と"Weblog"をくっつけた言葉。セマンティック・ウェブのアプローチを既存のblogのシステムに取り入れてみましょう、というお話である。
We propose a personal knowledge publishing system called Semblog with Semantic Web techniques and Weblog tools. Semblog suites provide an integrated environment for gathering, authoring, publishing, and making human relationship seamlessly to enable people to exchange information and knowledge with easy and casual fashion.
Webの利用価値として情報収集(collect)、情報発信(create)、情報提供(donate。これは情報交換とでもしたほうが適当かもしれない)の3つのプロセスがあるが、既存のWebだとこれらが別々のツールで提供されていて、能率があんましよろしくない。そこでこいつらを統合するためのツールがあったら便利なんじゃないかなぁ、ってのが出発点となった着想っぽい。具体的には、ユーザが日々ポストするblogの記事を解析して、それにハイパーリンクが含まれていたら、そこから繋がるリンクをRSSとしてゲットできるようにしたりする。あるいは、個々の記事を中心にしたネットワーク(下図)を作って、その範囲のなかでキーワード検索ができるようにする、とか。
おもしろいと思うのは人と人のリレーションシップを取り入れようとしてるところ。下は公式Webからの引用。
で,Community Webの話.人によっては「またまたそんな怪しげな単語を持ち出して」と思うかもしれない.まあそうかも.自分でもそう思うことがあるし.が,実際にはそんなに大層な話ではなく,Web上の情報リソースを人単位で管理してもらおう,そして人の間にリンクを張ることで構造をすっきりさせよう,というのがCommunity Webのキモである.これまでのWeb(ここではInformation Webと呼ぶ)は端的に言えば情報(HTML)とその間のリンクしかない世界である.このシンプルかつ混沌とした世界において自然言語処理とリンク構造でなんとか検索したりしているのが現状で,それなりにうまくいっているのだけれども最近ではWeblogのSEO効果などでやや破綻が見えつつある.semblogプロジェクトでは,そこに人という概念を持ち込み,人ごとの情報の整理を簡単にでもやってもらい,そのうえで人と人をつないでいく,すなわち人-情報のリンクと人-人のリンクという2階層のモデルをWebに導入しようと考えている.
で、そのためにFOAFやら何やらのセマンティックウェブな技術を使っていきましょう、という筋書きのようだ。そんなに簡単な道のりじゃないと思うんだけど(つーか、このあたりの技術的な詳細がいまいち見えないんだよな。どんなふうにやろうとしてるんでしょうか)、考え方としては魅力的だとおもう。引っかかるのは、人と人のリンクをどうやって貼るか、ということ。FOAFの仕様はあまり詳しく知らないのだけど、FOAFで表現できる人と人の関係っていうのは非常に単純で、"knows(相手のことを知っている、の意)"くらいのことしか表現できないじゃなかったっけ。つまり、人と人の間にリンクを貼ることはできるけど、そのリンクがどんな質のものであるかはほとんど記述できない、と。でも、ちゃんと情報検索etcの用途に役立つような人と人との関係のネットワークを作ろうと思ったら、たぶんそのリンクがどんな関係であるのかを記述できないとダメだとおもう。具体的に「こいつとそいつは大学の鉄道サークルの仲間です」みたいな記述ができるなら、そこから「ここからここまでは鉄道オタクの領域」ってのを見つけることができて、ぼくが鉄道関連の検索クエリを投げたときに、そういった領域の中だけで検索する、みたいなことができるかもしれない。それとも、「友達同士は似たもの同士」的なものが前提としてあるのかな。まあそれは確かにあるとおもうんだけど、でもそれをWeb上の情報の構造化に適用したときに既存の手法よりも良い結果が得られるかどうかと言うとよくわからない。んー。どうもまとまらないな。まあいいや。
この手の論文はその価値を鑑定することが難しいのだけど、個人的にはおもろいと思いました。
