"アホの子だけど論文を紹介しちゃうぞ" archive
October 11, 2005
[論文紹介]blogをネタにした研究報告を、3つ。
大学図書館で情報処理学会の研究報告に目を通していたら、blogものが3報も出ているのを見つけた。ざっと読んだので、内容をここに書いておく。
(1) 中島伸介 et. al., Blogスレッドの解析に基づく重要なbloggerの発見 −blogスレッド形成におけるTrackbackの影響に関する考察−, 情報処理学会研究報告, DBS-137, pp31-38.
- 国内blogのTrackback利用状況に関する調査報告。タイトルには"重要なbloggerの発見"とあるが、そこにはあまり深く踏み込んでいない。
- nifty.com, typepad.com, typepad.jp, weblogs.jp, blog.ocn.ne.jp, blogzine.jp, mo-blog.jp, no-blog.jp, de-blog.jpの9ドメインからblogデータを収集し、そこから15,035のトラックバックを抽出、それらについて分析した結果を報告している。
- 全体の84.6%は空トラックバック(トラックバック先の記事へのリンクを貼っていない記事からのトラックバック)だった。この数字の中にはトラックバックスパムが含まれるが、全てがトラックバックスパムというわけではない。
- 全体の11.5%は相互トラックバック(2つの記事がお互いにトラックバックを送り合うこと)だった。
- 空トラックバックを伴う50組の記事を無作為に選択し、人手により各々の組に内容的な関連があるかを調べた。すると、その全てに内容的な関連があると判断された。(ただし、この結果を持ってトラックバックスパムの割合を推定するのは適切ではない。既にblogの書き手によって削除されてしまっている等の可能性を考慮しなければならないため)
- 考察として、空トラックバックは必ずしもスパムではなく、あまり一般的には認識されていないような緩やかなコミュニティを形成しているケースが存在するとしている。
(2) 竹原幹人 et. al., Blogにおける書き手の興味を考慮した意見情報の提示手法, 情報処理学会研究報告, DBS-137, pp39-45.
- ニュース記事に関する意見をblogから抽出し、ほげほげする手法を議論。
- ちょっと漠然としているなあ
- これを書くなら、先の信学会論文誌に載ったnews & blog searchの論文を引用するべきでは。
(3) 倉島健 et. al., 街Blogからの体験抽出とその空間的提示手法の提案, 情報処理学会研究報告, DBS-137, pp47-53.
- 観光地など、ある場所を実際に訪れて書かれた記事をblogから抽出する手法、およびそれを地図上にプロットして提示するインタフェースの提案。これはかなり面白い。
- たとえばblog検索エンジンで「清水寺」などと検索しても、その検索結果はノイズ混じりなものとなる。そこでもっと質の良い検索結果を得たいというのが研究のモチベーション。
- 記事のタイトルと本文から、相関ルールを用いて行為を意味する文を抽出する。たとえば「紅葉を拝観する」など。処理は文単位。相関ルールの要素としては、日付、地名、名詞、動詞、サ変名詞を用いる。
- 処理の流れ。1、複数のblog検索エンジンを用いて地名で検索し、検索結果を得る。2、得られた記事のタイトル・本文から文節を抽出する。Chasenを用いて形態素解析。3、相関ルールを抽出。月ごとのような時間的な区切りを単位として行う。4、ユーザが検索する。うまー。
- 結果を見ると、かなり良くできているとは思うが、「言う」「思う」のような一般的な動詞が多く現れる、同義語の問題など、改善点が見られる。
February 9, 2005
[論文紹介] Web情報検索のためのBlog情報に基づくトラスト値の算出方法
blogとWeb検索を絡ませたネタである。
blogの書き手は、ある商品や出来事について記事を書くとき、記事中でその話題の元となったURLへリンクを張ることが多い。それはたとえばメーカのWebサイトで公開されている商品の紹介ページかも知れないし、ニュースサイトの記事かも知れない。
そのようなblogの記事は、リンク先のURLに対するアノテーション(注釈)と捉えることができる。特に最近ではblogユーザの数が急激に増加しており、一つの商品や記事について、何十ものblog記事が書かれることも少なくない。それらのblog記事をアノテーションとしてインデックスに統合し、うまく検索結果に反映させることができれば、検索結果の向上を達することができるのではないか。
この研究の背景と目的はこのようなところだ。
では、具体的にどのような手法でそれを実現しようとしているのか。ここで、筆者らは「blogの書き手をスコアリングする」という着想を持ち出している。blogを多く読んでいる人ならよく分かっていることだろうが、blog記事というのはそのクオリティ(抽象的な表現であるが……)に大きな開きがある。従って、筆者らはすべてのblog記事を等価なものとして扱うべきではないという考えに立ち、blogの書き手がどれくらい信頼に足る人物であるかということを明らかにしようとしている。
実際、現在行われているblog研究ではblog記事を各個で全く独立したものとして捉える傾向が強いが、blogには「blog記事」と「書き手」との関連を容易に取得できるという便利な性質がある。よって、blogの書き手をスコアリングし、その書き手がどのくらい信頼できるのかを定量的に明らかにしようというのは非常に正しいアプローチであると思われる。
以下は論文からの引用である。
たとえば、どれだけ多くのユーザに読まれているか(人気)、最近の注目のトピックやニュースを早く記事として載せているか(すばやさ)、記事中で参照するコンテンツを他の信頼できるblogサイトも紹介しているか(参照)、などが要素としてあげられる。
この研究では、そのために、ある書き手の書いたblog記事をすべてクローリングし、それらをまとめて一つのコーパスとして統計的な処理を行う。Chasenを用いて形態素解析を行い、頻度の高い単語を上位n件まで取り出す。そしてそれがどのようなカテゴリに属する言葉なのかを、カテゴリ検索サービスを用いて階層的情報として取得する。これによって、その書き手がどのような分野について詳しいのかを判断している。また、簡単なパターンマッチングの処理によって、参照先のページに良い評価を与えているかを判断している。
筆者らはプロトタイプを実装し評価を行っているが、あまりしっかりした評価ではない。
これからの発展を注視したい。
Web情報検索のためのBlog情報に基づくトラスト値の算出方法
http://www.ieice.org/iss/de/DEWS/proc/2004/paper/I-2/I-2-02.pdf
February 6, 2005
[論文紹介] The EigenTrust Algorithm for Reputation Management in P2P Networks
久しぶりに論文など紹介してみようと思う。
偉そうに論文紹介のカテゴリを作っておきながら、一年でたった5本しか紹介していないとなると、「こいつは論文もまともに読まないうんこ院生なのではないか」と思われそうだが、もちろんもっと色々と読んでいるのだ。ただここに書いていないだけだ、ということを断っておきたい。でも僕がうんこ院生だというのはその通りだと思いますけれど:-)
で。今回紹介する論文のタイトルは「The EigenTrust Algorithm for Reputation Management in P2P Networks」。 スタンフォード大のKamvarらによってWWW2003で発表された論文である。
たとえ話から入る。気になる商品があるが、その商品の分野について自分には十分な知識がない。 そういう場合、その分野に詳しい知り合いに声を掛けて、「あれが気になるんだけどどう思う?」と聞くのはよくあることである。
これをもう少し一般化して換言すると。つまり、自分にとって未知の対象を評価するのに、それを知る(1人、あるいは複数の)誰かにクエリを投げてその誰かの評価値を受け取り、それを自分の中で統合して間接的に評価値を決定するわけである。未知の対象を評価するのに、間に誰かを挟むところがミソだ。
この論文では、そういう「間接的な評価」を定式化し、P2Pのノード管理やらWeb検索やらに適用するスコアリングアルゴリズム"EigenTrust"として提案している。
元々はP2Pなファイル交換ネットワークでうんこなノードを見つけるために、各々のノードについてunique global trust valueを算出しましょう、という話から出発している。……のだが、定式化されたアルゴリズム自体は広く応用が利きそうな、なかなか興味深いものになっている。お勧めの論文である。
アルゴリズム自体もシンプルで、高度な応用数学を使ってどうこう、というようなことはしていないので、すんなり理解できるとおもう。途中、CAN(P2Pネットワークで使われる分散ハッシュの形態の一つ)をあれこれする部分が出てきて、その辺りの知識がないとわけわかめだと思うが、この辺りはすっ飛ばしてかまわない。
P2Pネットワークや検索技術に興味があるなら、読む価値のある論文だと思う。
The EigenTrust Algorithm for Reputation Management in P2P Networks
http://www.stanford.edu/~sdkamvar/papers/eigentrust.pdf
Post a comment to '[論文紹介] The EigenTrust Algorithm for Reputation Management in P2P Networks'
November 15, 2004
[論文紹介]オントロジ技術の応用に関する一考察
オントロジひいてはセマンティックWebについてその概要を紹介するサーベイ論文。ラッセルやらヴィトゲンシュタインやら認知心理学やらエジプト文明のヒエログラフやらを紐解きながらオントロジ技術の最新の動向を敷衍するという内容で、読み物としてとてもおもしろい。著者の大野邦夫氏はドコモシステムズ所属で、そのためか文中には携帯電話への言及があったりする。
以下、興味を惹かれた部分を適当にまとめる。
・OWLで表現される概念について
OWLで表現される概念はおおきく3つに分類される。分類概念、特性概念、定量概念である。
(i)分類概念
Thing, Nothingという根っこから出発して、世界をオブジェクトに分類していこうというもの。たとえば世界から「動物(animal)」という概念を切り出すケースを考えよう。
まず、Animalというクラスを宣言する。Labelタグで新しい概念を導入する。
<owl:Class rdf:ID="Animal" > <rdfs:label>Animal</rdfs:label> <rdfs:comment>これは「動物」を表す概念だよ。</rdfs:comment> <owl:Class>
これで「動物」という概念を新たに宣言したことになるらしい。この概念をさらに分割していく。たとえば、動物には雄と雌がいるので。
<owl:Class rdf:ID="Male> <rdfs:subClassOf rdf:resource="#Animal"/> </owl:Class>
<owl:Class rdf:ID="Famale"> <rdfs:subClassOf rdf:resource="#Animal"/> <owl:disjoingWith rdf:resource="#Male"/> </owl:Class>
subClassOf要素で、概念の親子関係を表現する。また、disjoint要素でお互いに排他的な関係であるということを表す。上の例では、雄であると同時に雌であるというような動物は存在しないということになる。
こんな感じで、世界をどんどん概念に切り分けていく。
(ii)特性概念
すでに分類されてる概念を修飾する。オブジェクト間の関係を記述するものと、オブジェクトとデータ型の関係を記述するものに分けられる。
<owl:ObjectProperty rdf:ID="hasParent"> <rdfs:domain rdf:resource="#Animal"/> <rdfs:range rdf:resource="#Animal"/> </owl:ObjectProperty>
<owl:ObjectProperty rdf:ID="hasFather"> <rdfs:subPropertyOf rdf:resource="#hasParent"/> <rdfs:range rdfs:resource="#Male"/> </owl:ObjectProperty >
この場合、オブジェクト間にhasParent関係を定義する(2つの動物を関連づける)。また、hasParent特性の関係する適用領域(domain)と、結果として値が取りうる範囲(range)を宣言する。この場合は親子が共にAnimalなので、domainもrangeも同じになる。
特性を継承することにより範囲を狭めることができる。たとえば、値となる親のレンジを雄に限ることで父親を定義する。
(ii)定量概念
すでに定義されている特性概念に、数の情報を付加する。
<rdfs:subClassOf> <owl:Restriction owl:cardinality="1"/> <own:onProperty rdf:resource="#hasFather"/> </rdfs:subClassOf>
長くなってきたのでエントリを分ける。
August 1, 2004
[論文紹介]Weblog 研究の現状
人工知能学会の「第7回セマンティックウェブとオントロジー研究会」の発表で使われた資料。著者はsemblog.orgの武田英明氏。
たった4頁という短さのため、かなり駆け足になっているが、blog(=Weblog)をネタにした国内外の諸研究について見通しよくまとめており、面白い内容になっている。blog研究に関心を持っているひとは、ぜひ目を通してみてほしい。
わざわざ言うまでもないことだが、CMS(content management system)としてのblogには、技術的な新規性はほとんどない。必然、blogを扱った研究というと、大勢の人々によって書かれた膨大なドキュメントのなかから情報を取り出すというような、いわゆるテキストマイニング的なアプローチが中心になるようだ。文中では、blogデータからのトレンド解析や、評判情報抽出の研究が紹介されている。また、blogや記事同士の関係を明らかにしようというものもある。個人的に興味を持ったのは、「リンクとしては張られていない関係」を用いてblog間の関係を推定しようという[13]の研究。ぐぐったらpdfがヒットしたので読んでみようとおもう。
また、研究対象としてのblogについて、
一つはWeblogを新しいメ ディアと考え,このメディアと人間あるいは社会 との関わりとしてWeblog を分析するものである. これは主に心理学,社会学の範疇の研究である. 当然メディアの技術を研究するものもある.この メディアにおける技術の評価や新規技術の提案な どである.これは工学的研究といえよう.また, これと関連しているが,Weblog がつくる情報空 間の分析もある.
としたうえで、心理学的立場からblogを扱った研究についても紹介している。こちらもなかなか面白そうだ。
Weblog研究の現状
http://www.jaist.ac.jp/ks/labs/kbs-lab/sig-swo/papers/SIG-SWO-A402/SIG-SWO-A402-06.pdf
June 27, 2004
[論文紹介] 『The MyLifeBits Lifetime Store』
Microsoftのやってるプロジェクト『MyLifeBits』に関する論文。MyLifeBitsについてはITMediaのこの記事なんかを参照すると、だいたいのところが掴めるとおもう。
MSの「MyLifeBits」は何から何まで記録する
http://www.itmedia.co.jp/news/0304/21/cead_coursey.html
ストレージの大容量化に伴って、人間の一生をまるごとハードディスクの中に溜め込めるようになりました。そこでそのためのデバイスやアプリケーションを作っていきましょう、というのがMyLifeBitsの骨子で、プロジェクトのリーダーであるGordon Bellというひとが自ら実験台となり、日々の記録を蓄積している。
We have used Gordon Bell’s life for an experimental corpus. Everything possible from his past has been digitized, including: articles, books, cards, CDs, letters, memos, music, papers, photos, posters, paintings, presentations, home movies, videotaped lectures, and voice recordings. These are combined with media from his PC such as digital photos, email, and calendar events.
日常生活の中で関わったものを、デジタル化可能ならばなんでも保存してしまおうという、非常に徹底したアプローチで、上の一節を読んでぼくなどはちょっと吃驚してしまった。読んだ本や聞いたCDは良いとして、電話の内容や手紙までを保存の対象としてしまうことには、ぼくなら抵抗を感じるからだ。データをため込んだPCをhackされて誰かにデータを盗まれたらどうするのかとか、Gordon Bellは心配じゃないんだろうか。上に挙げたITMediaの記事では、「プライバシなんて知ったことか」的な発言をしているが、彼くらいの情熱に駆られると、そんなことは気にもならなくなるのかなあ。
それにしてもこのシステムは非常にスケールがでかい。日常生活を記録していくためのカメラやマイクといったウェアラブルなデバイスを作らなくちゃならないし、膨大なデータを管理するためのデータベース技術が必要になるし、文章画像音声動画と異なるメディアを統合的に扱うための検索技術だって必要だ。それだけじゃない。データを守るためのセキュリティは? 軽快で使いやすいユーザ・インターフェースは? ブラウザやEPGとの連携は? ……挙げていくと切りがない。論文中にはシステムの概要図が示されているのだが、なんとも壮大で、Microsoftの潤沢な人的・経済的なリソースがあってこそのプロジェクトだという感じがする。
また、論文のなかに次の一節がある。
The MyLifeBits system supports capture, storage, retrieval, reporting, annotation, and story creation.
MyLifeBitsが、単純にありとあらゆるデータを溜め込むだけのシステムではなく、そこから先の、検索や注釈付けまでを含んだものであることが述べられている。"story creation"ってのが何なのかが気になるが、論文中ではこれ以上触れられていない。storyっていったい何だ。絵本仕立ての物語でも作ってくれるんだろうか。
実際、日常の膨大なデータをデジタル化し、巨大なストレージに溜め込んでいくことは、このシステムのほんの入り口に過ぎない。溜め込んだデータを適切にインデクシングし、ユーザがそれを活用していくことに本質があるのだとおもう。話はやや逸れるがぼくの研究室にこのMyLifeBitsにやや通ずる研究をしている先輩氏がいるのだが、氏のやろうとしていることにしても、データを蓄積することはあまり重要でないというか、わりと些末的な事項なのであって、蓄積したデータをどうやって後から活用できるようにしていくかが研究の要になるんじゃないかと思うんだが氏はいまいちそのあたりを認識していないような気がしてちょっともったいないなとおもう。まあそれはいいとして。
切りの良いところでエントリを分ける(続く)。
May 23, 2004
what's semblog???
Personal Knowledge Publishing Suite with Weblog
Personal Knowledge Publishing Suite with Weblog">http://www.blogpulse.com/papers/www2004ohmukai.pdf
"semblog"とは、"Semantic Web"と"Weblog"をくっつけた言葉。セマンティック・ウェブのアプローチを既存のblogのシステムに取り入れてみましょう、というお話である。
We propose a personal knowledge publishing system called Semblog with Semantic Web techniques and Weblog tools. Semblog suites provide an integrated environment for gathering, authoring, publishing, and making human relationship seamlessly to enable people to exchange information and knowledge with easy and casual fashion.
Webの利用価値として情報収集(collect)、情報発信(create)、情報提供(donate。これは情報交換とでもしたほうが適当かもしれない)の3つのプロセスがあるが、既存のWebだとこれらが別々のツールで提供されていて、能率があんましよろしくない。そこでこいつらを統合するためのツールがあったら便利なんじゃないかなぁ、ってのが出発点となった着想っぽい。具体的には、ユーザが日々ポストするblogの記事を解析して、それにハイパーリンクが含まれていたら、そこから繋がるリンクをRSSとしてゲットできるようにしたりする。あるいは、個々の記事を中心にしたネットワーク(下図)を作って、その範囲のなかでキーワード検索ができるようにする、とか。
おもしろいと思うのは人と人のリレーションシップを取り入れようとしてるところ。下は公式Webからの引用。
で,Community Webの話.人によっては「またまたそんな怪しげな単語を持ち出して」と思うかもしれない.まあそうかも.自分でもそう思うことがあるし.が,実際にはそんなに大層な話ではなく,Web上の情報リソースを人単位で管理してもらおう,そして人の間にリンクを張ることで構造をすっきりさせよう,というのがCommunity Webのキモである.これまでのWeb(ここではInformation Webと呼ぶ)は端的に言えば情報(HTML)とその間のリンクしかない世界である.このシンプルかつ混沌とした世界において自然言語処理とリンク構造でなんとか検索したりしているのが現状で,それなりにうまくいっているのだけれども最近ではWeblogのSEO効果などでやや破綻が見えつつある.semblogプロジェクトでは,そこに人という概念を持ち込み,人ごとの情報の整理を簡単にでもやってもらい,そのうえで人と人をつないでいく,すなわち人-情報のリンクと人-人のリンクという2階層のモデルをWebに導入しようと考えている.
で、そのためにFOAFやら何やらのセマンティックウェブな技術を使っていきましょう、という筋書きのようだ。そんなに簡単な道のりじゃないと思うんだけど(つーか、このあたりの技術的な詳細がいまいち見えないんだよな。どんなふうにやろうとしてるんでしょうか)、考え方としては魅力的だとおもう。引っかかるのは、人と人のリンクをどうやって貼るか、ということ。FOAFの仕様はあまり詳しく知らないのだけど、FOAFで表現できる人と人の関係っていうのは非常に単純で、"knows(相手のことを知っている、の意)"くらいのことしか表現できないじゃなかったっけ。つまり、人と人の間にリンクを貼ることはできるけど、そのリンクがどんな質のものであるかはほとんど記述できない、と。でも、ちゃんと情報検索etcの用途に役立つような人と人との関係のネットワークを作ろうと思ったら、たぶんそのリンクがどんな関係であるのかを記述できないとダメだとおもう。具体的に「こいつとそいつは大学の鉄道サークルの仲間です」みたいな記述ができるなら、そこから「ここからここまでは鉄道オタクの領域」ってのを見つけることができて、ぼくが鉄道関連の検索クエリを投げたときに、そういった領域の中だけで検索する、みたいなことができるかもしれない。それとも、「友達同士は似たもの同士」的なものが前提としてあるのかな。まあそれは確かにあるとおもうんだけど、でもそれをWeb上の情報の構造化に適用したときに既存の手法よりも良い結果が得られるかどうかと言うとよくわからない。んー。どうもまとまらないな。まあいいや。
この手の論文はその価値を鑑定することが難しいのだけど、個人的にはおもろいと思いました。
