June 14, 2004
読書: 『言語と計算5 情報検索と言語処理』
このあいだのゼミでプロフェッサー・ONAIが「この本を何度も読み返している」と仰せになったので、そんなに良い本なら読んでみようと手を着けてみた。10日くらい掛けてのんびりと読了。『言語と計算』は情報工学における自然言語処理を敷衍した全五巻のシリーズもので、この『情報検索と言語処理』ではテキストを対象とした情報検索技術を扱っている。
内容としては、まず概論から入って索引付けや接辞処理といった自然言語処理の基礎的な作法について述べ、次いでこれまでに提案されてきた主要な検索モデルを紹介している。ここまでで二章。「第3章 情報検索システムの性能評価」では検索システムを如何にして評価するかについて述べ、「第4章 言語処理技術の利用」ではテキスト検索システムにひろく使われる形態素解析、統語解析、シソーラスetcについてトピックス的に扱い、「第5章 ユーザ・インタラクション」ではフィードバックやユーザ・インターフェースについて述べられている。最後に意味論(セマンティクス)や語用論(プラグマティクス)について軽く触れてお終い。全体的に非常に見通しが良く、基礎的な知識を一通り身につけられるように構成されている。また、参考文献が豊富に挙げられているのもポイントが高い。プロフェッサー・ONAIが何度も読み返すだけのことはあって、良書だとおもう。
面白かったのはこれまでに提案されてきた検索モデルを紹介している箇所(p39〜)。いろんなアプローチがあって楽しい。名前だけ挙げておくので、気になるものがあったらぐぐるとかしてみてくださいな。amazonで本そのものをゲットしても良いし。
残念なのは、この本がgoogleの台頭以前に書かれているということ。また、全体を通じてインターネットへの関心も薄く、このあたりには非常に物足りなさを感じる。発行は1999年である。本書が実際に執筆されたのはYahoo!をはじめとするディレクトリ型検索エンジンが全盛だった時代で、インターネット上のテキストデータを対象とした検索技術が発展していく前夜といった時期なので、まあ仕方ないというところだろうが。五年後の今に書き直されるとしたら、また違った内容が多く含まれてくるのではないかな。Web検索に一章が割かれて、PageRankアルゴリズムの丁寧な解説がされたり、とか。
この本がナイスだったんで、もう少し関連する本を漁ってみようと思う。今のところの候補はこんなところ。
『言語と計算4 確率的言語モデル』
コーパスを使った確率的な言語処理を扱った本。コーパス言語処理にはとっても関心があるので、まずこいつから逝ってみようとおもう。大学の図書館にもあるみたいだし。
『岩波講座ソフトウェア科学(15) 自然言語処理』
アルゴリズム中心に書かれた本。形態素解析のアルゴリズムとか載ってるらしい。面白いかも。
『Webマイニング』
Webデータを対象としたテキストマイニングについて書かれた本。タイトルは非常にそそるものがあるのだが、面白いのかな。
『Foundations of Statistical Natural Language Processing.』
『Statistical Language Learning (Language, Speech and Communication Series)』
コーパス言語処理の名著。とくに前者はバイブルと呼ばれているほどらしい。洋書なので手を着けるには勇気が要る。
Trackback
You can ping this entry by using http://windy.ac/MT/mt-tb.cgi/406 .
