| Su | Mo | Tu | We | Th | Fr | Sa |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
とある会社にお呼ばれして、先の水曜日に、クローラについて講義(?)をしてきました。その時に使ったパワーポイントのスライドを公開します。クローラという、非常にマイナーな題材ではありますが、興味のある方はぜひご覧になってください :-)
出席者が皆さんエンジニアの方だったので、内容も技術寄りなものになっています。最初にクローラについてざっと説明して、あとはクローラを作るときにどのような技術的な問題があるのかを順に述べていくという構成になっています。
また、以下補足的に、クローラを扱った有用なURLを紹介します。
クローラについては、少なからぬ数の学術研究が行われています。wikipediaの「web crawler」の項目では、それらが見通し良くまとめられています。簡潔にして要を得ており、クローラを扱った研究を概観するのにこれ以上のものはおそらくないだろうと思われます。
Issac Goldstandによるパワーポイント資料「Creating a Web Crawler in 3 Steps」では、シンプルなクローラをLib-WWW Perl(LWP)等のライブラリを使ってperlで実装する流れを解説しています。実際のソースコードも載っており、クローラの実装の実例を知るのに非常に有用です。
カリフォルニア大学アーバイン校のPierre Baldiらは、彼らの著書「Modeling the Internet and the Web : Probabilistic Methods and Algorithms」の内容をまとめたスライドをWebで公開しています。その中にクローラに関する内容があり、数式だらけでやや高度ですが、応用的なクローリング手法について紹介されています。
David Kelloggによる「Evaluation of Open Source Spidering Technology」では、オープンソースなクローラの評価を行っています。オープンソースなクローラについて知るには、僕のまとめたエクセルシートもそれなりに有用かもしれません。
他にもあると思うんですが、他に良いURLをご存じなら、ぜひコメント欄で教えてください。スライドの内容についての突っ込みも歓迎します。

