| Su | Mo | Tu | We | Th | Fr | Sa |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 | 31 |

研究室でクローラ勉強会なるものをやることになって、その中でクローラのソースコードを読むことになりました。んで、ぼくがその講師役を仰せつかりました。そこで、どのクローラのソースを読むかを決めるために、オープンソースなクローラをリストアップして、それらについて簡単に表を作りました。どこかに役立ててくれるひとがいるかもしれないんで、ここに置いておきます。
表の見方ですが……まあ、見れば分かります。たぶん。
#クローラってのは、WWW上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムのことです。もうちょっと詳しく知りたい方はここなど御覧ください:-)
http://ja.wikipedia.org/wiki/%E3%82%AF%E3%83%AD%E3%83%BC%E3%83%A9


うおー。とっても参考になる。
ネット上では、クローリング技術についてあまり議論されないよね。特に、分散での処理については。
まぁ。ネット上で議論 = 個人レベル のような感じなので、分散処理(大規模)のように個人レベルを超えてるのなら仕方ないかな。
裏方すぎて注目されにくいよね。インデクサだとnamazuがかなりメジャーだけど、クローラで同じような地位に居るものって見つからない。
技術的な難しさが分かりにくい(=理解されにくい)し、検索エンジンで使われるような大規模なものになってくると、分散処理もそうだけどハードウェアのレベルでの仕事が要求されてくるから、仰るとおり、個人レベルでは議論されないわな。どうしても。