July 17, 2004
オープンソースなクローラをまとめてみたよ
Posted at July 17, 2004 08:34 PM in .
研究室でクローラ勉強会なるものをやることになって、その中でクローラのソースコードを読むことになりました。んで、ぼくがその講師役を仰せつかりました。そこで、どのクローラのソースを読むかを決めるために、オープンソースなクローラをリストアップして、それらについて簡単に表を作りました。どこかに役立ててくれるひとがいるかもしれないんで、ここに置いておきます。
表の見方ですが……まあ、見れば分かります。たぶん。
#クローラってのは、WWW上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムのことです。もうちょっと詳しく知りたい方はここなど御覧ください:-)
http://ja.wikipedia.org/wiki/%E3%82%AF%E3%83%AD%E3%83%BC%E3%83%A9
Trackback
You can ping this entry by using http://windy.ac/MT/mt-tb.cgi/454 .
Comments
うおー。とっても参考になる。
ネット上では、クローリング技術についてあまり議論されないよね。特に、分散での処理については。
まぁ。ネット上で議論 = 個人レベル のような感じなので、分散処理(大規模)のように個人レベルを超えてるのなら仕方ないかな。
Posted by ceekz at July 18, 2004 12:19 AM
裏方すぎて注目されにくいよね。インデクサだとnamazuがかなりメジャーだけど、クローラで同じような地位に居るものって見つからない。
技術的な難しさが分かりにくい(=理解されにくい)し、検索エンジンで使われるような大規模なものになってくると、分散処理もそうだけどハードウェアのレベルでの仕事が要求されてくるから、仰るとおり、個人レベルでは議論されないわな。どうしても。
Posted by ぶでいぬ(井原) at July 18, 2004 12:42 AM
