July 17, 2004

オープンソースなクローラをまとめてみたよ

Posted at July 17, 2004 08:34 PM in .

研究室でクローラ勉強会なるものをやることになって、その中でクローラのソースコードを読むことになりました。んで、ぼくがその講師役を仰せつかりました。そこで、どのクローラのソースを読むかを決めるために、オープンソースなクローラをリストアップして、それらについて簡単に表を作りました。どこかに役立ててくれるひとがいるかもしれないんで、ここに置いておきます。

Download file

表の見方ですが……まあ、見れば分かります。たぶん。

 

#クローラってのは、WWW上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムのことです。もうちょっと詳しく知りたい方はここなど御覧ください:-)
http://ja.wikipedia.org/wiki/%E3%82%AF%E3%83%AD%E3%83%BC%E3%83%A9



Trackback

You can ping this entry by using http://windy.ac/MT/mt-tb.cgi/454 .

Comments

うおー。とっても参考になる。

ネット上では、クローリング技術についてあまり議論されないよね。特に、分散での処理については。
まぁ。ネット上で議論 = 個人レベル のような感じなので、分散処理(大規模)のように個人レベルを超えてるのなら仕方ないかな。

Posted by ceekz at July 18, 2004 12:19 AM

裏方すぎて注目されにくいよね。インデクサだとnamazuがかなりメジャーだけど、クローラで同じような地位に居るものって見つからない。

技術的な難しさが分かりにくい(=理解されにくい)し、検索エンジンで使われるような大規模なものになってくると、分散処理もそうだけどハードウェアのレベルでの仕事が要求されてくるから、仰るとおり、個人レベルでは議論されないわな。どうしても。

Posted by ぶでいぬ(井原) at July 18, 2004 12:42 AM

Post a comment










Remember personal info?