designed by www.qrone.org
March
2006
Su Mo Tu We Th Fr Sa
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  
INFOMATION
- サムネイル画像付きのblog検索エンジンです
ベータ版を絶賛公開中!
- 学園もののえろげです 18禁
- mixiのユーザ同士で、共通するコミュニティを表示するツールです
RECENT ENTRIES
3/21
技術書あげます
3/20
えろい画像だけモザイク
3/14
[読書]けなす技術
2/13
CatchPhraser(きゃっちふれいざー): スニペットとしてキャッチコピーを表示するblog検索エンジン
2/ 6
AdWords appears everywhere!
2/ 6
Cマガジン休刊
1/26
「オープンソースの全文検索エンジンの速度性能比較」のご紹介
1/25
日経コンピュータ誌の特集「IT関連学会の憂鬱」を読んだ
1/23
googleの新卒採用説明会に申し込んでみたよ
1/16
[memo]OpenCVの顔認識機能を使う
1/ 6
自分自身をブックマーク
1/ 6
Newzingo: tagをベースにGoogle Newsを閲覧するインタフェース
12/15
Google Tip: "(ダブルクォーテーション)は閉じなくてもOK
12/ 4
リンク見出し是非裁判の件
12/ 4
脅かされる本人認証
CATEGORIES
MONTHLY ARCHIVES
COUNTER
ABOUT
- 自己紹介
- 気になるURLをクリップ
- Awstats を使っています
LICENCE
CONTACT

登録はお気軽に:-)

mail:
shin at windy dot ac
MSN Messenger:
ryoju at hotmail dot com
7 17, 2004
オープンソースなクローラをまとめてみたよ

研究室でクローラ勉強会なるものをやることになって、その中でクローラのソースコードを読むことになりました。んで、ぼくがその講師役を仰せつかりました。そこで、どのクローラのソースを読むかを決めるために、オープンソースなクローラをリストアップして、それらについて簡単に表を作りました。どこかに役立ててくれるひとがいるかもしれないんで、ここに置いておきます。

Download file

表の見方ですが……まあ、見れば分かります。たぶん。

 

#クローラってのは、WWW上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムのことです。もうちょっと詳しく知りたい方はここなど御覧ください:-)
http://ja.wikipedia.org/wiki/%E3%82%AF%E3%83%AD%E3%83%BC%E3%83%A9

トラックバック URL :
http://windy.ac/MT/mt-tb.cgi/710

うおー。とっても参考になる。

ネット上では、クローリング技術についてあまり議論されないよね。特に、分散での処理については。
まぁ。ネット上で議論 = 個人レベル のような感じなので、分散処理(大規模)のように個人レベルを超えてるのなら仕方ないかな。

by ぶでいぬ(井原) - 2004年07月18日 00:42

裏方すぎて注目されにくいよね。インデクサだとnamazuがかなりメジャーだけど、クローラで同じような地位に居るものって見つからない。

技術的な難しさが分かりにくい(=理解されにくい)し、検索エンジンで使われるような大規模なものになってくると、分散処理もそうだけどハードウェアのレベルでの仕事が要求されてくるから、仰るとおり、個人レベルでは議論されないわな。どうしても。

名前 :

URL :

コメント :

今日の井原. Since 2003.11.12 by Ihara
568 Entries - 1064 Comments