designed by www.qrone.org
March
2006
Su Mo Tu We Th Fr Sa
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  
INFOMATION
- サムネイル画像付きのblog検索エンジンです
ベータ版を絶賛公開中!
- 学園もののえろげです 18禁
- mixiのユーザ同士で、共通するコミュニティを表示するツールです
RECENT ENTRIES
3/21
技術書あげます
3/20
えろい画像だけモザイク
3/14
[読書]けなす技術
2/13
CatchPhraser(きゃっちふれいざー): スニペットとしてキャッチコピーを表示するblog検索エンジン
2/ 6
AdWords appears everywhere!
2/ 6
Cマガジン休刊
1/26
「オープンソースの全文検索エンジンの速度性能比較」のご紹介
1/25
日経コンピュータ誌の特集「IT関連学会の憂鬱」を読んだ
1/23
googleの新卒採用説明会に申し込んでみたよ
1/16
[memo]OpenCVの顔認識機能を使う
1/ 6
自分自身をブックマーク
1/ 6
Newzingo: tagをベースにGoogle Newsを閲覧するインタフェース
12/15
Google Tip: "(ダブルクォーテーション)は閉じなくてもOK
12/ 4
リンク見出し是非裁判の件
12/ 4
脅かされる本人認証
CATEGORIES
MONTHLY ARCHIVES
COUNTER
ABOUT
- 自己紹介
- 気になるURLをクリップ
- Awstats を使っています
LICENCE
CONTACT

登録はお気軽に:-)

mail:
shin at windy dot ac
MSN Messenger:
ryoju at hotmail dot com
10 22, 2005
都内某社で開催されたクローラ勉強会のスライドを公開します。

 とある会社にお呼ばれして、先の水曜日に、クローラについて講義(?)をしてきました。その時に使ったパワーポイントのスライドを公開します。クローラという、非常にマイナーな題材ではありますが、興味のある方はぜひご覧になってください :-)

 出席者が皆さんエンジニアの方だったので、内容も技術寄りなものになっています。最初にクローラについてざっと説明して、あとはクローラを作るときにどのような技術的な問題があるのかを順に述べていくという構成になっています。







 また、以下補足的に、クローラを扱った有用なURLを紹介します。

 クローラについては、少なからぬ数の学術研究が行われています。wikipediaの「web crawler」の項目では、それらが見通し良くまとめられています。簡潔にして要を得ており、クローラを扱った研究を概観するのにこれ以上のものはおそらくないだろうと思われます。

 Issac Goldstandによるパワーポイント資料「Creating a Web Crawler in 3 Steps」では、シンプルなクローラをLib-WWW Perl(LWP)等のライブラリを使ってperlで実装する流れを解説しています。実際のソースコードも載っており、クローラの実装の実例を知るのに非常に有用です。

 カリフォルニア大学アーバイン校のPierre Baldiらは、彼らの著書「Modeling the Internet and the Web : Probabilistic Methods and Algorithms」の内容をまとめたスライドをWebで公開しています。その中にクローラに関する内容があり、数式だらけでやや高度ですが、応用的なクローリング手法について紹介されています。

David Kelloggによる「Evaluation of Open Source Spidering Technology」では、オープンソースなクローラの評価を行っています。オープンソースなクローラについて知るには、僕のまとめたエクセルシートもそれなりに有用かもしれません。

 他にもあると思うんですが、他に良いURLをご存じなら、ぜひコメント欄で教えてください。スライドの内容についての突っ込みも歓迎します。

トラックバック URL :
http://windy.ac/MT/mt-tb.cgi/1083
by きういくん - 2005年10月24日 09:14

興味深い記事でした。
デジハリ大学院でも検索エンジンプロジェクト(おもにスクレーピングですが…)を立ち上げたばかりですが、参考になりました。私もある程度制限できる形でスパイダリングを持たないと、技術的に難しいので、ある程度のドメイン等を絞ってやるほうが賢いかもしれませんね。

>きういくんさん

デジハリ大学院で検索エンジンプロジェクトですか。
デジハリというとコンテンツ寄りのことをやっているという印象が強いので、ちょっと意外な感じもします。がんばってください。

外部に公開できない点在している、ブログとかwikiとかの情報をなんとか管理する方法(pingServer+スパイダー(pingと特定サーバ内コンテンツ)+自動Index+全文検索)を考えていたんですけど、エクセルシートを見て思いつきました。
ありがとうございます。

名前 :

URL :

コメント :

今日の井原. Since 2003.11.12 by Ihara
568 Entries - 1063 Comments