designed by www.qrone.org
January
2009
Su Mo Tu We Th Fr Sa
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
INFOMATION
- 自己紹介
- マイミク申請はお気軽に:-)
- いまいち使い方がわかりません
- 気になるURLをクリップ
- Awstats を使っています
RECENT ENTRIES
CATEGORIES
MONTHLY ARCHIVES
HATENA BOOKMARK
BLOG PET
LICENCE
CONTACT
shin at windy dot ac
2005年9月16日
IBMのWebFountainプロジェクトでは、たった48台のXeonマシンでクローリングをしてるらしい このエントリーを含むはてなブックマーク

今月号の情報処理学会誌によると

IBMアルマデン研究所が実施しているWebFountainプロジェクトでは、48台の2.4GHz Intel Xeon 2CPUサーバを用いてWebページの収集(5000万ページ/日)を行っている

とのこと。

ということは、だ。48台で5000万ページ/日なんだから、

 約100万ページ/台日

になって、さらに1日=86400秒なので、

 約12ページ/台秒

ということになるのか。これは一見「Xeonを2つ積んだマシンを使って、1秒あたり12のHTMLをダウンロードするなんて、普通にプログラムを書けば達成できる、なんでもない数字じゃないか」と思ってしまうけど、これだけの規模のクローラになると、効率的にWebを巡回するための順序づけや、既に巡回済みのURLへの再巡回のスケジューリングなど、諸々の複雑な処理が入るため、この数字はかなり優秀だとおもう。何を使ってるんだろう。やはり1からフルスクラッチで書いてるのかな。オープンソースなクローラだと、分散処理に対応したもの自体ほとんどないし。後でちょっと調べてみよう。

トラックバック URL :
http://windy.ac/mt/mt-tb.cgi/1169
名前 :

URL :

コメント :

今日の井原. Since 2003.11.12 by Ihara
614 Entries - 0 Comments