| Su | Mo | Tu | We | Th | Fr | Sa |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
今月号の情報処理学会誌によると
IBMアルマデン研究所が実施しているWebFountainプロジェクトでは、48台の2.4GHz Intel Xeon 2CPUサーバを用いてWebページの収集(5000万ページ/日)を行っている
とのこと。
ということは、だ。48台で5000万ページ/日なんだから、
約100万ページ/台日
になって、さらに1日=86400秒なので、
約12ページ/台秒
ということになるのか。これは一見「Xeonを2つ積んだマシンを使って、1秒あたり12のHTMLをダウンロードするなんて、普通にプログラムを書けば達成できる、なんでもない数字じゃないか」と思ってしまうけど、これだけの規模のクローラになると、効率的にWebを巡回するための順序づけや、既に巡回済みのURLへの再巡回のスケジューリングなど、諸々の複雑な処理が入るため、この数字はかなり優秀だとおもう。何を使ってるんだろう。やはり1からフルスクラッチで書いてるのかな。オープンソースなクローラだと、分散処理に対応したもの自体ほとんどないし。後でちょっと調べてみよう。

