June 09, 2004

spidering hacks

spideringhacks.jpg

spidering hacks』はWeb上のコンテンツを取得したり加工したりするためのテクニックを集めた本だ。和訳が出たのでさっそくgetしたのだが、評判に違わぬ面白さ。

この本の良いところは、テクニックを単に適当にジャンル分けして羅列するのではなく(もちろんそういう本がダメだってわけじゃないが)、頭から読めば、きちんと段階を踏んでspider作りのノウハウを学んでいけるようになっているところだ。まずspiderとしてのマナー(robots.txtを遵守すべきことや、必要以上に相手のサーバに負担を掛けないこと)について触れ、続いてlib-www-perl や WWW::Mechanizeといったライブラリの使い方を説明し、実践的なテクニックの紹介に移るという流れになっているのだが、これはよくできた構成だとおもふ。

amazonやgoogleの提供しているAPIや、RSSの利用など、新しめの事柄もちゃんとフォローされているのも良い。言語やライブラリを選ばず、適材適所に使い分けるという思想も宜しい(掲載されているコードの多くはperlだが、他にjava, python, PHPが使われている)。すべてのソースコードをダウンロードできるようになってるのも偉い。それにしてもCPANはすごいなぁ。



Trackback

You can ping this entry by using http://windy.ac/MT/mt-tb.cgi/396 .

Comments

Post a comment










Remember personal info?