October 09, 2004
PageRankをまとめてゲットだぜ!
サイト内の全ページのPageRank一覧を表示するスクリプトが書けた。有用な情報を呉れたceekz氏に感謝します。
「今日の井原」をターゲットにして実行した結果がこちら。
http://www.seman.cs.uec.ac.jp/~shin/blog/archives/test_php.html
実装としては、サイト内に存在するURLのリストを作るところまでをJSpider(javaで実装されたオープンソースなクローラ)で、URLのリストからgoogleにPageRankを問い合わせ、最終的な出力を作るところまでをPHPで書いている。JSpiderはじつに便利だ。クローラとしてはあまり高機能とは云えないが、それでも好き勝手に弄れるクローラがひとつあるとお遊びの幅が広がってすばらしい。
今のところ、PageRankのスコアごとにURLを列挙するだけという見栄えの悪さなので、せめてURLをページのタイトルに置き換えるところまではやろうとおもっている。その前に徹夜明けで眠いんでこれから寝るけど。ぐぅ。
需要があるならぼくのサーバで提供するなり、ソースコードを公開するなりするところですが、欲しいという人は居ますか?
Trackback
You can ping this entry by using http://windy.ac/MT/mt-tb.cgi/577 .
Comments
あのですね、半月ほど前に新たなアルゴリズムが導入されたはずなので、そのチェックサムアルゴリズムは正確な結果を返してこないかもしれませんよ。
で、新アルゴリズムは以下から拾えます^^
http://blog.outer-court.com/archive/2004_09_16_index.html#109533071478967236
おお。すばらしい情報をありがとうございます。
さっそく使わせていただきます。
