November 25, 2004

[もぶろげっと]広告画像が鬱陶しいです。なんとかしてください。

Posted at November 25, 2004 04:39 AM in .

たとえばこんなのとか。

497.html.dat_0.jpg
http://ad.a8.net/svt/bgt?aid=040823492297&wid=001&
eno=01&mid=s00000000335002015000&mc=1&.gif

この種の広告画像はノイズにしかならないのでもちろん排除したいのだが、どうやって排除するかは難しい問題だ。画像の中身を見て画像工学的にあれこれするというのは容易ではないので、必然、URLからフィルタリングをしようということになる。ここで、どれくらい厳しい基準を適用するかどうかで悩む。

基準として考えられるのはだいたいこれくらいか。

  • そのblogのディレクトリ内に置かれている画像のみを対象とする
  • 広告画像にはほとんどのケースでユーザID(?)が付加されている。なのでURLに'?'や'&'が含まれるものをはじく
  • ブラックリスト(業者のドメイン名のリスト)を持っておき、URLとブラックリストを照合してリストに該当するものをはじく

1つ目のは広告をほぼ完璧に排除できるのだが、ちょっと厳しすぎる。取るべき画像をかなり取り落とすことになるのでやりたくない。3つ目のはブラックリストのメンテナンスが面倒なのでやだ。というわけで今のところ2つ目のやり方で対応している。なにか良いアイディアがあったらお寄せ下さいませ。



Trackback

You can ping this entry by using http://windy.ac/MT/mt-tb.cgi/658 .

Comments

/http:\/\/adv?./にマッチするものを排除で、だいぶ取れる気がします。

Posted by naruse at November 25, 2004 05:18 AM

Post a comment










Remember personal info?