| Su | Mo | Tu | We | Th | Fr | Sa |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
たとえばこんなのとか。

http://ad.a8.net/svt/bgt?aid=040823492297&wid=001&
eno=01&mid=s00000000335002015000&mc=1&.gif
この種の広告画像はノイズにしかならないのでもちろん排除したいのだが、どうやって排除するかは難しい問題だ。画像の中身を見て画像工学的にあれこれするというのは容易ではないので、必然、URLからフィルタリングをしようということになる。ここで、どれくらい厳しい基準を適用するかどうかで悩む。
基準として考えられるのはだいたいこれくらいか。
1つ目のは広告をほぼ完璧に排除できるのだが、ちょっと厳しすぎる。取るべき画像をかなり取り落とすことになるのでやりたくない。3つ目のはブラックリストのメンテナンスが面倒なのでやだ。というわけで今のところ2つ目のやり方で対応している。なにか良いアイディアがあったらお寄せ下さいませ。

