April 24, 2004
yahoo! japanのマルチメディア検索がいまいち使えない件について
なんとyahoo! japanが画像、動画、音声の検索に対応したという。
検索できるファイル形式は、画像がJPEG/GIF/PNG、動画がAVI/MPEG/Quicktime/RealMedia/Windows Media、音声がAIFF/MIDI/MP3/WAV/RealMedia/など。形式ごとに検索できるほか、画像であれば「大」「中」「小」「壁紙」といったサイズで、動画や音声では「〜1分以内」「1分以上〜」というように再生時間で検索結果を絞り込める。
すげぇぇえ〜まじかよやるじゃねーかよyahoo!とか思ってさっそく試してみる。
ちょうど「可愛いねこたんの壁紙が欲しいなぁ」と思っていたところだったので、"猫 壁紙"と入れて検索。出てきた結果は6件。で、たった6件かよ、ちょっと少ないんじゃないの、とか思いながら結果を見ると、
よーわからんアニメ絵……2件
白い花の絵……1件
変な模様……1件
ねこたん……2件
……。件数も少ないしぜんぜんねこたんが居ないじゃん。やっと出てきた2件にしても、1件は62x86でもう一件は224x172。このサイズの画像を壁紙とは呼ばない。画像サイズを指定するコンボボックスが別にあるのは分かるが、クエリに"壁紙"とあるならちゃんと壁紙っぽいものを提示して欲しいのだが無体な要求だろうか。イメージ検索で先行するgoogleの検索結果のほうが明らかに良好だぞ。こんなんでいいのか、yahoo。
複数の単語を指定したのが悪かったのだろうかと考え、続いて"小倉優子"で検索してみる。検索結果は63件で、こっちはだいたい正確っぽい。だがこれにしても、やはりgoogleの結果のほうが使い物になるぞ。まあ、どちらにせよノイズだらけの検索結果が返されるので、あとは人間様が欲しいモノを選っていくという作業が必要になるのは一緒。それにしても、画像サイズを指定するコンボボックスで"壁紙"を指定すると2件が表示されるのだが、これがどっちも小倉優子でないというのはどういうことだ。たった2件にまで絞り込んで置きながら両方とも外してるっていうのはまずいんじゃないんですか。まあいいけど。
クエリに"?"とだけ入れて検索しようとすると、登録された画像の総数(たぶん)を取れる。それによるとこの瞬間における登録数は442321436件だそうで、4億超の画像ファイルを拾ってきておきながらこの精度なのか。ん〜。微妙だ。ここまで作り上げるのだってそんなに簡単な道のりではなかったのだろうが、もうちょっとなんとかならないものなのかな。
仕組みを推測すると、
1.画像のURL
2.画像のサムネイル
3.画像の近傍やらalt属性やらのテキスト
をワンセットとしてデータベースに持っておき、検索クエリが来ると3に対して検索を掛け、結果をHTMLに整形して表示って感じだろうか。検索結果を閲覧してくと、たまに404扱いで表示されない画像があるので、このへんはgoogleといっしょで、データベースに持っておくのはサムネイルだけっぽい。ストレージの問題なのか著作権や肖像権の問題なのかはわからない。3については形態素解析を掛けて、重要語だけを抜き出すという前処理もしてあるかもしれない。
割とネガティブな書き方をしてしまったが、画像サイズやファイル形式のような絞り込みができるインターフェースはとても良いとおもう。"猫 壁紙"にしても、"猫"だけで検索したうえで画像サイズ-壁紙で絞り込むと、悪くない結果が取れる。また、動画と音声も、googleがまだ提供していないという点で宜しいんじゃないかと思いますです。これからがんがん改良されて精度が高まっていくことに期待します。
====================================
追記(2004/04/26)
検索結果として元画像を表示するのは著作権的に灰色。サムネイルならセーフ、とのこと。
http://japan.cnet.com/news/media/story/0,2000047715,20059801,00.htm
Trackback
You can ping this entry by using http://windy.ac/MT/mt-tb.cgi/353 .
Comments
尾内研で誰かか像検索ってやってくれないのかなあ、って人任せだけども。鶴見君の結果とか見るとドメイン絞ればいい結果が出るってことはいえそうだし。うち的には画像のみとかテキスト利用のみとかにこだわらないで、ある程度のドメイン絞ってなんとかうまくやれる方法をとりあえず模索してみる、なんていうのも面白そうなんだけどなあ。
そですね。
googleにせよyahooにせよ、いま提供されているインターネットに対する画像検索は実にしょぼい。改善の余地がありありだと思います。画像専門のメタ検索エンジンというのは、方向性としておもしろいかも。
