| Su | Mo | Tu | We | Th | Fr | Sa |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
http://www.um.u-tokyo.ac.jp/publish_db/2001Hazama/index.html
これは面白い。 東京大学総合研究博物館で行われた、真と贋、たとえば複製や贋作をテーマにした展示会のWeb版。
まず「緒言」と「総論 揺れ動く『真』と『贋』」を読んで、 あとは適当に面白そうな文章や展示物を拾っていくのがお勧め。
「総論 揺れ動く『真』と『贋』」の文章が見事なので プロの研究者や文筆家のものかと思ったんだけど、 東大の人文系の院生らしい。クオリティ高いのう。

A variety of toolkits have been developed both commercially and in academia that provide the functionality to generate semantic metadata for the content on the Web. Currently, most existing toolkits provide an integrated environment to annotate only flat text on Web pages. However, we see the need to annotate additional media available on the Web as well. Given this motivation, we have developed PhotoStuff, a toolkit that provides users the ability to annotate regions of images with respect to an ontology and publish the automatically generated metadata to the Web. Below, two visualizations of the general idea behind PhotoStuff are provided.試訳:
セマンティックなメタデータをWeb上のコンテンツに対して作成するツールキットは、これまでに商業・アカデミックを問わず数多く作られてきました。現在提供されている多くのツールキットは、Webページ内のフラットなテキストにたいして注釈をつけるものです。しかし、私たちはWeb上のメディアに対しても同様に注釈を付ける必要があると考えています。そのために、私たちはPhotoStuffを作りました。PhotoStuffは画像上の領域に対してオントロジーに基づいた注釈を行い、自動的にメタデータを作成しWeb上に公開する機能を提供します。下にPhotoStuffのアイディアを説明する2つの図を示します。
PhotoStuff
http://www.mindswap.org/2003/PhotoStuff/

.NET FrameworkではProcessクラスを使って外部exeを実行します。そのとき、標準出力をリダイレクトさせて、Processの側で受け取ることができます。
ところが、Processクラスは受け取った標準出力を勝手にShift-JIS(?)にエンコードしてしまうため、受け取った標準出力がUnicodeその他の文字コードだと、得られる文字列は化け化けになってしまいます。困りますね。
たとえばHyper Estraierのestcmd.exeは出力をUnicodeで返してくるんですが、これを素直にProcessクラスで受け取ると文字化けで使い物になりません。超fuck。
なんとかしてProcessクラスに対して標準出力の文字コードを指定してやりたいところですが、どうも無理なんじゃないかと思われます。少なくとも僕の知識では無理でした。Process.StandardOutput.CurrentEncodingが文字コードの変換をしていると思うのですが、これがReadOnlyになっていてどうにもなりません。
で。対処策としては、間に別のexeを挟む、ということになります。
たとえば、cmd.exe(コマンドプロンプト)を間に挟んで、ファイルとしてリダイレクトし、それをStreamReaderクラス等で読み直すとか。
ファイルを経由するのがだるいので、代理でプログラムを実行して、得られた標準出力をUnicodeに直してから出力し直すプログラムがあれば良いのですが。まあ、とりあえずはファイルを経由する実装でやっておこう。

せっかくだから「ブログは記事単位で読まれ、過去ログは読まれない云々」についての関連リンク集を作っとく
http://d.hatena.ne.jp/laiso/20050721/lg
一通り辿って読みました。非常に面白いです。
記事によって問題意識が違うのですが、だいたい以下の3つにまとめられるでしょうか。
・記事単位であちこちに分散しているせいで、議論の流れを追うことが難しくなっている。
また、議論の流れをしっかりと追わずにコメントする人が多い。
・過去の議論が埋もれていくため、同じ議論がループしてしまう
・(blogの書き手の立場から)このblogには他にも面白い記事があるのに、読んでくれない
(読み手の立場から)他にも面白い記事があるかも知れないが、それを見つけ出す手段がない

Learn advanced techniques for maximizing the Google search engine and extract the best content from Google without having to learn complicated code. Go under the hood and learn a wide range of advanced web search techniques through practical examples. This is an ideal resource for students, librarians, journalists, researchers, businesspeople, lawyers, investigators, and anyone interested in conducting an in-depth search.試訳:
googleの検索結果を最大限に活用したり、優れたコンテンツをgoogleから取り出したりするテクニックを、複雑なプログラムコード無しで学びます。実用的な例を通じて、幅広い検索テクニックを扱います。学生、司書、ジャーナリスト、研究者、ビジネスマン、法律家、リサーチャー、その他誰でも、検索に興味を持つ人にとって理想的な書籍です。
まあまあ面白そう。
技術書というより、『Google Hacks』のような小技を集めた本という印象。
http://www.amazon.com/exec/obidos/tg/detail/-/0072257873/104-6181130-4054304

今月号の情報処理学会誌が「コンピュータが将棋を制する日」という特集を載せているのだがこれがとても面白かった。適当にかいつまんで紹介したい。
いま一番強い将棋ソフトは激指(げきさし)という。初耳。僕の知っている将棋ソフトというと、「東大将棋」や「柿木将棋」といった、ゲーム機やPC用ゲームとして出ているものになるのだが、そのあたりは既に第一線の実力では無くなっているという。
これには事情があって、情報工学の研究者たちが将棋に本格的に取り組んだのはかなり最近になってからのことらしい。それまでは「将棋なんて学術研究に値しない」みたいな風潮で、将棋のアルゴリズムをやる人なんてほとんど居なかったんだとか。ふうん。最初のほうではゲーム会社の開発者たちが将棋ソフトを作っていた。しかし、やはりアルゴリズムを作るなら理論的なバックボーンを持っている本職の研究者たちのほうが優れているということで、本格的に情報工学の研究対象となってからは、一気にアルゴリズムの洗練が進んだとか。で、今第一線に居るのはどれも研究者たちの作ったソフトなのだね。このあたりの流れも面白いな。
その「激指」の強さだが、僕自身はあまり将棋を指さないのでいまいちピンとこないところなのだが、はこだて未来大の松原教授が書いた文章から引用すると、
今年のコンピュータ将棋選手権で優勝した激指はアマ5段の実力に達した。(中略)短い持ち時間では6段に近いものと思われる。
(中略)
将棋ファンは少なく見積もって一千万人程度は存在すると思われるが、現時点で激指に勝つことの出来る人間はプロ棋士を含めて千人程度と考えられる(筆者もアマ5段であるが、正直に言って短い持ち時間では勝つ自信がない)。上位の0.01%に入ったことになり、トップになるのも時間の問題になってきた。
とのことで要するにすごく強いらしい。
また、コンピュータ将棋の今後については、どの筆者も非常に強気だ。
松原教授などは、
プロ棋士に勝つのはもはや時間だけの問題になったといえる。
世界チャンピオンである名人・竜王に勝つこともいよいよ視野に入ってきた。
と書いている。まぢかよと思うが、しかしアルゴリズムの洗練とコンピュータの性能の向上はこれからも続くだろうから、いつかは人間のチャンピオンに達するときは来るんだろうな。
肝心の将棋ソフトの中身についてだが、やはり重要なのはゲーム木の枝刈りをいかに上手くやるか、ということになるようだ。ゲーム木のノード数はその深さに対して指数関数的な増加を示すので、如何に余計なノードを捨てて重要なノードだけを探索の対象と出来るかが勝負になってくる。では、実際にどんな探索方法が使われているかというと……すいません、良く分からないや。僕バカだから。実際に雑誌を読んでみてください。参考文献も載ってるし。面白いのは、プロ棋士の棋譜を大量に蒐集しておいて、そこからどういうタイプの差し手がどのくらいの確率で指されるのかを集計し、枝刈りに用いているというところかな。
それにしても。今は人間のほうがまだまだ強いから、そこに追いつこうというのが研究者たちのモチベーションになってると思うんだけど、もし人間のチャンピオンでもコンピュータに歯が立たないような状況が訪れたとして、そこから先はどうなるんだろ。より高いところを目指して、将棋ソフトだけの世界で戦っていくのかしら。悟空とベジータがスーパーサイヤ人同士で争ってたみたいな感じで。
プロ将棋の世界はどうなるんだろうとも思うけど、別に将棋ソフトに負けたからといってプロ棋士としての価値を失うわけではないのだし、そっちはそっちで上手くやっていくんじゃないかなあたぶん。

http://shop.vector.co.jp/service/c0018/dl/index.html
数年前の作品を掘り起こしてきて、 千円~3千円くらいで売るというモデルになってるっぽい。
プレステのベスト版みたいな。
まあまあ面白いと思うけど、こんなので売れてるのかな。
割安感はあるとおもう。競合するのは中古販売店でしょうか。あとはwinnyみたいなP2Pネットワーク?


薄い。たったの110ページ。そして安い。たったの1,800yen。
内容としては、パターン認識に典型的に使われる、さまざまな手法を駆け足で紹介するというもの。第一章でパターン認識の概要を述べ(しかし、この第一章がたったの4ページしかない!)、第2章以下はひたすら各々の手法を順番に取り上げていく。
取り上げられている手法は多岐に渡っており、やや画像認識の分野に偏っているきらいはあるが、ラインナップとしては適切と思う。しかし、なんせ一つ一つの手法に割かれるページ数が少ないので、ほんとのさわりだけを述べてそれでお仕舞いになってしまっている。
お勧めはできない。パターン認識を学びたい人は別の本を選んだ方が良い。まず、全体的に数式をだらだらと並べるだけになってしまっており、概念図や具体例をほとんど示さないので内容を理解しづらい。次に、これだけ多くの手法を取り上げるなら、それらの相対的な位置付けを示すとともに、「この手法はこのような特徴を持ち、このような対象に適している」ということをしっかりと述べるべきだがそれが為されていない。最後に、参考文献が一つも示されていない。著者は大学の教授で、講義のレジュメをそのまま製本したのではないかと思われる。大学の講義ならちゃんと口頭で解説していくから良いのだろうけど、これだけを読まされてもちょっと困るというのが正直なところ。

とはいえ、いまだに欲しい人なんて居るのかな。
アカウントを取得するには、下のURLから適当に一つ選んでアクセスしてください。登録フォームが出てきたら当たりです。「既に登録済みです」みたいなメッセージははずれです。別のものを試してみてください。
http://mail.google.com/mail/a-eea94b9c82-d13eda2366-0ae46e878c
http://mail.google.com/mail/a-eea94b9c82-8d89df967e-23690b9883
http://mail.google.com/mail/a-eea94b9c82-fbb523c084-d3d31de451
http://mail.google.com/mail/a-eea94b9c82-510aa60836-60541506b9
http://mail.google.com/mail/a-eea94b9c82-4b8bf89cbc-f4017151a9
http://mail.google.com/mail/a-eea94b9c82-2101a77aa7-cc26238a60
http://mail.google.com/mail/a-eea94b9c82-770f3812ad-d05ae2861e
http://mail.google.com/mail/a-eea94b9c82-7eaf4567da-6e9bc4faec
http://mail.google.com/mail/a-eea94b9c82-6bd3278b35-c66acbf024
http://mail.google.com/mail/a-eea94b9c82-59b3bb094f-00f664cefa
http://mail.google.com/mail/a-eea94b9c82-57e6b0f8b5-41f653390b
http://mail.google.com/mail/a-eea94b9c82-959fd9afbd-411469d56f
http://mail.google.com/mail/a-eea94b9c82-552fdf7b3b-a4c9180b38
http://mail.google.com/mail/a-eea94b9c82-329c6257a2-20ac176d97
http://mail.google.com/mail/a-eea94b9c82-006e0536e0-c09e2794b2
http://mail.google.com/mail/a-eea94b9c82-5727895f2e-3fb6e9c737
http://mail.google.com/mail/a-eea94b9c82-590c7be18f-2851abd87b
http://mail.google.com/mail/a-eea94b9c82-022f16ac7e-7935927e0e

わろた
おれが小学生だったころに、こういう便利なものがあったら良かったのに。
もちろん、自分で一所懸命考えて、文章をアウトプットすることも大切ですけどね :-)
著作権フリー![自由に使える読書感想文]
http://dokkan-id.hp.infoseek.co.jp/index.html

ひっそりと、ブログ画像検索(ベータ版)始めました。ブログの画像検索のヒット率はかなり凄いです。画像検索はブログ中心でやったほうがいいんじゃないかと思う。
7/13(水) ブログ画像検索とか (livedoor 社長日記)
http://blog.livedoor.jp/takapon_ceo/archives/50009255.html
だそうで、さっそく使ってみました。
もぶろげっとと機能的にはほぼ同等ですかね。blog記事の本文に対して全文検索をして、引っかかったblog記事に含まれる画像をサムネイル表示。
誰が作っているのか少し気になります。下請けに出してるのか、社内で作ったのか。同じようなものをつくるなら、先ず尾内研に話をもってきてくれれば良かったのに。もぶろげっとを作った実績だってあるし、少なからぬノウハウを蓄積しているんですよ。
しかし、もぶろげっとを作っていて&使っていて、また今回のlivedoorのやつを使ってみても思うんですが、正直なところ、blog画像検索エンジンのヒット率がそれほど高いとは思いません。少なくとも現在公開されているレベルものでは高いとは言えないと思います。
たしかにgoogleやyahooの画像検索と比較すると少しはマシかもしれません。しかしそれは
何にせよ、Web上の画像を対象とした検索はまだまだ未開拓で、というか画像を対象とした検索技術そのものがそもそも未開拓なんですが、僕自身も僕の所属する尾内研究室でも、日々色んなことを考えて、議論したり実装したりアルゴリズムを作ったりしています。
livedoorの中の人たちとも切磋琢磨して、よりよい検索技術を作ることを目指してしのぎを削っていけると良いですね。お互い頑張りましょう :-)
livedoor 画像β版
http://blogimage.livedoor.com/

あれだ。
キーボードを押すのに追随してスペルチェックして、
リアルタイムに誤りを指摘して欲しい。
ついでに修正までしてくれるべき。
たとえばいま「くま大好き」と打とうとして
「くまだいsyき」と打ってしまったとする。
まあありがちなタイプミスなわけだが、
ここで
1.これはおかしいぞ、ということに気付いて
2.sy → su とすれば良いということが分かって
3.実際にそれを修正
となればいいんだがあーでも考えてみるとやっぱり難しいか。
ユーザのキー入力に追随するには相当短い処理時間で
やらないとならないし。うーん。
あと、誤変換も治して欲しい。
↑とか打ったら「治して」が「直して」とあるべきだと
気付いて自動的に「直して」に直して欲しい。
勝手にされるとそれが間違ってたときにむかつくから、
ポップアップで「こうやって修正したらどう?」って
提案してくれて、tabを押すと実際に修正するとかでも良い。
こんなの誰でも思いつくから
きっと誰かがもう作ってるに違いない。
さっそく探してみよう(でももう眠いから明日起きてから)
あと、こんなのがあるよってのをご存じなら教えてください。

文書をクラスタリングする手法というのはそれこそ腐るほど提案されているのですが、それらの源流を辿ると概ねこいつらに行き着くらしいです。
(「これもリストに加えるべき」とか、「その手法ならこのペーパーのほうが良いよ」というのがあればコメントでご指摘下さいませ)
手始めにこの5本を読んで、あとはCiteSeerあたりを使ってこいつらをリファーした論文を適当に辿っていけば、文書クラスタリング博士になれますよ。たぶん。

画像をアップロードして、いくつかの項目を埋めると、おたずね者のポスターを作ってくれるよ。
みんなの大好きな西尾幹二先生も、このとおり!
Wanted Poster Generator
http://www.glassgiant.com/misc_wanted_poster.php

好きな言葉を打ち込むと、graffiti風味のロゴにしてくれるよ。
難点はかなり頑張らないと(たまにいくら頑張っても)読めないってとこだね。
Graffiti Generator
http://www.graffiticreator.net/

えーと。あれだ。
単語の共起関係からドメイン判定をするというのはまあありきたりなアプローチなんだと思うんだけど、それにgoogleを使ってる論文があったんで、その手法を実際に実験してみようと思った。その結果を報告するよ。
提案手法は、ある単語があるドメインに属するかどうかを、googleの検索件数を使って判定するというもの。
先ずは式を示す。
R(Domain, Word) = H(Domain, Word) / H(Domain) + H(Word)
ここで、Domainはそのドメインを表す単語、Wordはそのドメインに属するか判定したい単語。
R(Domain, Word)がWordのDomainに対する関連度。H(hoge)でgoogleでのhogeの検索件数。H(hoge, hage)ならhogeとhageでand検索したときの検索件数。
論文では、関連度Rに閾値を設定することで、単語がドメインに属するかの判定を行っていた。
お手軽で面白いなと思ったので、実際にやってみた。
ドメインは「車」とし、それに対して、「車」ドメインに含まれる単語5つ、含まれない単語5つを設定した。
ただし、含まれるかどうかの判断は僕の主観に依っている。
それらの検索件数は以下のようになった。
| 単語w | 検索件数H(w) |
| 車 | 6,700,000 |
| 単語w | 検索件数H(w) | H(車, w) |
| エンジン | 3,230,000 | 712,000 |
| アクセル | 1,030,000 | 355,000 |
| ブレーキ | 906,000 | 1,950,000 |
| セダン | 599,000 | 437,000 |
| トヨタ | 1,070,000 | 660,000 |
| 単語w | 検索件数H(w) | H(車, w) |
| ハードディスク | 1,280,000 | 238,000 |
| オーケストラ | 886,000 | 150,000 |
| 洗濯機 | 1,050,000 | 308,000 |
| ドーナツ | 824,000 | 149,000 |
| 日立製作所 | 752,000 | 65,600 |
続いて、これら10の単語について、Rを算出してみる。
| 単語w | 関連度R(車, w) |
| エンジン | 0.0717 |
| アクセル | 0.0459 |
| ブレーキ | 0.256 |
| セダン | 0.0599 |
| トヨタ | 0.0849 |
| ハードディスク | 0.0298 |
| オーケストラ | 0.0198 |
| 洗濯機 | 0.0397 |
| ドーナツ | 0.0185 |
| 日立製作所 | 0.00880 |
意外と悪くない。0.04あたりに閾値を設定すれば、とりあえず分離できてるね。
とはいえちょっと怪しい感じはするなあ :-)

これだよ! おれが探していたのは。
RSS.NET
http://www.rssdotnet.com/
……んで、これが何なのかというと、C#で書かれたオープンソースなRSSパーサです。
簡潔で要を得たインタフェースなので僕のようなアホで無能なへたれプログラマでも安心です。
んでは、試しに使ってみましょう。
まず、新しいプロジェクトを作って下さい。そして、Form1にボタンとテキストボックスを一つずつ配置して下さい。以下のようになります。
続いて、ボタンのclickイベントに、以下のようなコードを書いて下さい。
private void button1_Click(object sender, System.EventArgs e)
{
RssFeed feed = RssFeed.Read("http://blog.windy.ac/index.rdf");foreach ( RssItem item in feed.Channels[0].Items )
textBox1.Text += item.Title + "(" + item.Link + ")\r\n";
}
さあ、ビルドして実行してみましょう。
今日の井原(このblog)のRSSを取得し、その記事のタイトルとURLを表示します。
次のようになれば成功です。
うーん。賢い。
コードの内容は見れば分かる感じだとおもうのでいちいち解説しません。
より詳細なライブラリの使い方は、Webサイトをご参照のこと。

あれですよ。
著作権を気にしなくてもOKな各種のリソースへの需要というのは常にあるわけですよ。
例えばほんの一例ですが、以下のようなものがあるわけですよ。
Open Clip Art Library (クリップアート)
http://www.openclipart.org/
Open Source Web Design (Webサイトのデザイン)
http://www.oswd.org/
Free PowerPoint Templates for Microsoft PowerPoint (PowerPointのテンプレート)
http://www.soniacoleman.com/templates.htm
翻って、萌え絵の場合はどうでしょう。そういうものはどこにもありません(多分ないと思うんですが、あったらごめんなさい)
しかし、日々のちょっとした局面で萌え絵を使いたいと思うことは多々あります(たぶんあると思うんですが、なかったらごめんなさい)
そこで著作権を気にしなくてもOKな萌え絵のライブラリが欲しいなあと思うわけです。
ぼくのmixiの友達で、いまWebサイトの看板娘(注:萌え絵)が欲しいと言っている人がいて、描いてくれる絵師さんを探しているのです。
それを見て、「ああ、ここでオープンソースなのに!」とか思った次第。
というわけで、誰か志のある萌え絵描きの方々がそういうものを作ってくれることを切に希望致します(他力本願)

遅ればせながら新世代の全文検索インデクサ(Hyper Estraier, Rast, Senna)を使ってみようと思った。
Hyper EstraierのWindowsバイナリをダウンロードしてきて、触ってみた。
さっそくHTMLファイルを1,331,836個(14.6GB)ほど喰わせたら、out of memoryエラーで落ちた。さすがに大きすぎたかということで、テキストファイル421,408個(330MB)で試したらこっちも同じ症状で落ちた。Windowsだとやはり不安定なんでしょうか。そういえばNamazuでもそうだったな。
もっと小さめのデータでインデックスの作成に成功。で、付属cgiで検索してみようとする。
IIS6.0にぶち込んで実行しようとするがうまくいかない。
CGI ErrorThe specified CGI application misbehaved by not returning a complete set of HTTP headers. The headers it did return are:
HTTPヘッダがだめぽとの仰せ。
DOS窓から叩くとうまく行くので、そちらからHTMLを出力させてエディタで開いてみる。
Cache-Control: no-cache, must-revalidate, no-transform
Pragma: no-cache
Content-Disposition: inline; filename=estseek.cgi
Content-Type: text/html; charset=UTF-8(以下略)
んー。ぜんぜん大丈夫そうに見えるけどね。
cgiプログラムはバイナリで配布されてるので簡単にいじれない。どーすっか。
たぶん続く。


ちょっと荒っぽいんですが。
現状を見て、ソーシャルブックマーク(SB)の問題点として感じるのは、
翻って、従来のブラウザ型のブックマークの問題点を考えると、次のようなものが挙げられる。
なので、SBがこれからも新たなユーザを獲得し続け、長く使われていくかというと疑問。
別の形態に置き換わっていくと思う。現在提供されているもののなかで、もっとも理想型に近いのはyahooの"My Web 2.0 BETA"。
ただ、別の方向から見ると、データを公開することそれ自体に価値を見出すユーザ層の存在がある。
(実際、URLをクリップだけのニュースサイトはSBで代替可能で、1470.netなんかはこの方向性でやってる。)
このユーザ層の動向次第ではまだまだ面白いことが出てきそう。
議論の相手をしてくれた如月君に感謝。

この半年、当blogでアクセス数の多かった記事はこいつらでした。
みなさま、沢山のアクセスありがとうございました。
で、思うことは、アクセス数は記事のクオリティに比例しないってことです。「クオリティ」という表現だと曖昧ですが、「書き手の気合いの入れ方」「書き手の真剣さ」といった意味で言っています。
時間を掛けて頑張って書いた知的(だと僕は思ってる)エントリのアクセス数が、モモたんのパンチラの10分の1でしか無いと泣けてきます。不条理を感じてしまいます。(ひょっとしたら、僕以外のblog書きの皆様も、同じように感じた経験があるのかもしれません)
blogの固定的な読者に読まれるだけでは、そのエントリのアクセス数は一定数にとどまります。それを超えるには、それ以外の(固定的な読者以外の)アクセスを獲得する必要があります。大別すると、次の2つのルートがあるっぽいです。
上のTOP10で言うと、Oreyonや論文紹介のエントリはいくつかのニュースサイトに取り上げられたお陰でアクセス数を稼ぎましたし、linux関連のエントリやモモたんのエントリは検索エンジン経由の地道なアクセスがありました。
なので、たくさんアクセスのあるエントリを書きたいと思ったら、如何にしてリンクを貼ってもらうか、検索エンジンで良い感じのポジションに付けるか、ということを考える必要があるのでしょう。具体的にどうすりゃいいのかは良く分かりませんけど:-p
