designed by www.qrone.org
January
2009
Su Mo Tu We Th Fr Sa
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
INFOMATION
- 自己紹介
- マイミク申請はお気軽に:-)
- いまいち使い方がわかりません
- 気になるURLをクリップ
- Awstats を使っています
RECENT ENTRIES
CATEGORIES
MONTHLY ARCHIVES
HATENA BOOKMARK
BLOG PET
LICENCE
CONTACT
shin at windy dot ac
2006年5月30日
SAGOOL: 人の主観・興味を反映した検索結果を提示する国産検索エンジン このエントリーを含むはてなブックマーク

 

sagool.gif

 

 SAGOOLは、チームラボビジネスディベロップメントによって開発されている検索エンジンです。「より主観的なものを大事にした、豊かな検索体験を提供すること」を売りにしており、SAGOOLのWebサイトによると、

新型検索エンジン「SAGOOL」は、独自のアルゴリズム“オモロアルゴリズム”の開発に成功し、Googleに代表される“Webサイトへのリンク数に重きが置かれるロボット型検索エンジン”では抽出することがだんだんに難しくなってきた 「人の主観・興味を反映した検索結果」を抽出することを目指しています。

とのこと。「オモロアルゴリズム」の詳細は明らかにされておらず、「人の主観・興味を反映した検索結果」を抽出することにどれだけ成功しているか判断するのは難しいです。たとえば「横浜市」で検索したときに、横浜市のWebサイトではなく「さるさる日記 - 元挌闘家!戦う横浜市の便利屋!鴨居長太郎!」がトップに表示されるのは確かに面白いのですが、これがオモロアルゴリズムの成果なのかというとそれが良く分からず、単にインデックス数の少なさとスコアリングアルゴリズムの弱さから生まれた偶然なのではないかとも思えます。

 

 ざっと使ってみて感じた点としては、

 1.インデックス数が少ない
 googleとSAGOOLで、適当に選んだ日本語のキーワードで検索し、結果結果の数を比較すると、100程度の差が見られます。たとえば「東京都」で検索した場合、googleの約40,700,000件に対しSAGOOLは561,212件。「萌え」ではgoogleの約16,000,000件に対しSAGOOLは126,983件、などなど。これくらいインデックス数に差があると、検索結果の品質にも響いてくると思われ、インデックス数の増加が求められるところです。

 2.言語の切り分けが出来ていない
 「google」で検索したときにwww.google.co.jpではなくwww.google.comが、「Java」で検索したときにwww.java.com/jaではなくwww.java.comがトップに来るなど、言語の切り分けが十分に出来ていない例が見られます。たぶん日本語圏のユーザに特化して作っていると思うのですが、だとしたらあまり好ましくありません。言語の切り分けは難しい問題ですが、もうちょっと精度を上げて欲しい。

 3.blogの記事やはてなブックマークのページが上位に多く入ってくる
 ……ような気がする。定量的に確認したわけではないけど。何でだろう。

といったところでしょうか。国産モノのロボット型Web検索エンジンは数少ないので頑張って欲しいです。

2006年5月23日
MySpaceはもはやcoolではない? このエントリーを含むはてなブックマーク

Search Engine Journal ≫ MySpace Losing Its Cool?
http://www.searchenginejournal.com/?p=3450

E-Commerce News: Internet : For Teens, MySpace.com Is Just So Last Year
http://www.ecommercetimes.com/story/50530.html

 

 MySpaceが、巨大化し過ぎ、かつ一般化し過ぎたゆえにcoolではなくなりつつある(ティーンへの求心力を失いつつある)とのレポート。MySpaceってのは、端的に言うとアメリカ版mixiみたいなもんで、特に若者に指示されている巨大なSNSです。

 文中では、MySpaceのユーザがBebo.comやFacebook.comに移行しているとも述べられています。定量的なデータが示されていないのでちょっと判断に困るのですが、実際にそういった流れが起きているのだとしたら興味深い。

2006年5月21日
blog検索エンジン「NAMAAN」の中身 このエントリーを含むはてなブックマーク

 Webサーフィンしてたら面白いモノを見つけた。NAMAANの中身を詳説した卒業論文である。NAMAANは最近山ほど公開されているblog検索エンジンの一つで、新しく投稿されたblogが検索結果に反映されるまでの時間が最短1分と短いことをアピールポイントにしている。NAMAANを作っているのはアフィリエイトプログラム「電脳卸」をやっているウェブシャークという会社で、この会社に技術者なんて居るのかなあよくblog検索エンジンなんて作るなあと思っていたんだけど、学生が作っていたんだ。

 論文の筆者の「大崎健吾」という名前に覚えがあり、ceekz氏に「ほら前に新宿でしゃぶしゃぶ食べたことがあるじゃないですかあの時に大崎健吾っていう立命館の学生が来ませんでしたっけ」と聞くとその通りとの仰せ。おお、オフラインで合ったことがあるとは。あの時の彼がこんなことをやっていたんだとか思いながら論文を拝読させていただきました。非常に面白かった。

 以下、論文の概要について簡潔にまとめる。より詳しく知りたければ論文のpdfがWebにあるのでそちらを参照のこと。一通り読めばNAMAANの中身はだいたい分かるようになっています。ちなみに僕の作った「もぶろげっと」の中身について書いた論文が来月(2006.6)の電子情報通信学会論文誌(D-I)に載るので、こういうのに興味がある人はぜひそちらも参照して頂きたい、などと宣伝をしつつ。

 

 

1.システム概要

 構成図は以下。

 ohsaki1.PNG

 処理の流れは以下。まず、直近に更新されたblogのリストをpingサーバから取得する。続いてリスト内のblogからRSSを収集する。収集したRSSからエントリー(blog記事)のURLのリストを取り出し、HTML文書を収集する。エントリーのHTML文書から広告等を削除し、本文のみを残し、Namazuによりインデックスを作成する。この際、複数台のマシンにインデックスを分散して持つということをしているがこれについては後述する。ユーザが検索インタフェースにアクセスし、検索したいキーワードを打ち込むと、インデックスに対して全文検索を行い、結果を時刻順に並べて提示する。

 システムで使っているハードウェアは以下。

 ohsaki2.PNG

 

 

2.クローリング

 クローリング対象となるblogのリストはpingサーバを定期的に巡回することにより取得する。システムではRSSを取得・解析することによってblogの更新を判別するが、pingサーバから得られるのはblogのトップページのURLのみであるため、トップページを取得し、linkタグを解析することによってRSSのURLを取り出す。この際、blogごとにトップページのURLとRSSのURLをデータベースに保存する。また、RSSを吐かないblogはシステムの処理対象とはしない。

 blogには更新頻度に差があるため、blogごとに更新をチェックする間隔を設定している。初期値として24時間を与え、以後、クローリングの度に新しいエントリーがあれば1.5倍、なければ0.5倍することで間隔を調整する。

 個々のblogへのクローリングとしては、まずRSSを取得し、新着エントリーがあればそのHTML文書を取得する。取得したHTML文書からは本文の抽出を行う。本文の抽出にはdescription要素とのマッチングおよび同じblogから収集されたHTML同士の比較をしている。

 クローラは自作のものを使っている。実装言語はperl。

 

 

3.インデックス作成

 インデックスの作成にはNamazuを使っている(ただし、論文中では将来的にHyper Estraierへの移行を予定していると述べられている)。また、インデックスを複数台のマシンの分散して保持している。

 ohsaki3.PNG

 上図の通り、システムの全文検索部分は、インデックスを持ち、また自分の持つインデックスに対して全文検索を行う「検索サーバ」と、複数台の検索サーバに検索要求を出し、その結果をマージする「検索ゲートウェイ」から構成される。また、検索結果は検索ゲートウェイサーバによってキャッシュされる。

 システムでは、検索結果の並べ方として時刻順のみを提供し、スコア順を提供していないが、これはインデックスを分散させているため。namazuはTF/IDFにより文書をスコアリングする機能を持つが、IDFの値が文書集合(インデックスに登録された全文書)に依存するため、異なるインデックス間でTF/IDF値を単純に比較することはできず、よってスコア順で検索結果を並べることは無理。

 論文中に明示的に書かれているわけではないが、おそらく検索サーバでの全文検索にはnamazuのパッケージに添付されているCGIプログラムを、検索ゲートウェイでは自作のプログラムを使っていると思われる。

 

 

4.検索インタフェース

 AND検索、OR検索、NOT検索、フレーズ検索を利用可能。また、検索結果をRSSで受け取ることもできる。blog検索エンジンとして、ごく標準的な検索機能を揃えている。

 

 

5.まとめ・感想

 blog検索エンジンとしては非常にオーソドックスな構成で、素直に設計したらこうなるだろう、というものであると思う。

 一つ気になるのはバックグラウンドにnamazuを使っているにも関わらずKWIC(キーワードの出現位置の周辺を要約として提示すること。代表例はgoogleのWeb検索)の機能を持っていることで、確かnamazuはKWICをサポートしていなかったと思うのだけど、どうやってるんだろう。自分で実装したなら素晴らしい。

 また、NAMAANでは「最短1分で検索結果に反映」ということを売りにしているが、この構成で本当にそれが実現できるのかは、似たようなシステムを作った経験から、疑問に感じる。インデックスの分け方にも依るのだろうが、namazuのインデックス作成は他の全文検索エンジンに比べても遅いし、クローリングの方法にも特に工夫があるわけでもない。この構成では、他のblog検索エンジンに比べても、インデックスへの反映速度が優れているとは思われない。

 

 以上、僕の読解力・理解力の低さから誤読している箇所があったら申し訳ありません。

2006年5月19日
[読書]日立 -技術王国再建への決断- このエントリーを含むはてなブックマーク

4532311225.09.LZZZZZZZ.jpg

 

 日立製作所はこの春から僕が働く会社である。自分の会社について客観的な視点から書いたものを読んでみようと、何冊もある日立本の中から最近出たものを選んで読んでみた。

 まずこの本で良いのが序文の一節である。日立製作所の業績は目下厳しく、連結ベースで9兆円を超える売り上げがありながら、純利益はたったの300億円そこそこであり、大手電機の中でも負け組と言われることが多いのだが、このような状況に至った流れを的確に説明しており感心した。少々長いが引用する。

 日立製作所グループは日本的な企業システムをエンジンに発展した典型的な企業集団である。

 電力会社、鉄道会社、NTTと太いパイプを築き、特定顧客との長期に渡る安定した取引が成長の土台になった。新規参入分野では規模の力を背景に、トップシェアは取れなくても一定のシェアを確保。需要が伸び続ける右肩上がりの経済に支えられ、充電、家電、コンピュータ、部品、材料などエレクトロニクス関連のあらゆる分野を持つフルライン型の事業構造を確立、日立製作所を頂点に膨大な数の子会社、孫会社群がピラミッド型に広がる大企業集団を作り上げた。厳格な予算制度に象徴される日本企業の中でも群を抜く強固な管理主義で組織を統制、拡大路線をひた走った。連結対象会社数は千社を超え、従業員数30万5千人という現在の日立グループの姿は、恵まれた経済環境の中で「日本型経営」が十二分に回転した結果である。

 しかし、経済のグローバル化が進み本格的な競争社会に突入後、安定した経営環境の中で機能してきた日立の成長モデルは崩壊し、成長を支えた様々なシステムは逆に、一転して企業の競争力を低下させる障害物と化した。

 長らく電力会社など特定顧客へ依存してきたことで新規顧客の開拓力、マーケティング力は弱まり、激しい国際競争を戦う上で大きなハンディを負うことになった。赤字の事業を黒字の事業で補い企業全体として一定の収益を保ってきたフルライン型構造は、ある分野に突出した競争力を持つ専業メーカーに切り崩され、成長力を弱めるだけの時代遅れの仕組みに過ぎなくなった。ピラミッド型の管理体制は組織のスピードを鈍らせる元凶として問題点が明らかになり、ヒト・モノ・カネの効率的な配分を妨げる。日本で有数の技術者集団でありながら、需要を掘り起こし経営資源を集中するためのシステムが整っていないため、せっかくの技術力も十分に発揮できない。過去の成功体験が大きかっただけに、管理主義などの体質は組織に深く根を下ろし、巨大企業集団の再生の足枷になっている。

 それで、上のような状況を打破するためにこんなチャレンジをしていますよ、というのを具体的な事例を挙げて紹介していくというのがこの本の構成である。

 たとえば、庄山社長(当時)が始めた「コーポレートシニアスタッフ」という制度を取り上げている。社内で特に目覚ましい活躍をしているミドル層を選抜し、最大限の裁量を与えて新事業の開発をさせるというものである。「社内ベンチャー」というと分かりやすいだろうか。ちなみに選抜された中でナンバー1の成果を上げたのは、「ミューチップ」を手がけた井村亮氏である。井村氏といえば新入社員研修で全新入社員を前にして講演をしたのだが、恐ろしいほどのエネルギーに満ちあふれた中年親父でとても印象的だった。以前どこかで講演を聴いた元マイクロソフトの古川亨にそっくりであった。

 その他、成果主義への移行や、MOTへの注力、子会社政策の変化など、幅広く取り上げている。なかなか面白く読めた。全体的にポジティブな書き方をしていて、読み終えた後には、日立の未来は明るい! と思えるところもすばらしい :-p

2006年5月17日
さくらインターネットの共用サーバにawstatsをインストール このエントリーを含むはてなブックマーク

 さくらインターネットの共用サーバでは、Webalizerによるアクセスログ解析を提供しています。しかし、Webalizerは機能的にやや貧弱で不満を感じます。そこで、オープンソースなアクセスログ解析ソフトウェアとしてもっとも優れた機能を持つ(と思われる)awstatsをインストールしました。以下そのやりかたを書き留めておきます。

 先ず、telnetで共用サーバにログインします。続いて、Webサイトのルート直下(ホームディレクトリのwww)にでも移動し、wgetでawstatsのアーカイブをダウンロードします。アーカイブとしては、AWStats 6.5完全日本語版を使います。

wget http://www.bflets.dyndns.org/AWStats65_Jpn.tar.gz

 そしてアーカイブを解凍。

tar -zxvf AWStats65_Jpn.tar.gz

 次に、アーカイブの中から必要なファイルを移動します。wwwroot/cgi-bin以下にはperlスクリプトが、wwwroot/icon以下には各種アイコンがあります。移動先のフォルダ名は好きに変えてかまいませんが、その場合、以下のコマンドの該当箇所を読み替えてください。

mv AWStats65_Jpn/wwwroot/cgi-bin/ awstats
mv AWStats65_Jpn/wwwroot/icon/ icon

 続いて、設定ファイルを編集します。まず、テンプレートをコピーしましょう。2行目の「blog.windy.ac」の箇所にはあなたのサーバのドメイン名を。

cd awstats
cp awstats.model_jp.conf awstats.blog.windy.ac.conf

 コピーした設定ファイルを編集します。最低限、以下の3カ所のみ書き換えれば動きます。「LogFile」にはアクセスログのパスを設定します。アカウント名が含まれますが、ここはあなたのアカウント名に置き換えてください。「SiteDomain」にはあなたのサーバのドメイン名を設定します。

LogFile="/home/kahlua/log/access_log_%YYYY-0%MM-0%DD-0"
SiteDomain="blog.windy.ac"
DirCgi="/awstats"

 以上でawstatsのインストールは完了です。ですが、まだやることは残っています。まず、ブラウザからアクセスしたときにawstatsのスクリプトがCGIとして扱われるように、スクリプトを設置したディレクトリの.htaccessに、下の1行を追加します。

AddHandler cgi-script pl

 また、毎日解析結果が更新されるように、さくらインターネットのサーバコントロールパネルからcronの設定をしておきましょう。左側のメニューから「CRON設定ファイルの編集」を選択し、「新規項目の追加」をクリックします。以下の2カ所を編集し、残りはデフォルトのまま設定します。

実行するコマンド: /home/kahlua/www/awstats/awstats.pl -config=blog.windy.ac -update
実行させる日時(時): 6

 やるべきことは以上です。

2006年5月15日
[読書]戦うプログラマー このエントリーを含むはてなブックマーク

book18.jpg

 WindowsNTの開発を追ったドキュメンタリーである。あちこちで名著と言われているのを知りながら手を付けずにいたのだが、ようやく昨日から読み始めてやっと読了。これは凄い本だ。これほど感動した本はもう何年もない。読み終えて少し経ったのにまだ高揚している。僕もこんなプロジェクトに加わって重要な役割を果たしたいと心から切望する。せっかくソフトウェアを作る技術者になるのだから。中身について書きたいことはたくさんあるが書いていると長くなってめんどいので割愛する。しかし、これは本当に素晴らしい本なので、世界中のプログラマが読むべきだとおもう。もちろんプログラマじゃなくても楽しめるだろう。

 ところでこの本にこれだけ打ち震えるものを感じるのはなぜなのかと思って考えたら、これはあれだ。大作RPGとかと同じ構造なのだ。ドキュメンタリーとしても出色なのはもちろんだが、物語としても良くできているのだとおもう。異世界(DEC)から危機に瀕した世界(マイクロソフト)へと召還(ヘッドハント)されてきた勇者(デビッド・カトラー)、王様(ビルゲイツ)は彼に魔王を倒して(NTを作って)くれるよう頼む。勇者は仲間(DECやMS内部から集めてきた開発者たち)を集め、戦いの旅にでる。彼らは最初は反目し合うこともあった(カトラーの性格や、DECとMSのカルチャーの違いから、大きな軋轢があった)が、次第に固い絆で結ばれていく。次々と襲いかかるモンスター(バグ)、倒れていく仲間たち(心が折れ、精神をやられリタイアしていく開発者たち)。幾多の困難を乗り越えて魔王を打ち倒し(マスターアップ)、大団円(NT出荷)、しばし安らぎの時(休暇とか)、そして新たな冒険を求め旅立っていく(カイロの開発プロジェクトへ行く)勇者。fin. ブラボー! ブラブラボー!

生きてるよ! このエントリーを含むはてなブックマーク

 2ヶ月ぶりの更新。この春、就職して会社の寮に入ったのですが、インターネット環境が整うまでに時間が掛かってしまいました。これからはこのblogも定期的に更新していきたいと思っております。よろしくおながいします!

今日の井原. Since 2003.11.12 by Ihara
614 Entries - 0 Comments