designed by www.qrone.org
January
2009
Su Mo Tu We Th Fr Sa
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
INFOMATION
- 自己紹介
- マイミク申請はお気軽に:-)
- いまいち使い方がわかりません
- 気になるURLをクリップ
- Awstats を使っています
RECENT ENTRIES
CATEGORIES
MONTHLY ARCHIVES
HATENA BOOKMARK
BLOG PET
LICENCE
CONTACT
shin at windy dot ac
アホの子だけど読んだ本を紹介しちゃうぞ
Category Archive.
2008年5月17日
[読書] 転職活動のために読んだ本、6冊 (プレゼント企画もあるよ!) このエントリーを含むはてなブックマーク

 転職活動に際して以下のような本を読んだ。

はじめての転職128のギモン(小島美津子)

 転職活動のあれこれをQ&A形式で解説したマニュアル本。特に応募先とのコミュニケーションの取り方について、転職未経験者には参考になった。「応募する書類には添え状ってのを付けるのか!」みたいな。それまで添え状なんて知らなかったので、これを読んでなかったら添え状なしで書類を送っていたに違いない。他にも、入社誓約書や入社承諾書の類は、署名押印付きだろうが何だろうが法的拘束力は無いので、己の良心が咎めないならぶっちしてOKとか、あれこれ良いことが書いてある。


僕はこうやって11回転職に成功した(山崎元)

 山崎元氏が自らのキャリアについて書いた本。資産運用という専門性を武器に、自らのスキルを活かせる場所を転々とする氏の生き方はモデルケースとしておもしろい。もちおたん的にいうとロールモデルか。本書を読むと、氏の成功の要因は以下の3点にありそうだ(どれもよく言われることだが)。

  • 早期(氏の場合、新卒で三菱商事に入った直後)に自分の専門分野を決め、オン・オフ両方で研鑽を重ねる
  • 社外の人間と幅広く人脈をつくり、ちゃんとメンテナンスする
  • 本を書く、雑誌に寄稿するなど、分かりやすくアピールしやすいアウトプットを出す

 書くのは簡単だけど実践するのは大変そう。

 あと、本書で最高にすばらしかったのは以下の1節である。三菱商事時代の先輩のアドバイスらしい。これは覚えておきたい。

 ある時、Mさんが筆者に話しかけてくれた。「山崎、おまえは仕事の方は何とかやっていけるだろう。大丈夫だ。これから、大事なことを教えてやるから、よく聞いておけ」という。「第一に、意見は大きな声で言え。そして、これが肝心なことだが、誰にでも同じことを言うのだ。誰にでも、だぞ。第二に、意見は会社のためを思って言え。本当に会社のためを思っていった意見ならば、仮に間違えていたとしても、後から必ず助かる。これは信じて良い。そして、最後には、『こいつは、ちょっとかわいいな』と他人に思わせるような何かがあれば、なおいいな。かわいげというのは大事なもんだぞ」と言われた。

 サラリーマンに対するアドバイスとしてこれ以上のものを筆者はしらない。


人材コンサルタントに騙されるな!(山本直治)

 人材紹介会社の中の人が書いた本。人材紹介会社のビジネスモデルや仕事内容について書かれている。今回の転職活動ではリクルートエージェントにお世話になったのだが、サービスを受ける中で人材紹介会社のビジネスモデルが気になり、手に取ってみた。人材紹介会社を使うなら、事前に読んでおくと相手のことが分かるのでおすすめ。大手では、一人のスタッフが同時に20~30人程度の求職者を担当し、流れ作業的にやってるというのが実情のようだ。

 載ってるデータが興味深い。

  • 人材紹介の市場規模は、この5年でほぼ倍になった。
  • 人材紹介会社の数は2005年度で1万社超。
  • 2005年度の転職者数は472万人。そのうち人材紹介会社経由で転職したのは7万人。

 これによると1社あたり7人しか紹介してないことになるが、登録だけして実際には活動していない会社や、個人でやってる小さな会社が多いんだろうな。


だから若手が辞めていく(ダイヤモンド社)

 大企業の中間管理職が読むことを想定して、若手社員の早期離職問題についてまとめた本。一貫した強い主張があるわけではないが、以下の2点が印象に残った。

  • 会社には、会社の身の丈に合った人間しか居着かない。辞めていくのは、会社の枠に収まらないトップクラスの人と、ついて行けないボトムクラスの人であり、その中間の人はあまり辞めない。3年で3割辞めるのは、ある種の入れ替え戦を行っているようなものであり、結局世の中全体としては適材適所に落ち着いているのではないか。
  • 良い我慢と悪い我慢がある。20代はキャリア形成のうえでは試行錯誤の時期であり、その貴重な数年を棒に振ってまで、合わない会社に尽くす必要はない。

 内容は決して悪くないが、「就職氷河期の新卒には謙虚さがあったが、売り手市場の新卒は云々」等、具体的な根拠を示さずに若手社員をdisる記述が時折あり、読んでいて気になった。


退職・転職の「年金・保険・税金」がわかる本(新村健生)

 雇用保険や健康保険について解説した本。在職中は空気のような存在だが、会社を辞めるとなるとおざなりにはできません:-p


総外資時代 キャリアパスの作り方(仲俊二郎)

 筆者は外資系科学会社で人事部長をやってた人。外資系企業での世渡りの仕方を解説している。労務を担当していただけあって、社員の待遇から、解雇のやり方までなかなか詳しく書かれている。

 扱われているのは、経営陣は本体からの出向組で固められ、英語が社内公用語になっているような、ガチな外資系企業の事情であり、一種のファンタジーとして読んだ。自分はあまり縁のない世界だともおもた。


この6冊あげます

 それで、以上の本なのですが、既に転職活動を終えて新しい会社で働いている僕の手元にあっても死蔵されてしまうだけなので、欲しい人にあげます。うっかり忘れがちなビジネスマナーを復習できるDSソフト「明日から使えるDSビジネスマナー」も付けます(要らないと言っても勝手に付いてきます、たぶん)。すみませんが送料は負担して下さい。

 欲しいという人は、メールかTwitterかmixiのメッセージで僕に欲しい旨を伝えて下さい。アドレスやURLは右側のサイドバーにあります。もし希望者が複数人いたら早い者勝ちで。

 

 追記(@5/17 22:08)

 本を欲しいという方があらわれたので、早い者勝ちのルールにのっとって、受付をストップさせていただきます。どうもありがとうございました。

2008年4月30日
[読書]人工知能のパラドックス このエントリーを含むはてなブックマーク

 

 人工知能の過去と未来についてまとめた本。学生時代にニューラルネットワークなどを触っており、断片的な知識はそこそこあるものの、分野全体の概観については理解が浅かったため、一つ勉強してみようと思って読んだ。非常に面白かった。前半部ではこれまでの人工知能研究の歴史をまとめ、後半部では人工知能の今後の展望について、レイ・カーツワイルジャロン・ラニアービル・ジョイの見解を紹介している。

 著者のサム・ウィリアムスはフリーのサイエンスライターで、人工知能の専門家ではないが、それゆえに特定の立場に与することなく、客観的に人工知能という分野を描いている。バランスの取れた冷静な記述をしており、人工知能に詳しくない人が最初に読む1冊に良さそう。逆に、既にある程度知識がある人には、知っていることばかりで退屈かもしれない。

 

 個人的な備忘録をかねて、人工知能の歴史を簡単にメモっておく。

 1946年にENIAC、1950年にEDVACが完成。コンピュータを使って人工知能を実現しようという人たちが取り組みを始める(人工的な知性というアイディアそれ自体はもっと前からあった)。1956年にヒューリスティック理論、1957年にパーセプトロンが提案される。生成文法やLISPの登場も同時期であり、50年代後半は人工知能研究が飛躍的発展を遂げた時期であった。この時期、研究者たちは楽天的であり、このまま研究が進展すればやがて人間と同じような知性を人工的に作り出せると考える人が多かった。

 60年代に入ると人工知能研究は停滞する。1960年、J.R.ルーカスが人工知能にはゲーデルの不完全定理の指摘する論理的矛盾を克服することはできないと指摘する。1969年、ミンスキーらがパーセプトロンの理論的限界(線形分離しかできないってやつ。大学院の尾内先生の講義で習ったのを思い出すな)を指摘する。同時期にフレーム問題や記号接地問題についても指摘があり、人工知能の限界が意識されるようになる。これらの指摘を受けて国防総省が人工知能研究への投資を絞ったこともあり、人工知能の研究は下火になる。

 80年代になると、人工知能の分野にようやく新しい試みが現れるようになる。エキスパートマシンの研究が進展し、ダグ・レナートがCycプロジェクトを開始する。人工知能の商用利用も始まり、人工知能ソフトウェアを開発するシンボリック社が年間100万ドルの売り上げをあげるようになる。また、80年代になると、多くの研究者はコンピュータの上に人間のような知性を作ろうという考え(いわゆる「強いAI」)を捨て、限定的な学習能力や推論能力をより良いものにしていこうというアプローチ(「弱いAI」)を取るようになる。

 90年代以降も、概ね80年代の流れを受け継ぎ、「弱いAIを有用に使いましょう」というのが人工知能研究の主流である。90年代の主たる業績には、ブルックスらの強化学習が挙げられる。1997年には、ディープブルーがチェスの世界王者を破ったことが話題になる。また、ロボット犬アイボが発売されるなど、人工知能研究の成果がより多様な形で応用されるようになる。

2008年3月 9日
[読書]3年で辞めた若者はどこへ行ったのか このエントリーを含むはてなブックマーク

41h5jyRk50L._SS500_.jpg

 

 読んだ。

 前作『若者はなぜ3年で辞めるのか』の続編。前作では、状況分析ばかりしていて、じゃあ若者たちはどうすればよいのかというのが提示されていなかった。本作はそれを補う内容となっており、著者の言う「平成的価値観」を体現した若者たちを取り上げて、その生き方や考え方を紹介している。話題を広げすぎてとっちらかってる感があるが、なかなか面白かった。

 基本的な内容は前作と同じ。曰く。新卒で大企業に入って定年まで、というのは高度成長期だから成り立っていたのであって、これからはもう通用しないよ。会社にキャリアを支配され、無能な中高年管理職を養うため、滅私奉公で転勤地獄やサービス残業に堪え忍ぶというのはもう止めたほうがいいよ。云々。前作にも増して、若者を諭し導こうという意志を感じた。最後のほうなどほとんどアジテーションのような調子で書かれている。筆者の主張には概ね首肯するし、実際、僕が日立製作所を辞めたのは前作を読んだことによる影響も大きい。ただ、アメリカ的な競争社会を肯定しすぎているという印象も受けた。

 辞めておいて言うのもなんだが、日本の伝統的大企業というのはあれはあれで良いものだ。「会社の歯車」という表現は否定的に使われるが、そんなに悪いことじゃない。何も考えず、与えられた場所でくるくる回っていればいいなら楽じゃないか。それでほどほどの給料を貰えて、子会社に飛ばされることはあっても首にはなかなかならなくて、企業年金や退職金もあるのだ。確かに今の中高年ほどの待遇は得られないかもしれないが、それでも腐っても大企業だから、そんなに悪くはないだろう。転勤地獄やサービス残業だって我慢できないことはない。「マイコミ、2007年度 就職戦線総括発表 - 学生の大手&安定志向顕著に」のような記事が出るのも、そうやって考える学生がけっこういるってことだろう。

 オランダのようなフェアな労働環境が理想ではあると思うが、そうなるには長い時間が掛かるだろう。与えられた状況の中で、自分の性質を考慮しながら最善の選択をしようとして、ある者は競争的な外資金融やコンサルファームを選び、ある者はできるだけ安定した日本的大企業を選ぶのだろう。学生は社会人が思うよりも賢く、世の中をよく見ているものだ。

 前作と併せて、現状分析として優れた本だと思う。日本中の学生に(特に就職活動を控えた学生に)読んで欲しいとおもう。

2006年3月14日
[読書]けなす技術 このエントリーを含むはてなブックマーク

 http://www.amazon.co.jp/exec/obidos/ASIN/4797330775/503-6243901-2084720

 切込隊長氏によるblog論。少ない内容を薄めつつ書き飛ばしたという印象が強く、1,500円の価値があるかと言われると微妙なところ。以下、内容を適当にまとめる。

 

・詰まらないblogでも書き続けよう
 読んで貰うことをモチベーションにしないように。アクセス解析の結果、ユニークIPが1日に一桁しかなくても、更新する意欲を失ってしまわないように。面白いモノを書ける書き手なんて殆どいないのだから。
 blogは自分の興味関心や思考をトラッキングするツールとして価値がある。去年の今頃、自分が何をしていたか、何に興味を持っていたか、世間でどんな事件が話題になっていたかを思い出せるだろうか。blogの過去記事を読めばそれを思い出すことができ、さらには、その時の自分の考え方&感じ方が今の自分のそれとどう違っているかを知ることもできる。

・ネットは情報の宝庫、ではない
 ネットは情報の宝庫ではない。ネットで手に入る情報は限られたものであることに注意せよ。ネットで入手しやすい情報は概ね次の2つである。
 1. 個人によって書かれた文章。blogや個人Webサイトでの意見や論評、日記など。
 2. 公開情報。新聞社等の公開する記事や、官公庁の提供するデータ、企業の出すプレスリリースなど。

・ネット上の評判の威力について
 かつて、消費者は雑誌や評論家から得られる情報を購買判断の主力としていた。企業にとって、それらの情報はコントロール可能であり、よって消費者に望ましい情報のみを与え、望ましくない情報は与えずにおくことができた。
 翻って、ネットの世界での消費者の評判はコントロール不能である。また、細分化された市場においてはそれを購買判断の主力に置く消費者がマジョリティとなる。そのため、企業にとっては、コントロール不能な情報が売り上げに直接的な影響を与えるという面白くない状態となっている。

・毎日更新すると閲覧数が増える
 同じような内容で、更新頻度だけを変えたblogを運営した結果、閲覧数に大きな差が生じた。閲覧数を増やしたいなら、とにかく毎日更新するのが良い。

・blogって海外ではどうなの?
 アメリカで流行しているくらいで、欧州ほか諸外国では定着していない。日本のblog界隈はアメリカ同様バブルと感じる。皆がblogに飽きたときに、次はどのような機能がパッケージされて利用されていくのかというところに関心を払うべき。

・既存ジャーナリズムとの対比
 blogが既存ジャーナリズムの役割を果たせるとは思えない。ただし、ジャーナリズムがもたらす結果の一部はネットでの言論で担保できる可能性がある。つまり、政治的・社会的な扇動である。blogでは、従来のメディアよりも読み手の本音の位置に近づいた論考が可能である。つまり「キチガイ」とか「三国人」とか書くのは既存ジャーナリズムではNGでもblogではOKであり、この点で扇動に適しているといえる。

2005年10月11日
[読書]コンピュータはむずかしすぎて使えない! このエントリーを含むはてなブックマーク

 488135826X.09.LZZZZZZZ.jpg

 ソフトウェア開発におけるデザインの重要性について述べた本。著者のアラン・クーパーはMicrosoftでVisual Basicを作った人。今ではMicrosoftを辞めて自分の会社をやっている。

 まず、コンピュータが使いにくいという話から始まる。使いにくいコンピュータの例を一頻り挙げた後で、それらが何故使いにくいのかを「知覚的なずれ」という言葉で説明する。「知覚的なずれ」とは何なのか、一言では説明しづらいが、ソフトウェアの操作と、それによって為される処理との間にある感覚的な乖離の度合い、といったところだろうか。「知覚的なずれ」の小さい例として、クーパーはタイプライターを挙げる。Aのキーを押せば紙にAが印字されるし、Bのキーを押せば紙にBが印字される。ユーザの操作(キーを押す)と機械の振る舞い(押されたキーを印字する)は完全に一対一で対応していて、感覚的な乖離は小さい。押されたキーに描かれている文字が印字されるというのは、ユーザにとって、まったく感覚的に受け入れやすい動作だ。初めてタイプライターを見た子供にだって直ぐに分かるだろう。それに対して、現在のコンピュータで使われるようなソフトウェアはそうではない、というわけ。現在的なソフトウェアは複雑な機能の塊で、どうしても「知覚的なずれ」は大きくならざるを得ない。それを踏まえた上で、できるだけユーザにとって使いやすいソフトウェアを作るにはどうしたら良いのでしょう、というのが本書の問題意識だ。

 続いて、クーパーはソフトウェア開発の現状を概観し、なぜ使いにくいソフトウェアが出来てしまうのかを説明する。彼の主張を端的にまとめると、要するに、「プログラマ(ソフトウェア開発者たち)が好き勝手にデザインをやっているのが悪い」ということになる。プログラマはとにかく機能を詰め込んでしまう傾向があるし、自分自身が上級者であるが故に上級者向けのデザインをしてしまいがちだ。それに、プログラマはコンピュータと同化しすぎているので、「知覚的なずれ」に鈍感になってしまっている。そうして出来上がってきたソフトウェアは、結果的に、ごく普通のユーザに取って使いにくいものになってしまっている。そこでソフトウェアデザインが必要になる。

 それで、クーパーは具体的な方法として次の2点を提案している。

  1. 最初にデザインをしてから開発に取りかかる
  2. そのソフトウェアの典型的なユーザ(ペルソナ)を想定した上でデザインする

 1.については、当たり前のことを言っているなという感じもする。いきなりプロトタイプを作り始めるのは止めましょう。ちゃんとデザインを固めた上で、プログラミングに着手するようにしましょう。そういうこと。

 2.が本書のキモになる部分。ソフトウェアをデザインするに当たっては、そのソフトウェアをどのようなユーザが使うのかということを想定し、彼らのプロフィールを作る。名前や年齢に始まって、職業や、そのソフトウェアをどういう目的で使うかなど、詳細なプロフィールを設定する。彼らを「ペルソナ」と呼ぶ。そして、ペルソナたちがソフトウェアにどんな要求を持つかということを分析し、ソフトウェアのデザインを決めていく。

 

 で、ここからは僕の感想。ペルソナを想定した上でデザインするというのは面白い。ソフトウェアに搭載する機能を絞り込んでいく方法としてはとても良いと思う。ただ、ニッチなソフトウェアを作るときには有用だろうが、たとえばMicrosoft Officeのような世界中のあらゆる層をユーザとするようなソフトウェアを作ろうとするときにも有用なのかは分からない。Microsoft Officeにペルソナを設定しようとしたら何百人ものプロフィールが必要になるのでは。ペルソナを使うというのは、「他のユーザのことはどうでも良いから、あるユーザにとって100点となるソフトウェアを作ろう」ということなのだと思う。

2005年9月23日
[読書]研究者人生双六講義 このエントリーを含むはてなブックマーク

4000065963.09.LZZZZZZZ.jpg

 

 研究者人生双六講義
 http://www.amazon.co.jp/exec/obidos/ASIN/4000065963/250-2473531-2226663

 これは良い本だ。

 学部生や大学院生が読むことを想定して、研究/研究者とはどのようなものか書いた本なのだが、研究活動をする上で知っておくべきあれこれの知識を、要点をまとめて書いてあってなかなか有用と思う。

 たとえば、full paperとproceedingsの違いとか、投稿した論文が採録されるまでの査読プロセスがどんなふうなのか、とか。このあたりのことって、研究室に入った時点では知らなくて、そこから人に聞いたり人の話すのを聞いたりして次第に知っていくものなんだと思うんだけど、それがこうやってパッケージ化されて、書籍という形になっているのが偉い。

 とりわけ、大学院への進学を考えている理工系の学部生にお勧めしたい。

2005年7月17日
[書籍紹介]パターン認識の基礎理論 このエントリーを含むはてなブックマーク

isbn4-87361-853-3.gif

 薄い。たったの110ページ。そして安い。たったの1,800yen。

 内容としては、パターン認識に典型的に使われる、さまざまな手法を駆け足で紹介するというもの。第一章でパターン認識の概要を述べ(しかし、この第一章がたったの4ページしかない!)、第2章以下はひたすら各々の手法を順番に取り上げていく。

 取り上げられている手法は多岐に渡っており、やや画像認識の分野に偏っているきらいはあるが、ラインナップとしては適切と思う。しかし、なんせ一つ一つの手法に割かれるページ数が少ないので、ほんとのさわりだけを述べてそれでお仕舞いになってしまっている。

 お勧めはできない。パターン認識を学びたい人は別の本を選んだ方が良い。まず、全体的に数式をだらだらと並べるだけになってしまっており、概念図や具体例をほとんど示さないので内容を理解しづらい。次に、これだけ多くの手法を取り上げるなら、それらの相対的な位置付けを示すとともに、「この手法はこのような特徴を持ち、このような対象に適している」ということをしっかりと述べるべきだがそれが為されていない。最後に、参考文献が一つも示されていない。著者は大学の教授で、講義のレジュメをそのまま製本したのではないかと思われる。大学の講義ならちゃんと口頭で解説していくから良いのだろうけど、これだけを読まされてもちょっと困るというのが正直なところ。

2004年7月 9日
[読書]進化的画像処理 このエントリーを含むはてなブックマーク

4-7856-9063-1.jpgmixiの増井俊之先生の日記で紹介されていたのを見て、面白そうなので読んでみた。面白かった。

GA&GP(遺伝的アルゴリズム&遺伝的プログラミング)の手法を使って、画像処理のフィルタを自動生成してみましょう、というのが全体を貫くテーマ。複雑な処理をする画像処理フィルタも、基本的なフィルタの組み合わせで表現できることが多いのだが、熟練した専門家であっても、その組み合わせを直感的に掴むことは容易ではない。そこで、GAやGPを使って、使い物になるだけのクオリティを持った画像処理フィルタを自動生成してやりましょう、というお話である。

文中で述べられる手法のおおまかな手順としては、まず、処理したい画像と、「こんなふうに処理して欲しい」という処理後の画像(これは手作業で作成しなくちゃならない)、そして重み付け画像を用意する。評価関数と、組み合わせる基本的なフィルタも用意する。で、GAかGPのアルゴリズムを使い、にょろにょろと実用解となるフィルタが生成されるまでプログラムを走らせる。……って、こうやって書いただけじゃいまいち分からないとおもうので、詳しく知りたい人は実際に読んでみてくださいな。

当然のことながら、最適化問題に定式化できないと扱えないため、あまり高度なことはできない(じゃあどのあたりまでなら出来るんだ、と言われると僕自身の無知もあってうまく答えるのは難しい。まず、評価関数をうまく設定できないと駄目だし、その評価関数が他の処理対象の画像にうまく適合するものでなくてはならない)。しかし、自分ではどんなふうにしたら良いのか想像も付かないようなフィルタが自動的に生成されるのはなかなかの驚きで、掲載された画像を眺めていくだけでも楽しめるとおもう。

基礎的な知識を丁寧にフォローしてあり、GAの知識がまったくなくても問題なく読めるようになっている。プログラミングリストが掲載されており、昭晃堂のサイトでダウンロードできるようになっているのもすばらしい。文句なしに刺激的な良著で、画像処理を(テーマとしている || 興味を持っている)尾内研のメンバーにはお勧めです。

2004年6月14日
読書: 『言語と計算5 情報検索と言語処理』 このエントリーを含むはてなブックマーク

4130654055.09.LZZZZZZZ.jpgこのあいだのゼミでプロフェッサー・ONAIが「この本を何度も読み返している」と仰せになったので、そんなに良い本なら読んでみようと手を着けてみた。10日くらい掛けてのんびりと読了。『言語と計算』は情報工学における自然言語処理を敷衍した全五巻のシリーズもので、この『情報検索と言語処理』ではテキストを対象とした情報検索技術を扱っている。

内容としては、まず概論から入って索引付けや接辞処理といった自然言語処理の基礎的な作法について述べ、次いでこれまでに提案されてきた主要な検索モデルを紹介している。ここまでで二章。「第3章 情報検索システムの性能評価」では検索システムを如何にして評価するかについて述べ、「第4章 言語処理技術の利用」ではテキスト検索システムにひろく使われる形態素解析、統語解析、シソーラスetcについてトピックス的に扱い、「第5章 ユーザ・インタラクション」ではフィードバックやユーザ・インターフェースについて述べられている。最後に意味論(セマンティクス)や語用論(プラグマティクス)について軽く触れてお終い。全体的に非常に見通しが良く、基礎的な知識を一通り身につけられるように構成されている。また、参考文献が豊富に挙げられているのもポイントが高い。プロフェッサー・ONAIが何度も読み返すだけのことはあって、良書だとおもう。

面白かったのはこれまでに提案されてきた検索モデルを紹介している箇所(p39~)。いろんなアプローチがあって楽しい。名前だけ挙げておくので、気になるものがあったらぐぐるとかしてみてくださいな。amazonで本そのものをゲットしても良いし

  • ブーリアンモデル

  • ベクトル空間モデル

  • 確率モデル

  • ファジィ集合モデル

  • 拡張ブーリアンモデル

  • ネットワークモデル

  • クラスタモデル
  • 残念なのは、この本がgoogleの台頭以前に書かれているということ。また、全体を通じてインターネットへの関心も薄く、このあたりには非常に物足りなさを感じる。発行は1999年である。本書が実際に執筆されたのはYahoo!をはじめとするディレクトリ型検索エンジンが全盛だった時代で、インターネット上のテキストデータを対象とした検索技術が発展していく前夜といった時期なので、まあ仕方ないというところだろうが。五年後の今に書き直されるとしたら、また違った内容が多く含まれてくるのではないかな。Web検索に一章が割かれて、PageRankアルゴリズムの丁寧な解説がされたり、とか。

     

    この本がナイスだったんで、もう少し関連する本を漁ってみようと思う。今のところの候補はこんなところ。

    言語と計算4 確率的言語モデル
    コーパスを使った確率的な言語処理を扱った本。コーパス言語処理にはとっても関心があるので、まずこいつから逝ってみようとおもう。大学の図書館にもあるみたいだし。

    岩波講座ソフトウェア科学(15) 自然言語処理
    アルゴリズム中心に書かれた本。形態素解析のアルゴリズムとか載ってるらしい。面白いかも。

    Webマイニング
    Webデータを対象としたテキストマイニングについて書かれた本。タイトルは非常にそそるものがあるのだが、面白いのかな。

    Foundations of Statistical Natural Language Processing.』
     『Statistical Language Learning (Language, Speech and Communication Series)』
    コーパス言語処理の名著。とくに前者はバイブルと呼ばれているほどらしい。洋書なので手を着けるには勇気が要る。

    2004年6月 9日
    spidering hacks このエントリーを含むはてなブックマーク

    spideringhacks.jpg

    spidering hacks』はWeb上のコンテンツを取得したり加工したりするためのテクニックを集めた本だ。和訳が出たのでさっそくgetしたのだが、評判に違わぬ面白さ。

    この本の良いところは、テクニックを単に適当にジャンル分けして羅列するのではなく(もちろんそういう本がダメだってわけじゃないが)、頭から読めば、きちんと段階を踏んでspider作りのノウハウを学んでいけるようになっているところだ。まずspiderとしてのマナー(robots.txtを遵守すべきことや、必要以上に相手のサーバに負担を掛けないこと)について触れ、続いてlib-www-perl や WWW::Mechanizeといったライブラリの使い方を説明し、実践的なテクニックの紹介に移るという流れになっているのだが、これはよくできた構成だとおもふ。

    amazonやgoogleの提供しているAPIや、RSSの利用など、新しめの事柄もちゃんとフォローされているのも良い。言語やライブラリを選ばず、適材適所に使い分けるという思想も宜しい(掲載されているコードの多くはperlだが、他にjava, python, PHPが使われている)。すべてのソースコードをダウンロードできるようになってるのも偉い。それにしてもCPANはすごいなぁ。

    今日の井原. Since 2003.11.12 by Ihara
    614 Entries - 0 Comments