情報資源センターだより

15 テキストの海をわたる ― 『渋沢栄一伝記資料』の未来

『青淵』No.701 2007年8月号掲載|実業史研究情報センター 専門司書 茂原暢

 みなさんは東京・渋谷で1,000円ランチをしたくなったら、どうやってお店を探しますか?
知り合いに教えてもらったり、グルメ本で調べたり、もしかしたら渋谷に行って店を眺めながら探そうという方もいらっしゃるかもしれません。

 先日、インターネット上の情報サイト「デジタルARENA」の「Google調査隊」に、『渋谷』で『1000円』ランチの店を見つける-Googleマップで簡単サーチ!」1)という記事がでていました。ここでは、Googleの人に聞いた使い方として、「もし1000円のランチを探すなら」Googleマップ2)で「『渋谷 ランチ 1000円』って検索する」というやり方が紹介されています。試しに財団のある王子近辺で1,000円ランチを検索したところ、カレー専門店や天然酵母を使ったパン屋さんなど、美味しそうなランチを食べられるお店が何軒もあることが瞬時にしてわかりました。

 さて、Google(グーグル)社といえば言わずと知れた検索エンジン界の巨人の一つですが、そのミッションは「Google独自の検索エンジンにより、世界中の情報を体系化し、アクセス可能で有益なものにすること」3)なのだそうです。最近ではネット上のデジタルな情報だけではなく、世界中の図書館や出版社と協力して「Googleブック検索(Google Book Search)」4)というサービスを立ち上げ、書籍の目録情報(タイトルや著者、出版者など)を越えて、書籍に書いてある本文の中まで検索しようという試みが行われています。

 これは、書籍をまるごと写し取ってデジタル画像を生成、さらにOCR(光学文字認識)というソフトで画像から文字を読み取る、という方法でアナログな書籍をデジタル化し、その中をGoogleの強力な検索エンジンで渡り歩こうとするものです。こうした試みはGoogleだけが行っているわけではありません。書籍検索プロジェクト「Live Search Books」5)を進めているマイクロソフト社や、インターネット上の図書館である「インターネット・アーカイブ」が参加している「オープン・コンテンツ・アライアンス (Open Content Alliance)」というプロジェクトでは、今後、大英図書館の蔵書10万冊を含む多くの書籍がデジタル化される予定だと言われています。また、身近なところではAmazon.co.jpの「なか見!検索」で本文を検索することができ、意外な書籍の中に「渋沢栄一」を発見することもあります。

 現在、実業史研究情報センターでは『渋沢栄一伝記資料』の出来うる限り正確なテキスト化を進めています。このプロジェクトは『伝記資料』という膨大なテキストの海に眠る情報資源を掬い上げ、整理・体系化し、Googleのミッションと同じように「アクセス可能で」これまで以上に『伝記資料』を「有益なもの」にすることを目標としています。

 Googleブック検索ではGoogleマップと連携して、書籍の中に出てくる地名を地図上に示すサービスを行っていますが、もし『伝記資料』のテキストの中から地名だけを拾い出して世界地図の上で表示させたらどうなるでしょうか?「渋谷 ランチ 1000円」のように、地名と掛け合わせて検索した結果を地図上に表示したら何がわかるでしょうか?

 センターが進めているテキスト化のプロジェクトは、これまでとは全く違う視点を持って『伝記資料』の中を渡り歩くための「素材」と「仕組み」を提供します。なぜならテキストの海の中には、私たちがまだ気付いていない情報資源が数多く眠っているからです。

(2007.06.05記)

1)<http://blog.nikkeibp.co.jp/arena/google/2007/05/google_2.html>2007年6月5日閲覧

2)インターネット上の地図検索サイト<http://maps.google.co.jp/>2007年6月5日閲覧

3)<http://www.google.co.jp/corporate/index.html>2007年6月5日閲覧

4)<http://books.google.com/>2007年6月5日閲覧。2007年5月17日、Googleは「Google Book Search」にデジタル化されていない書籍のデータ(書誌データ、粗筋、レビューなど)も加わった旨を発表。また5月20日には、インドのマイソール大学がGoogleと協力して紀元前からの文書を含む80万点の資料をデジタル化する計画が報道されている。

5)2007年6月4日の報道によると、マイクロソフト社は「Live Search Books」で著作権保護期間内にある書籍についても検索サービスの提供を開始した。

(実業史研究情報センター 専門司書 茂原 暢)


一覧へ戻る