情報資源センターだより

90 論語と算盤オンライン:TEI/XMLファイルの公開について

『青淵』No.926 2026年5月号|情報資源センター長 茂原暢

デジタルアーカイブとAI

 2012年、ある地方自治体のMLA連携に関わるヒアリング調査で、筆者はデジタルアーカイブの可能性について次のようなお話をしました。

「もしかしたら、現在デジタルアーカイブを利用しているのは人間だけではないかもしれません。つまり機械がその情報を読み解き、それによって人工知能が育っているかもしれない。たとえば、本のデジタルアーカイブの中身を機械が読むということは、人間の知識や思考を人工知能が理解し蓄積するということですよね。絵画や音楽だって同じです。このように育っていった人工知能によって、私たちの未来の暮らしは大きく変わる可能性すらあると思います。デジタルアーカイブがテクノロジーの発展に大きく寄与することも、間違いのないところなのです。」

 当時、こうした話は少し先走った想像のようにも受け取られていました。

 あれから14年。AIはインターネットをはじめとする膨大な公開データを含むさまざまな情報資源をもとに驚くべき速さで発展し、いまや私たちが日常的に利用する大規模言語モデル(LLM)は、人間が書いた文章に対し極めて自然な応答を返す段階にまで達しています。2023年に筆者が作成した記事では、対話型の生成AIが「渋沢栄一とデジタルアーカイブ」についてどのように説明するのかを試しましたが、その時点でOpenAIのChatGPTも、GoogleのBard(現Gemini)も、渋沢栄一記念財団のデジタルアーカイブ事業に言及していました。デジタル版『渋沢栄一伝記資料』やデジタル版「実験論語処世談」などの取り組みがインターネット上で広くアクセス可能であった状況を踏まえると、これらのデジタルアーカイブもまた、AIの学習を支える情報環境の一部となってきた可能性は十分にあると思われるのです。

TEI/XMLファイルの公開とその特徴

 さて、2026年3月24日、情報資源センターでは「論語と算盤オンライン」において、『論語と算盤』および現在判明している出典記事74件、合計75件のテキストデータをTEI/XML形式のファイルで公開しました。これらのファイルには、人文学のための電子テキスト構造化の国際的なデファクトスタンダードになっている「TEI(Text Encoding Initiative)」のガイドラインに基づいて、『論語と算盤』という書籍の特徴が埋め込まれています。今回の公開では、デジタルアーカイブ構築当初より『論語と算盤』と出典記事をデータの形でも利用可能にして、デジタルな環境下でも渋沢栄一の言説を扱えるようにすることを目指しています。

 TEIガイドラインを使うと、人物や場所、時間など、様々な参照情報をテキストに埋め込むことができます。その一方で、埋め込む情報が多くなると、二次利用の際に不要な情報を削除する手間が増えてしまいます。情報資源センターは渋沢栄一財団の図書館・デジタル部門であり、公開するデータは幅広い用途でお使いいただけるようにする必要があることから、TEI協会の図書館分科会が公開する「Best Practices for TEI in Libraries」で示されたタグ付けのレベルのうち、「Level 3:内容に関するごく簡単な整理も含むタグ付け」(『人文学のためのテキストデータ構築入門』p.22)をベースとすることにしました。その上で、篇・章のような構成要素やインデントなどのスタイル情報、そして『論語と算盤』のTEI/XMLファイルには、『論語と算盤』の編集著作物としての性格を明らかにするという目的から、出典記事の書誌情報とそれぞれの記事を引用「した」箇所を埋め込みました。

 また、出典記事のTEI/XMLファイルには『論語と算盤』に引用「された」箇所(被引用箇所)を埋め込んだほか、欠損のあった「言忠信行篤敬」(『竜門雑誌』第307号. 1913.12)では、その親本となる雑誌『実業之世界』の同名記事(第10巻第19号(1913.10)掲載)からTEIガイドラインに沿った形で欠損部分を補いました。なお、付加的な情報として、『竜門雑誌』のTEI/XMLファイルには初出時の記事カテゴリーを採録しています。これにより『論語と算盤』に引用された『竜門雑誌』の記事は、「演説及談話」「講話」「説話」「青淵先生懐旧談」のいずれかに分類されることがわかりました。ちなみに、『論語と算盤』の「凡例」には「書中に蒐輯せるものは、男爵[渋沢栄一]が時処に関はらず、物に応じ事に接して訓話せられたるもの」という記述があります。

TEI/XMLファイル公開の意義

 情報資源センターでは、2025~2029年度の中期計画に、重点事項として「テクノロジーの発展を取り込んだデジタルリソースの整備・開発・提供」と記しました。そして、「デファクトスタンダードに基づいた汎用性のある情報資源の開発と持続的な提供」として「TEIによるリソース構築と公開」を、「これまでに構築してきた情報資源の連携促進や利活用方法を検討」として「AIの活用等も視野に、誰もが利用しやすい情報資源の発信を強化」を挙げています。TEIガイドラインというデファクトスタンダードに基づいて構造化されたファイルは機械可読かつ「AI Ready」であり、「渋沢栄一ダイアリー」に続いて、出典を明記すれば自由に使える「CC BY 4.0」のもとで公開したことで、その目標を達成するための土台ができたと考えています。

 かつて「人が使うもの」と考えられていたデジタルアーカイブは、いまや人と機械の双方にとっての知の基盤へと姿を変えつつあります。その変化は、私たち自身の「知」のあり方を問い直すものでもあるのかもしれません。今回公開したTEI/XMLファイルが、渋沢栄一の言葉と思想が盛り込まれたデジタルリソースとして、今まで以上にさまざまな用途で活用されることを願っています。


一覧へ戻る