国立国会図書館と国立情報学研究所が連携 – 1995年以前の官庁出版物など30万点の学習データ獲得

 - innovaTopia - (イノベトピア)

国立国会図書館は2025年9月5日、官庁出版物のデジタル化画像からOCR(光学文字認識)技術によって作成した全文検索用のテキストデータを国立情報学研究所(NII)に提供することで合意した。

この全文テキストデータは、主に1995年までに刊行された図書に加え、雑誌や官報など、合計約30万点分が含まれている。これらのデータは、NIIが構築を進める大規模言語モデル(LLM)の学習用データとして活用される予定である。今回の協力は、1995年4月19日に締結された「国立国会図書館及び学術情報センターの相互協力に関する協定」に基づいて行われている。

国立国会図書館は日本の国立機関で、図書・出版物の収集、保存、提供を担っている。国立情報学研究所(NII)は、学術情報基盤やAI分野の研究開発をリードする機関であり、今回の取り組みではNII大規模言語モデル研究開発センターが中心となっている。

from:文献リンク2025年10月1日 国立情報学研究所における大規模言語モデル構築への協力について

【編集部解説】

国立国会図書館には、日本におけるほぼすべての出版物が納められています。図書や雑誌だけでなく、楽譜、地図、音楽メディア、電子出版物も含まれています。

この目的は、国内出版物を網羅的に収集・保存し、国民共通の文化的財産として後世に継承し、国会の審議や政策立案、国民の学術・文化活動に広く活用することです。納品された出版物は「日本全国書誌」に記録され、書誌情報の総目録として利用されており、出版者は発行日から30日以内に最良版の完全なもの1部(官庁や自治体は複数部)を納本する義務があります。

日本の国立国会図書館から国立情報学研究所(NII)に約30万点の出版物テキストデータが提供され、日本語大規模言語モデル(LLM)開発が本格化しています。この動きは、英語中心の世界的なAIモデルでは実現が難しい日本語特有の文脈や文化的背景を再現できるAI基盤の構築を意味します。

日本語中心に学習されたLLMは、海外で開発されているChatGPTやGoogle Gemini以上に日本の文化や言語学に沿った推論や出力をすることが期待でき、これだけでも日本国内の広告、観光、金融、法務、エンターテインメントといった幅広い業界において真価を発揮することでしょう。

ですが、世界人口に対して日本語そのものの価値自体は英語や中国語には遠く及びません。仮に国立国会図書館の全てのデータを学習したとしても、「推論の能力」や「汎用性」に関して、既存のLLMを上回ることは難しい可能性が高いです。

日本語LLMの国際市場における価値は、単なる言語モデルとしての活用以上に、知的財産や文化的資源の保護、そしてグローバル展開時の「安全な日本語対応」の選択肢となる点にあります。たとえば、多国籍企業や海外のAIプラットフォームにとって、文化的裏付けや法的透明性を備えた日本語モデルは、「信頼できる資産」として高く評価されます。これは、日本の知財が無断利用されるリスクを減らし、将来の市場主導権や文化主権を守る役割も果たします。

現在は、AI開発におけるデータ起源の透明性や知財管理への社会的要請が世界的に高まっています。日本語LLMを公的かつ法的にクリーンなデータで構築することは、経済安全保障や文化主権だけでなく、日本発イノベーションの国際競争力向上にも直結します。

このように、日本語LLMは単なる「日本国内用AI」にとどまらず、グローバルビジネスでも価値を持つ知的資産インフラとして、今後のAI社会に不可欠な存在となっていきます。

日本のAI業界は大規模な計算資源、特にGPUの数においてOpenAIやGoogle等欧米IT大手と比べて明らかに不利な状況にあります。国内最大級のクラウド、研究機関を総動員しても1~2万基規模なのに対し、米大手企業は一つの開発プロジェクトで10万基単位のGPUを稼働させています。

そのため、モデル規模やトレーニング速度、多様なファインチューニング余力では大きな隔たりがあります。日本語LLM単独でグローバルな競争に立ち向かうというより、日本の知財が不当に侵害され、それを良しとして使わざるを得ない状況を避ける目的が大きいと考えられます。

 【用語解説】

大規模言語モデル(LLM)
テキスト生成や翻訳、要約など多様な言語処理を高精度で実現するAIモデル。大量の文章データを学習し、文脈理解や自然言語応答が可能となる。

OCR(光学文字認識)
紙や画像上にある文字情報をコンピュータが認識し、テキストデータに変換する技術。デジタル化資料の全文検索やAI学習データ化に不可欠だ。

知的財産(知財)
著作物や発明、商標など、創作活動から生まれる無形資産全般を指す。AIの学習・生成物でも問題となる分野。

トレーサビリティ
学習データの由来や利用履歴を明確にすること。AIが社会インフラ化する中、安全性や信頼性確保の要件となっている。

ファインチューニング
大規模なAIモデルを特定用途や業界ニーズに合わせて追加学習するプロセス。用途適応性や精度向上のカギとなる。

【参考リンク】

国立国会図書館(NDL)(外部)
日本の国立図書館。資料保存・調査研究・情報提供を担う。

国立情報学研究所(NII)(外部)
学術情報基盤やAI研究を進める政府系機関。LLM開発の拠点。

国立情報学研究所 大規模言語モデル研究開発センター(外部)
日本語LLMの研究開発を専門とするNII内組織。

OpenAI(外部)
GPTシリーズなど先進言語モデルを開発する米AI研究企業。

産業技術総合研究所(産総研)(外部)
日本最大級の公的研究機関。AIや計算資源開発で連携実績。

【参考記事】

官庁出版物30万点、AIモデルに活用へ 国会図書館がNIIに提供 | ITmedia NEWS
国立国会図書館が官庁出版物データをNIIへ提供し、日本語LLM開発を後押しする動向を解説。

OCRテキストをNIIに提供 大規模言語モデル開発を支援 | Aibrary
国会図書館によるOCRデータ提供の背景や意義、今後の日本語AI開発への影響をまとめている。

「国産でも影響力大」、日本語特化の大規模言語モデル(LLM) | ビジネス+IT
日本語LLMの国際的な意義や独自性、市場インパクトなどを分かりやすく解説。

日本が“AI競争”で海外に勝つには?──Sakana AIデビッド氏インタビュー | ITmedia NEWS
国内AI競争力強化や日本語モデルの意義、課題への示唆を業界専門家が語っている。

【編集部後記】

今回の国立国会図書館と国立情報学研究所による規模感のあるデータ提供は、AI分野が国内でも本格的な社会インフラを構築すべきフェーズに入っていることを強く印象づけました。日本の納本制度は戦後から一貫して文化・学術資産を網羅的に収集・保存する仕組みとして機能してきましたが、今やそれは紙媒体に限らず、AIやデジタル社会の根幹を支える情報基盤へと進化しつつあります。

情報の集積や社会への開放は「文化の保存」から「イノベーションの推進」へと目的が広がっています。グローバル市場においても、機械学習や大規模言語モデルの発展は不可逆的であり、今後AI自体が生活や産業から分離できない基盤技術として普遍化していくことは避けられません。

日本の著作権法やAI推進法は国際的に見れば柔軟で、AIの学習や活用に関してはかなり寛容です。ですが、その透明性や信頼性を担保するのは、最終的に公的な機関による「データのクリーン化」と「知財保全」に依るところが大きいと感じます。もしAI技術に社会が拒否反応を示せば、その先にはブラックボックス化した海外AIへの依存か、あるいは法整備の波に飲まれ日本語・日本文化がAI社会から孤立していくリスクもありえます。そうならないための今回の取り組みは、守りでもあり攻めでもある戦略的判断だと思いました。

1995年以前の官庁出版物という限定的な取り組みも、今後段階的に規模を大きくしていくための布石だと考えられます。漫画や小説といったクリエイター個人への影響が大きいものを避け、学習結果の検証等が行いやすい小規模から始めるということが目的でしょう。

投稿者アバター
りょうとく
趣味でデジタルイラスト、Live2Dモデル、3Dモデル、動画編集などの経験があります。最近は文章生成AIからインスピレーションを得るために毎日のようにネタを投げかけたり、画像生成AIをお絵描きに都合よく利用できないかを模索中。AIがどれだけ人の生活を豊かにするかに期待しながら、その未来のために人が守らなけらばならない法律や倫理、AI時代の創作の在り方に注目しています。

読み込み中…
advertisements
読み込み中…