ーTech for Human Evolutionー

東京大学・理化学研究所、日本語特化の医療AI「142億パラメータ」視覚言語モデルをオープン公開へ

AI（人工知能）ニュース｜ヘルスケアテクノロジーニュース

Headline News

山本達也

[公開]

2026年3月13日9:06

[更新]2026年3月17日

東京大学・理化学研究所、日本語特化の医療AI「142億パラメータ」視覚言語モデルをオープン公開へ - innovaTopia

2026年3月6日、東京大学先端科学技術研究センターと理化学研究所の研究グループは、142億パラメータを持つ日本語特化の医療用マルチモーダルモデルを開発した。開発には安道健一郎特別研究員、黒瀬優介特任講師、原田達也教授らが参加した。

学習データには英語の医療データを加工・翻訳した約1,200万件の日本語医療データを使用した。ChatGPTなど出力利用に制限のある大規模言語モデルが生成したデータは使用しておらず、モデルはオープンに公開される予定である。学習にはChain-of-Thought形式を導入し、推論過程を明示的に出力できる。

公開ベンチマークにおいて、利用制限のあるデータを使わない既存モデルの中で最高水準の性能を達成した。本成果は言語処理学会第32回年次大会（2026年3月9日〜13日）で発表される。

From: オープンな医療用マルチモーダルモデルを開発―142億パラメータを持つ日本語に特化した医療用視覚言語モデル― | 東京大学先端科学技術研究センター

【編集部解説】

日本の医療現場でAIを本格活用しようとするとき、避けて通れない壁があります。それが「データの外部持ち出し禁止」という問題です。多くの病院や医療機関では、患者情報を組織の外に出せないため、ChatGPTやGeminiのようなクラウド型のAIサービスにデータを送って処理させることができません。今回、東京大学と理化学研究所が開発したモデルは、まさにこの問題に真正面から挑んだ成果です。

このモデルが「オープン」であることの意味は、単に無料で使えるということではありません。病院のサーバー内、つまりオンプレミス環境で完全にクローズドに運用できるという点が本質です。外部のクラウドにデータを送ることなく、院内だけで画像診断の支援や医療所見の生成が完結します。これは日本の医療情報保護の現実に即した、非常に実用的な設計思想です。

技術面での注目点は、学習データの構築方法にあります。日本語の医療画像データと日本語テキストのペアデータは極めて入手困難です。この研究では、英語の医療データを加工・翻訳することで約1,200万件の日本語医療学習データを独自に構築しました。先行研究で課題とされていた数百万件規模の制約を大きく上回るデータ量です。さらに、Chain-of-Thought（CoT）形式の学習を導入することで、モデルが「なぜその診断に至ったか」という推論プロセスを明示的に出力できます。医療AIにおいて、結論だけでなく根拠を示せることは、臨床現場での信頼性確保という観点から非常に重要です。また元記事の評価結果によれば、X線画像においてSupervised Fine-tuning（教師あり微調整）を加えることで、GPT-5に迫る性能向上も確認されています。オープンモデルでありながら商用最先端モデルとの差を着実に縮めているという事実は、この研究の持つポテンシャルをより鮮明に示しています。

日本は現在、EUのAI法のような単一の厳格なAI規制法ではなく、原則ベースのガイドラインによる柔軟な規制アプローチを採用しています。一方で、2025年5月にはAI推進法が国会で可決され、日本はAPAC地域において包括的なAI法制を整備した2番目の主要経済国となりました。医療AIの分野では特に、薬機法（PMD法）のもとSaMD（医療機器としてのソフトウェア）として規制される道筋が整いつつあります。今回のモデルはあくまで研究・基盤モデルとして公開されるものですが、将来的に診断支援として実装されるには、こうした規制上のハードルを越えていく必要があります。

ポジティブな側面として、このモデルが基盤となることで、国内の医療AIスタートアップや研究機関が専門特化モデルを独自に開発するコストと時間を大幅に削減できる点が挙げられます。診療科別のファインチューニングが進めば、放射線科・病理・眼科・皮膚科など、画像診断が重要な各分野での応用が現実的になってきます。

潜在的なリスクについても見ておく必要があります。合成データ（英語データを加工・翻訳したもの）で学習したモデルが、日本の実際の臨床現場の多様性や特殊性をどこまで反映できているかは、今後の検証が必要な領域です。また、CoT形式で推論プロセスを出力するとはいえ、そのプロセス自体の医学的妥当性を誰がどう評価するか、という問いも残ります。日本の医薬品医療機器総合機構（PMDA）は、医療AIに対して日本人患者集団内での臨床的検証を義務付けるなど、慎重なアプローチを維持しています。研究成果から実臨床への橋渡しには、こうした規制上の検証プロセスが不可欠です。

長期的な視点では、このモデルの公開が日本の医療AIエコシステム全体を底上げする「共有インフラ」として機能する可能性があります。英語圏主導で進んできた医療VLMの世界において、日本語に特化したオープンな基盤モデルが存在することの意義は小さくありません。医師不足や高齢化という日本固有の社会課題に対して、AIが実質的なソリューションとなる日への、着実な一歩です。

【用語解説】

視覚言語モデル（VLM）
画像とテキストの両方を入力として理解・処理できるAIモデルの総称。「この画像には何が写っているか」「X線画像を見て所見を述べよ」といった問いに答えることができる。テキストのみを扱うLLMをマルチモーダルに拡張したもので、医療分野では画像診断支援への応用が期待されている。

Chain-of-Thought（CoT）
AIモデルが結論だけを出力するのではなく、推論の過程を段階的に記述しながら答えに到達する学習・推論手法。「なぜその結論に至ったか」が明示されるため、医療AIにおいては医師が出力結果を検証・判断する際の根拠として機能する。

オンプレミス
クラウドサービスに頼らず、自組織が管理するサーバーや設備内でシステムを運用する形態。外部にデータを送信しないため、患者情報など機密性の高いデータを扱う医療機関で特に重要視される概念である。

合成データ
実際のデータを直接使用せず、既存データを加工・変換・翻訳などして人工的に生成した学習用データのこと。本研究では英語の医療データを加工・翻訳することで約1,200万件の日本語医療学習データを構築した。プライバシーの問題を回避しながらデータ量を確保する手法として注目されている。

SaMD（Software as a Medical Device）
疾患の診断・治療・予防を目的とするソフトウェアを医療機器として規制する概念。日本では薬機法（PMD法）のもとで規制対象となり、リスクに応じてクラスI〜IVに分類される。医療AIが実臨床で使用されるには、このSaMDとしての承認プロセスを経る必要がある場合がある。

ファインチューニング
汎用的な大規模モデルをベースに、特定の用途・分野に向けて追加学習を行うこと。今回のモデルを土台として、放射線科・病理・眼科などの診療科別にファインチューニングすることで、より専門的な医療AIの構築が可能になると期待されている。

【参考リンク】

東京大学先端科学技術研究センター（RCAST）（外部）
東京大学の附置研究所。文理融合・超域型の先端研究を推進する拠点で、本研究の主発表機関。AIや医療工学など幅広い分野の研究者が集結している。

理化学研究所革新知能統合研究センター（RIKEN AIP）（外部）
理化学研究所のAI研究センター。本研究の共同研究機関で、機械学習・深層学習・医療AIなどの基礎・応用研究を幅広く推進している。

言語処理学会（NLP）（外部）
自然言語処理の研究発展を目的とする日本の学術団体。本研究論文が発表された第32回年次大会（2026年3月9〜13日）の主催団体である。

【参考記事】

Development of an Open Medical Multimodal Model — RIKEN AIP（英語公式プレスリリース）（外部）
理化学研究所AIPによる本研究の英語公式発表。パラメータ数「14.2 billion」と日本語版「142億」の数値が一致することを確認した。

Japan’s evolving AI and digital health regulations — International Bar Association（外部）
日本の医療AI・デジタルヘルス規制の現状を法律的観点から解説。AIガイドラインVer.1.1（2025年3月更新）や薬機法によるSaMD規制の枠組みを整理している。

Understanding Japan’s AI Promotion Act — Future of Privacy Forum（外部）
2025年5月可決の日本AI推進法を詳細に分析。APAC地域で包括的AI法制を整備した2番目の主要経済国としての位置づけを論じている。

A decade of review in global regulation of AI medical devices — Frontiers in Medicine（外部）
日本初の医療AI承認（2018年）以来の規制変遷を総括した学術論文。PMDAによる臨床検証義務やClass III分類の実態を数値・事例で詳述している。

Benchmarking VLMs for gastroenterology clinical reasoning — npj Digital Medicine（Nature）（外部）
医療VLMの性能比較論文（2025年11月）。o1-preview 82.0%、Claude 3.5 Sonnet 74.0%など商用・OSS各モデルの精度を報告。現在地の基準値として参照した。

【編集部後記】

日本の医療現場でAIが本当に使われるためには、「性能の高さ」だけでは足りないのかもしれません。データを外に出せない、クラウドに頼れない――そんな制約の中でどう技術を届けるか。

今回の研究は、その問いへの一つの答えを示してくれているように思います。みなさんはこの「オープンであること」の価値を、どう受け止めますか？

AI（人工知能）ニュース｜ヘルスケアテクノロジーニュース

Headline News

山本達也

『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。

記事一覧