NEDO・東京大学ら10者、医療業務支援の日本語LLM開発|専門医試験90.8%で商用LLMに迫る

「病院のカルテをAIに読ませても大丈夫なのか」——この不安に、ひとつの答えが示されました。NEDOと東京大学、ABEJAなど10者が共同で、患者情報を病院の外に出さずに動かせる医療業務支援向けの日本語LLMを開発したのです。しかも性能は、世界最先端の商用AIに迫る水準。退院時サマリーの下書きや検査コードの変換といった、医師や看護師を悩ませてきた事務作業を肩代わりしてくれる存在になりそうです。海外の巨大AIに頼らず、機微なデータを国内で守りながら世界水準を狙う——日本の医療現場の未来を変えるかもしれない、その第一歩を見ていきましょう。


2026年5月28日、NEDOは、さくらインターネット、東京大学、ABEJA、理化学研究所、国際医療福祉大学、藤田医科大学、東京科学大学、九州大学、ヘリオスと連名で、医療業務支援向けの日本語LLMを開発したと発表した。これはNEDOの「AIの安全性確保に関する研究開発・検証等の推進事業」の成果である。

開発したLLMは、医療機関のオンプレミス環境や国内クラウド環境など、患者情報を安全に管理できる環境で運用できる。専門医試験を模した学術試験では、RAGを用いて最大90.8%の正答率に到達し、比較対象とした商用LLM(91.4%)に迫った。退院時サマリーの下書き作成では、専門医9名による評価で5点満点中4.748を記録した。検査名称からJLAC11コードへの変換は最大80.3%、脳卒中レジストリ構築は92.2%の精度を達成した。今後、段階的に社会実装を進める予定である。

From: 文献リンク医療現場の事務作業を支援する高性能な日本語LLMを開発しました | ニュース | NEDO

【編集部解説】

このニュースで多くのメディアが見出しに掲げたのは「90.8%」という正答率です。比較対象とした主要な商用LLM(91.4%)に迫ったという数字は、確かにインパクトがあります。ただ、innovaTopiaが注目したいのはその先にある二つの構造的な意味です。

ひとつは「どこで動かすか」という問題です。一般的な外部AIサービスでは、契約内容や設定によって、患者情報が外部事業者の管理下や国外のリージョンで処理される可能性があり、医療機関側がその所在や扱いを十分に統制しきれないことが課題になります。今回のLLMは、病院内のサーバ(オンプレミス)や医療機関が管理する国内クラウドで動かせる設計になっています。つまり「性能か、情報の主権か」という二者択一を崩しにいった点に、この成果の本質があります。

ここで効いてくるのが「追加学習」という手法です。ゼロからAIを作るには莫大な計算資源が要りますが、公開済みのオープンモデルを土台にして、日本の診療ガイドラインや専門医試験のデータを上乗せして鍛え直す。これなら現実的なコストで、自前で管理できるAIが手に入ります。表1を見ると、東京大学が手がけたGLM-4.7ベースのモデルが、ガイドライン適合性でベースから10.8ポイントも伸びています。土台を医療仕様に「方言ごと教え込む」ことの効果が、ここに表れています。

もうひとつ見逃せないのが、安全性検証で得られた知見です。研究チームは、追加学習を施した後もベースモデルと同等の安全性を保てたと報告する一方で、「どのLLMを土台に選ぶかで安全性の維持度合いが大きく変わる」と明言しています。これは実務上きわめて重要な指摘です。性能ランキングの上位モデルが、必ずしも医療現場で安全とは限らない——導入を検討する病院やベンダーにとって、選定の物差しそのものを問い直す材料になります。

そして、この発表は突然降ってわいたものではありません。一部重なる顔ぶれの研究チームは今年3月、研究者向けに医療特化型LLMを限定公開しています。東京大学松尾・岩澤研究室がさくらインターネット、ELYZA、ABEJA、理化学研究所、医療機関と連携し、研究目的限定で対話型AIサービスを公開した段階から、3か月弱で「社会実装に向けた安全性の裏付け」へと駒を進めた格好です。背景には戦略的イノベーション創造プログラム(SIP)第3期「統合型ヘルスケアシステムの構築における生成AIの活用」という国家プロジェクトの流れがあり、国産・オープンな医療LLMを社会へ着地させる一連の動きの、節目にあたる発表だと位置づけられます。

実際に何ができるようになるのか。リリースが挙げるのは、退院時サマリーの下書き、検査名称のコード変換、脳卒中の症例データ整理、電子カルテへの自然言語での問い合わせ——いずれも医師や看護師を消耗させてきた事務・文書業務です。診断や治療そのものではなく、あくまで人間の判断を支える「裏方」に徹している点は、戦略的な線引きと読むべきでしょう。医療AIが診断に踏み込めば医療機器としての薬事規制が立ちはだかりますが、事務支援に限定することで、現行の枠組みの中で現場へ届けやすくなります。ただし、医療情報システムの安全管理や個人情報保護、院内での運用検証は引き続き欠かせません。

もちろん死角もあります。専門医試験で90%を超えたといっても、設問はあくまで模擬ベンチマークであり、実際の臨床現場の複雑さとは別物です。脳卒中レジストリ構築の92.2%という数字も、人間の94〜95%にはまだ届いていません。事務支援であっても、サマリーの誤記や取り違えが医療事故の起点になりうる以上、「最終判断は人間が行う」という原則の運用が問われ続けます。

長期的に見れば、この取り組みは日本のAI政策の試金石でもあります。海外の巨大商用モデルに依存せず、機微なデータを国内で守りながら、検証ベンチマーク上では主要な商用LLMに迫る性能を示す——その方程式が医療という最もセンシティブな領域で成立するなら、金融や行政、防衛といった他の規制産業にも応用の道が開けるかもしれません。数字の華やかさよりも、「安全に使える国産AIの作り方」という方法論を残したことこそ、この発表の長く効く価値だと、編集部は考えます。

【用語解説】

LLM(大規模言語モデル)
膨大なテキストを学習し、文章の生成・要約・質問応答などを行うAI技術。ChatGPTなどの基盤となっている仕組みである。

追加学習(ファインチューニング)
すでに公開・完成しているLLMに、特定分野のデータを上乗せで学習させ、その分野に強くする手法。ゼロから作るより低コストで専門特化型AIを実現できる。

フルスクラッチ開発
既存モデルを土台にせず、設計から学習までをすべてゼロから行うLLM開発手法。今回の「AscleLM1」がこれに該当する。

RAG(検索拡張生成/Retrieval-Augmented Generation)
AIが回答を生成する際、外部の文書(診療ガイドライン等)を参照しながら答える方式。最新の情報や出典に基づいた精度の高い回答が得られる。

オンプレミス
クラウドではなく、利用者(ここでは病院)が自前で保有・管理するサーバ環境のこと。データを外部に出さずに運用できる。

JLAC11コード
日本臨床検査医学会が定める臨床検査項目の標準コード体系。検査名称の表記ゆれを統一し、施設間でのデータ連携を可能にする。

MoE(Mixture of Experts)
表中の「355B MoE」などに使われる方式。複数の専門家(エキスパート)モデルを内部に持ち、入力に応じて一部だけを動かすことで、巨大なパラメータ数でも効率的に推論する仕組み。

レッドチーミング
攻撃者の視点で意図的に攻撃を仕掛け、システムの脆弱性を体系的に洗い出す検証手法。本事業では6000件規模で実施された。

退院時サマリー
患者の入院から退院までの経過・治療・処方などをまとめた要約文書。作成は医師の負担が大きい事務作業の代表例である。

脳卒中レジストリ
脳卒中症例のデータを体系的に収集・登録したデータベース。研究や医療の質向上に用いられる。

SIP(戦略的イノベーション創造プログラム)
内閣府が主導する国家プロジェクト。本事業は第3期「統合型ヘルスケアシステムの構築における生成AIの活用」の流れに連なる。

【参考リンク】

NEDO 事業紹介ページ(外部)
「AIの安全性確保に関する研究開発・検証等の推進事業」の概要を解説する公式ページ。事業の目的や背景が確認できる。

東京大学 松尾・岩澤研究室(外部)
日本のLLM研究を牽引する研究室。本事業の中核を担い、複数の医療特化型LLMを開発・公開している。

さくらインターネット株式会社(外部)
国内クラウド基盤を提供する企業。2026年3月公開の対話型AIサービスでは、同社の生成AI向け基盤上で提供された。

株式会社ABEJA(外部)
AI実装を手がける企業。本事業の連名機関の一つとして、モデル開発・実装に参画している。

株式会社ELYZA(外部)
東京大学松尾研発の日本語LLM開発企業。3月の研究者向け公開時の連携機関の一つである。

国立研究開発法人 理化学研究所(外部)
日本を代表する自然科学の総合研究所。本事業に研究機関として参画している。

国立情報学研究所 LLM研究開発センター(外部)
SIPの枠組みで医療LLM「SIP-jmed-llm」シリーズを公開。国産医療LLM開発の動向が分かる。

株式会社ヘリオス(外部)
再生医療を手がける企業。本事業の連名機関の一つで、脳卒中領域などでLLM活用の検証に関わる。

【参考記事】

医療現場の事務作業を支援する高性能な日本語LLMを開発しました(PR TIMES)(外部)
本発表のPR TIMES配信版。専門医試験で最大90.8%に到達し、商用LLM(91.4%)に迫ったことが記載されている。

医療現場の事務作業を支援する高性能な日本語LLMを開発しました(TIISYS Blog)(外部)
本発表の要約記事。RAGで最大90.8%、5万件超の安全性ベンチマーク、6000件のレッドチーミングを整理している。

東京大学松尾・岩澤研究室、日本語版医療特化型LLMを開発し対話型AIサービスを公開(外部)
2026年3月の発表。研究目的限定で医療特化型LLMを研究者向けに公開した、今回の前段にあたる動きを伝える。

SIP-jmed-llm-2シリーズの公開(国立情報学研究所 LLMC)(外部)
SIP第3期の医療LLM開発の解説。国産医療LLMが国家施策として進む文脈を裏づける資料である。

さくらインターネット、東大開発の医療特化型LLMを研究者向けに無償提供開始(日本経済新聞)(外部)
2026年3月5日の報道。提供基盤と社会実装に向けたインフラ面の動きが確認できる記事である。

【関連記事】

NTT版LLM「tsuzumi 2 Vision」登場 ― 図表入り日本語ビジネス文書を1GPUで読み解く純国産AI
クラウドに預けたくない機微情報を手元で安全に扱う純国産・オンプレミス運用LLM。本記事と同じ「情報の主権」を巡る論点を扱う。

NTT「tsuzumi 2」提供開始|富士フイルムと連携、軽量・高性能な純国産日本語特化LLMを実現
金融・医療・公共分野を強化した純国産LLM。オンプレミス運用と機微情報の安全な取り扱いという共通テーマを持つ。

SaluDi×日立市スマートシティ―約7万人の健康データを分析、疾病傾向を可視化
住民の健康データをAIで分析する国内事例。医療・健康分野の機微データ活用という観点で本記事と隣接する。

NTT、世界初「トークン共通化」技術を確立—異種LLM間の”語彙の壁”がついに崩れる
国産LLMの連携と規制・ガバナンスを論じた記事。モデル選択や説明可能性という本記事の論点に通じる。

【編集部後記】

「AIに自分のカルテを読ませて大丈夫だろうか」——そんな漠然とした不安を、一度は感じたことはないでしょうか。今回の取り組みは、性能を追うだけでなく「患者情報を院内から外に出さない」という選択肢を、現実的な形で示してくれました。

みなさんが患者として、あるいは医療に携わる一人として、AIにどこまで任せたいか。逆に、人の手に残しておきたい部分はどこか。この記事が、その線引きをご自身の感覚で考えてみるきっかけになれば、私たちも一緒に未来を探っていけそうです。


Googleで優先するソースとして追加するボタン
投稿者アバター
TaTsu
『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。 ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。