Last Updated on 2025-05-22 10:22 by admin
Googleは2025年5月20日のGoogle I/O 2025で、医療テキストと画像理解のための新しいオープンモデル「MedGemma」を発表した。このモデルはGemma 3をベースに構築されており、開発者がヘルスケアベースのAIアプリケーションを構築するのに役立つ最も高性能なオープンモデルとされている。
MedGemmaは2つのバリアントで提供されている。一つは4Bのマルチモーダルバージョンで、医療画像と文章の両方を処理できる。もう一つは27Bのテキストのみのバージョンである。マルチモーダルバージョンは、放射線科、デジタル病理学、皮膚画像、眼科画像などの医療画像を分類するアプリケーションの開発に適している。また、医療レポートの生成や画像に関する質問への回答にも使用できる。
MedGemma 4Bは、胸部X線、皮膚科画像、眼科画像、組織病理学スライドなどの匿名化された医療データで特別に事前訓練されたSigLIP画像エンコーダーを利用している。その言語モデルコンポーネントは、放射線画像、胸部X線、組織病理学パッチ、眼科画像、皮膚科画像に関連する医療テキストを含む多様な医療データで訓練されている。
MedGemma 4Bは事前訓練版(接尾辞:-pt)と指示調整版(接尾辞:-it)の両方で利用可能で、ほとんどのアプリケーションでは指示調整版が適切な開始点となる。一方、MedGemma 27Bは医療テキストのみで訓練され、推論時の計算に最適化されており、指示調整モデルとしてのみ提供されている。
MedGemmaは、医療画像の検査、医療画像レポートの生成、患者のトリアージ、医療画像に関する質問への回答などのアプリケーション開発に活用できる。開発者はこのモデルを自身のユースケースに合わせてファインチューニングすることが可能である。
Google I/O 2025では、MedGemmaの他にも、モバイルデバイス向けのGemma 3nや手話を音声言語テキストに翻訳するSignGemmaなど、複数のAIモデルが発表された。これらのモデルは、それぞれ特定の用途に特化しており、AIの民主化と専門分野での応用を促進することを目指している。
References:
Google launches MedGemma for healthcare app developers
【編集部解説】
GoogleがヘルスケアAI分野で新たな一歩を踏み出しました。MedGemmaの発表は、医療AIの民主化という観点から非常に重要な意味を持っています。これまで医療画像解析やテキスト理解のAIモデルは、主に大企業や研究機関が独自に開発し、クローズドな環境で運用されることが多かったのですが、Googleはオープンモデルとして提供することで、より多くの開発者がヘルスケアAI分野に参入できる環境を整えようとしています。
MedGemmaの特筆すべき点は、マルチモーダル機能を持つ4Bモデルと、より高性能なテキスト処理に特化した27Bモデルの2種類を用意していることです。これにより、開発者は自分のアプリケーションに最適なモデルを選択できます。マルチモーダルモデルは医療画像と文章の両方を処理できるため、放射線画像の診断補助や皮膚疾患の分類など、視覚情報と言語情報を組み合わせた複雑なタスクに適しています。
Google I/O 2025の発表によると、MedGemma 4Bは事前訓練版と指示調整版の両方で提供されています。ほとんどのアプリケーションでは指示調整版が適切な開始点となりますが、モデルをより深く実験したい開発者のために事前訓練版も用意されています。
ただし、Googleも明言しているように、MedGemmaはそのままでは臨床現場での使用には適していません。開発者は自身のユースケースに合わせてモデルを検証し、さらに適応させる必要があります。これは医療分野におけるAIの責任ある使用という観点から重要な注意点です。
医療AIの導入には常に倫理的な懸念が付きまといます。AIモデルはトレーニングデータの質や多様性に大きく依存しており、バイアスや不正確さのリスクがあります。また、プライバシーの問題や、AIの判断が不透明であるという「ブラックボックス問題」も依然として課題です。
Google I/O 2025では、MedGemmaと並んで、モバイルデバイス向けのGemma 3nや手話を音声言語テキストに翻訳するSignGemmaなど、複数のAIモデルが発表されました。これらは、Googleが専門分野でのAI応用を促進する戦略の一環と見ることができます。
今後は、MedGemmaのようなオープンモデルと、医療機関や規制当局との協力関係が、安全で効果的な医療AI導入の鍵となるでしょう。開発者、医療従事者、規制当局が協力して、AIの可能性を最大限に活かしながら、患者の安全とプライバシーを守る枠組みを構築していくことが求められています。
私たちinnovaTopiaでは、このような医療AI技術の進化を注視しながら、その可能性とリスクの両面について、読者の皆様に最新の情報をお届けしていきます。
【用語解説】
マルチモーダルAI:
テキスト、画像、音声など複数の情報形式(モダリティ)を同時に理解・処理できるAI技術。例えば、医療画像を見て診断レポートを生成するような能力を持つ。人間が視覚と言語を組み合わせて情報を理解するのと似ている。
SigLIP画像エンコーダー:
Googleが開発した画像認識技術で、画像を数値データ(埋め込み)に変換する。一般的な画像認識より医療画像に特化した訓練を受けている。
ファインチューニング:
事前学習済みのAIモデルを特定のタスクに適応させるために追加訓練すること。例えば、一般的な医療知識を持つAIを特定の疾患の診断に特化させるような過程。
トリアージ:
患者の重症度や緊急度に基づいて治療の優先順位を決定するプロセス。災害時の救急対応などでよく知られているが、AIを用いることで日常の医療現場でも効率化できる。
臨床意思決定支援:
医師や医療従事者の診断・治療判断をサポートするシステム。AIが患者データを分析し、可能性のある診断や治療オプションを提案する。
Gemma 3:
GoogleのオープンAIモデルファミリーの最新版。2025年のGoogle I/Oで発表された。様々なサイズと特性を持つバリエーションがあり、MedGemmaはその医療特化版。
【参考リンク】
Google Health AI Developer Foundations MedGemma(外部)
医療テキストと画像理解のためのオープンAIモデル。開発者向けに医療AI応用の構築を支援する。
Viz.ai(外部)
AIを活用した医療画像分析と医療チーム連携のプラットフォーム。脳卒中などの緊急疾患の早期発見と治療を支援する。
Aidoc(外部)
放射線科医の診断をサポートするAIソリューション。急性異常を自動検出し、治療の迅速化と質の向上に貢献する。
Lunit(外部)
がんの早期発見と治療効果予測に特化したAIソリューション。特に胸部X線や乳房画像の分析に強みを持つ。
【参考動画】
【編集部後記】
皆さん、医療AIの進化が私たちの健康管理や医療体験をどう変えていくと思いますか? MedGemmaのようなオープンモデルの登場で、医療アプリ開発がより身近になる可能性があります。AIが医師の画像診断をサポートしたり、医療レポートの作成を効率化したりする未来は、すでに始まっているのかもしれません。皆さんが期待する医療AIの応用や、逆に懸念していることがあれば、ぜひSNSでシェアしてください。医療とテクノロジーの融合が加速する今、皆さんと一緒に考えていきたいと思います。