Googleは2026年1月15日、Gemma 3をベースとした新しいオープン翻訳モデル「TranslateGemma」を発表した。4B、12B、27Bの3つのパラメータサイズで提供され、55言語に対応する。WMT24++ベンチマークでMetricXを用いた評価では、12BのTranslateGemmaモデルがGemma 3の27Bベースラインを上回る性能を示した。
訓練は2段階で実施され、まずGeminiモデルが生成した高品質な合成翻訳を含むデータセットで教師あり学習を行い、次にMetricX-QEやAutoMQMなどの報酬モデルを使用した強化学習で品質を向上させた。55言語ペアに加え、約500の追加言語ペアでも訓練を実施した。Vistra画像翻訳ベンチマークでは、画像内テキストの翻訳能力も確認された。4Bモデルはモバイル向け、12Bモデルは一般消費者向けノートパソコン向け、27BモデルはH100 GPUまたはTPUでの実行を想定している。KaggleやHugging Face、Vertex AIで利用可能である。
From:
TranslateGemma: A new suite of open translation models
【編集部解説】
今回のTranslateGemmaの発表は、AI翻訳の民主化において極めて重要な意味を持ちます。これまで高品質な翻訳モデルは、クラウドAPIを通じてのみ利用可能であり、データはすべて外部サーバーを経由していました。TranslateGemmaはこのパラダイムを覆し、完全にローカルで動作する高品質翻訳モデルを提供することで、プライバシー保護とコスト削減を同時に実現しています。
最も注目すべきは、その効率性の革新です。12Bパラメータのモデルが27Bのベースラインを上回るという結果は、単なる性能向上以上の意味を持ちます。これは「知識蒸留」と「強化学習」という2段階のアプローチによって実現されました。まず、Geminiモデルが生成した高品質な合成翻訳を含む4.3 billion tokensのデータで教師あり学習を実施し、次にMetricX-QEやAutoMQMなどの報酬モデルを用いた強化学習で、文脈的に正確で自然な翻訳を生成するよう最適化しています。
評価に使用されたWMT24++ベンチマークは、文学、ニュース、ソーシャル、音声の4つのドメインをカバーする包括的なデータセットです。TranslateGemmaは、MetricXスコアで12Bモデルが3.60を記録し、27Bベースラインの4.04を大きく上回りました。MetricXは0から25の範囲でエラー数を評価する指標であり、スコアが低いほど翻訳品質が高いことを示します。
低リソース言語への配慮も見逃せません。55言語の厳密な評価に加え、約500の言語ペアで訓練を実施し、研究者が特定の言語ペアをファインチューニングする基盤を提供しています。英語-アイスランド語では30%、英語-スワヒリ語では25%のエラー率削減を達成しており、これまで翻訳品質が課題だった言語への対応が大幅に改善されました。
マルチモーダル機能の保持も重要なポイントです。Vistra画像翻訳ベンチマークでのテストにより、画像内のテキストを翻訳する能力も確認されています。これにより、文書翻訳だけでなく、看板やメニュー、インフォグラフィックなど、画像に埋め込まれたテキストの翻訳も可能になります。
3つのモデルサイズの戦略的な設計も注目に値します。4Bモデルはスマートフォンやエッジデバイス向け、12Bモデルは一般的なノートパソコンで動作し、27Bモデルは単一のH100 GPUまたはTPUで実行可能です。この柔軟性により、開発者は用途に応じて最適なモデルを選択できます。
一方で、潜在的な課題も存在します。ローカル実行には十分な計算リソースが必要であり、特に27Bモデルは高性能なハードウェアを要求します。また、約500の追加言語ペアについては、まだ確認された評価指標がないため、実際の翻訳品質については慎重な検証が必要です。
注目すべきは、このリリースが示す業界全体への影響です。GoogleはTranslateGemmaを通じて、ChatGPT Translateなどのクローズドシステムへの対抗軸を明確に示しました。オープンソース化により、研究コミュニティは自由にモデルを検証し、改良し、特定のユースケースに適応させることができます。これは、AI技術の透明性と説明責任という観点からも重要な一歩です。
KaggleやHugging Face、Vertex AIでの提供により、研究者から企業まで幅広いユーザーが容易にアクセスできる点も評価できます。オープンな技術仕様の公開は、翻訳AI分野全体の進化を加速させる触媒となるでしょう。
【用語解説】
オープン翻訳モデル
誰でも自由にダウンロード、使用、改変できる翻訳AIモデルのこと。クローズドな商用APIと異なり、モデルの重みやアーキテクチャが公開されており、ローカル環境での実行やカスタマイズが可能である。
パラメータサイズ
AIモデルが持つ調整可能な変数の数を示す指標。4B(40億)、12B(120億)、27B(270億)のように表記される。一般的にパラメータ数が多いほど性能は高いが、計算リソースも多く必要となる。
WMT24++ベンチマーク
機械翻訳の品質を評価するための包括的なデータセット。GoogleとUnbabelが共同で開発し、55言語、4つのドメイン(文学、ニュース、ソーシャル、音声)をカバーする。人間による翻訳とポストエディットを含む。
MetricX
Googleが開発した機械翻訳の評価指標。0から25の範囲でエラー数を予測し、スコアが低いほど翻訳品質が高いことを示す。参照翻訳ありと参照翻訳なし(QE)の両方のモードで動作可能なハイブリッド型メトリクスである。
教師あり学習(SFT: Supervised Fine-Tuning)
正解ラベル付きのデータを用いてモデルを訓練する機械学習の手法。TranslateGemmaでは、人間による翻訳とGeminiが生成した高品質な合成翻訳を含む4.3 billion tokensのデータセットで実施された。
強化学習(RL: Reinforcement Learning)
報酬シグナルを用いてモデルの行動を最適化する機械学習の手法。TranslateGemmaでは、10.2 million tokensのデータで実施され、文脈的に正確で自然な翻訳を生成するよう導いた。
MetricX-QE
MetricXの参照翻訳なしバージョン。Quality Estimationの略で、原文と翻訳結果のみから品質を評価できる。参照翻訳を用意できない実用的な場面での品質評価に有用である。
AutoMQM
Multidimensional Quality Metricsの自動化版。翻訳の品質を精度、流暢性、完全性など多次元的に評価する指標。TranslateGemmaの強化学習フェーズで報酬モデルの一部として使用された。
言語ペア
翻訳の元言語と目標言語の組み合わせ。例えば英語-日本語、スペイン語-フランス語など。TranslateGemmaは55言語ペアで厳密に評価され、約500の追加言語ペアで訓練された。
知識蒸留
大規模で高性能なモデル(教師モデル)の知識を、小規模で効率的なモデル(生徒モデル)に移転する技術。TranslateGemmaでは、Geminiモデルの「直感」をGemma 3に蒸留することで、少ないパラメータで高品質な翻訳を実現した。
低リソース言語
デジタルコンテンツや翻訳データが少ない言語のこと。アイスランド語、スワヒリ語など、話者人口が少ない、または技術的なリソースが限られている言語を指す。従来の翻訳システムでは品質が低い傾向があった。
マルチモーダル機能
テキストだけでなく、画像や音声など複数の形式のデータを処理できる能力。TranslateGemmaは画像内のテキストを抽出して翻訳することが可能である。
Vistra画像翻訳ベンチマーク
画像内のテキスト翻訳能力を評価するためのベンチマーク。看板、メニュー、文書など、実世界の画像に含まれるテキストの翻訳品質を測定する。
H100 GPU
NVIDIAが開発した高性能なグラフィックス処理装置。AI訓練や推論に特化した設計で、TranslateGemmaの27Bモデルは単一のH100 GPUで実行可能である。
TPU(Tensor Processing Unit)
Googleが開発した機械学習専用のプロセッサ。AI計算に最適化されており、TranslateGemmaの訓練や推論に使用される。GPUよりも効率的にテンソル演算を処理できる。
エッジデバイス
クラウドではなく、ローカル環境で直接データ処理を行うデバイスのこと。スマートフォン、タブレット、IoT機器など。TranslateGemmaの4Bモデルはエッジデバイスでの実行に最適化されている。
【参考リンク】
TranslateGemma Technical Report(外部)
TranslateGemmaの技術詳細をまとめた学術論文。訓練手法、評価結果、対応言語リストを記載。
Kaggle – TranslateGemma Models(外部)
Kaggle上でモデルをダウンロード可能。4B、12B、27Bの各サイズを提供。
Hugging Face – TranslateGemma Collection(外部)
Hugging Face上のモデルコレクション。Pythonライブラリで容易に利用可能。
Gemma Cookbook – TranslateGemma Example(外部)
Google Colabで実行可能な使用例。モデルを試すためのノートブックを提供。
WMT24++ Dataset (Hugging Face)(外部)
評価に使用されたベンチマーク。55言語の人間翻訳とポストエディットを含む。
【参考記事】
google/translategemma-12b-it · Hugging Face(外部)
技術仕様の詳細。教師あり学習で4.3 billion tokens、強化学習で10.2 million tokensを使用。
Google, Unbabel Expand Key AI Translation Benchmark to 55 Languages with WMT24++(外部)
WMT24++ベンチマークの詳細。MetricX-24やCOMETで評価、LLMsが従来システムを上回る。
TranslateGemma – Free AI Translation for 55 Languages(外部)
性能詳細。12BモデルがMetricXスコア3.60、エラー率26%削減を達成。
With MetricX-24 Google Presents Latest Machine Translation Evaluation Metric(外部)
MetricX-24の解説。0から25の範囲で評価、ハイブリッド型で両モード対応可能。
【編集部後記】
ローカルで動作する高品質な翻訳モデルの登場は、私たちの働き方をどう変えていくのでしょうか。プライバシーが守られた環境で翻訳できることは、医療や法務、機密性の高いビジネスシーンでの活用を大きく広げる可能性を秘めています。
みなさんは、どのような場面でこうしたオープンな翻訳モデルを使ってみたいと思いますか?また、約500言語ペアへの拡張が進めば、これまで技術の恩恵を受けにくかった言語圏の人々にも新たな可能性が開かれるかもしれません。AI翻訳の民主化が、言語の壁を越えた真のコミュニケーションにどうつながっていくのか、ぜひみなさんの視点からも考えてみていただけたら幸いです。



































