Gemma 3:Googleが発表した単一GPUで動く最強オープンAIモデル、140言語対応で画像・動画も理解

 - innovaTopia - (イノベトピア)

Googleは2025年3月12日、新しいオープンAIモデルファミリー「Gemma 3」をリリースした。Gemma 3は同社のフラッグシップAIモデル「Gemini 2.0」と同じ研究と技術から構築された軽量なオープンモデルのコレクションだ。

Gemma 3は1B、4B、12B、27Bの4つのサイズで提供され、それぞれ事前学習版と指示調整版がある。特に27Bモデルは、MetaのLlama-405B、DeepSeekのV3、OpenAIのo3-miniを性能面で上回ると同社は主張している。

新モデルの主な特徴は以下の通り

  • 1Bモデルを除く全モデルがマルチモーダル対応(画像、テキスト、短い動画の分析が可能)
  • 35言語に対応し、さらに140以上の言語に微調整可能
  • 長いコンテキストウィンドウ(1Bモデルは32,000トークン、他のモデルは128,000トークン)
  • スマートフォンやノートPCなどのエッジデバイス上での動作に最適化
  • 単一のGPUまたはTPU上で実行可能

Gemma 3は「Google AI Studio」、Kaggle、Google CloudのVertex AIとModel Garden、Hugging Face、NVIDIA NIMなど複数のプラットフォームで利用可能。また、主要なAI開発ツール(Hugging Face Transformers、Ollama、JAX、Keras、PyTorch、Google AI Edge、UnSloth、vLLM、Gemma.cpp)との互換性もある。

また、Googleは今回のリリースに合わせて、出力する画像の安全性をチェックする「ShieldGemma 2」も公開した。


【編集部追記】
今回の記事はPerplexityのDiscoverに掲載されている情報に新たな検索を加え、リライトと解説を添えたものになります。本記事に興味を持たれた方は、さらに詳しい情報をPerplexityの該当ページから質問し深掘りすることができます。
(登録なしでも利用可能☆)
コチラから
 ↓

from グーグル、Gemma 3 AIモデルを発表 Perplexity Discoverより

【編集部解説】

Googleが発表した「Gemma 3」は、同社のAI戦略において重要な位置を占める新しいオープンモデルです。

Gemma 3の最大の特徴は「単一のGPUやTPUで動作する世界最高性能のモデル」という点です。これは、通常複数のGPUを必要とする高性能AIモデルと比較して、はるかに少ないハードウェアリソースで動作する点が革新的です。

Gemma 3の27Bモデルは、LMSys Chatbot Arenaのリーダーボードで高いEloスコアを獲得しており、これはOpenAIのo3-miniやMetaのLlama-405B、DeepSeek-V3を上回る性能です。

コンテキストウィンドウについては、1Bモデルが32,000トークン、他のモデルが128,000トークンと、モデルサイズによって異なる点も重要です。これは約200ページ分の本を一度に処理できる容量に相当します。

特に注目すべきは、スマートフォンやノートPCなどのエッジデバイスでの実行を視野に入れている点です。これにより、クラウドに依存せずローカルで動作するAIアプリケーションの開発が促進され、プライバシーやレイテンシの面でメリットをもたらすでしょう。

また、35の言語に対応し、さらに140以上の言語に微調整可能である点も、グローバルな利用を促進する重要な特徴です。日本語も含まれていると考えられ、日本のデベロッパーにとっても使いやすいモデルとなるでしょう。

一方で、AIモデルの公開には常に倫理的な懸念が伴います。Googleは「ShieldGemma 2」という画像安全性チェッカーも同時にリリースし、有害コンテンツの生成リスクに対応する姿勢を示しています。

バイアスや誤情報の拡散、悪用のリスクについても、Googleは「Responsible Generative AI Toolkit」を提供し、開発者に対して責任ある利用を促しています。しかし、オープンモデルである以上、最終的な利用方法をコントロールすることは難しく、社会的な監視や規制の枠組みも重要になってくるでしょう。

DeepSeekやLlamaなど、他社の軽量AIモデルとの競争が激化する中、GoogleがこのタイミングでGemma 3をリリースした背景には、AIの民主化を推進しつつも、市場でのリーダーシップを維持したいという戦略があると考えられます。

今後、Gemma 3のようなオープンモデルが普及することで、AIの応用範囲はさらに広がり、私たちの生活や仕事のあり方も変わっていくでしょう。

【用語解説】

エッジAI:クラウドではなく、スマートフォンやIoTデバイスなど、データが発生する場所(エッジ)で直接AIを動作させる技術です。クラウドに送信する必要がないため、プライバシー保護やリアルタイム処理に優れています。

コンテキストウィンドウ:AIモデルが一度に処理できる情報量を示す単位です。Gemma 3の128,000トークンは、約200ページの本を一度に理解できる容量に相当します。

LMArena(LMSys Chatbot Arena):様々なAIモデルの性能を人間の評価に基づいてランキングするベンチマークサイトです。Eloスコアという指標で性能を数値化しています。

【参考リンク】

Google AI(外部)Googleの人工知能研究と製品に関する公式サイト。Gemmaを含むAIモデルやツールの情報が掲載されています。

Gemma公式サイト(外部)Gemmaモデルの詳細情報、ドキュメント、開発リソースを提供する公式サイト。

Kaggle(外部)データサイエンスのプラットフォームで、Gemma 3を含む様々なAIモデルを試すことができます。

Hugging Face(外部)AIモデルの共有プラットフォーム。Gemma 3モデルを無料でダウンロードして利用できます。

Google AI Studio(外部)Googleが提供するAIモデル開発プラットフォーム。Gemma 3を含むモデルを試すことができます。

【関連記事】

AI(人工知能)ニュースをinnovaTopiaでもっと読む

ホーム » AI(人工知能) » AI(人工知能)ニュース » Gemma 3:Googleが発表した単一GPUで動く最強オープンAIモデル、140言語対応で画像・動画も理解