Gemma 4 12B登場|Googleの「エンコーダーフリー」AIがノートPCで動く理由

ノートPCのなかで、AIが目と耳を取り戻しました。Googleが2026年6月3日に公開した新モデル「Gemma 4 12B」は、画像も音声も、そして一定の長さの動画も、ネットにつながずに手元のPCだけで処理できる新しいAIモデルです。これまで当たり前だった「変換装置(エンコーダー)」をまるごと取り払うという大胆な設計で、メモリ16GBのありふれたノートPC上で、上位モデルに迫る賢さを引き出します。クラウドの向こうにあったはずの知能が、いよいよあなたの膝の上に降りてくる——その号砲となる発表を読み解きます。


Googleは2026年6月3日、マルチモーダルモデルGemma 4 12Bを発表した。発表者はGoogle DeepMindのオリヴィエ・ラコンブとガス・マルティンスである。同モデルはエッジ向けのE4Bと26B Mixture of Experts(MoE)の中間に位置し、Gemma 4で初めてネイティブ音声入力に対応した中型モデルだ。マルチモーダル用エンコーダーを持たず、視覚と音声の入力をLLMバックボーンへ直接統合するエンコーダーフリー構成を採る。

標準ベンチマークで26B MoEに迫る性能を、総メモリフットプリント半分未満で実現し、16GBのRAMを備えたノートPCでローカル動作する。Apache 2.0ライセンスで公開され、Multi-Token Prediction(MTP)ドラフターを搭載する。Gemma 4モデル群の累計ダウンロード数は1億5000万を突破した。ウェイトはHugging FaceとKaggleで配布される。

From: 文献リンクIntroducing Gemma 4 12B: a unified, encoder-free multimodal model

【編集部解説】

今回の発表でいちばんの肝は、「エンコーダーフリー」という耳慣れない設計思想にあります。少しだけ専門的な話をさせてください。

これまでのマルチモーダルAIは、画像や音声を「AIが読める形」に翻訳する専用の変換装置(エンコーダー)を、言語モデルの手前に別途くっつけるのが定石でした。Gemma 4 12B は、その変換装置そのものを取り払い、画像のピクセルや生の音声波形を言語モデルへ直接流し込みます。Google DeepMindの開発者向けガイドによれば、視覚処理を担っていた従来の重いエンコーダー(中型モデルで約550M、エッジ向けで約150Mパラメータ)を、わずか約35Mパラメータの軽量モジュールに置き換えたとされています。

なぜこれが効くのか。エンコーダーが「翻訳を終えるまで本体が待つ」という渋滞が消えるため、反応が速くなり、メモリも節約できるのです。Googleが「26B MoEに迫る性能を、メモリ半分未満で」と語る背景には、この構造のスリム化があります。

意義は、性能の数字以上に「どこで動くか」にあります。16GBのVRAMまたは統合メモリを積んだ手元のノートPCで、画像も音声も、一定尺の動画も、ネットにつながずに処理できる。複数の海外メディアは、Apple Silicon搭載のMacBookをはじめとする、統合メモリ型のノートPCが、これでフル機能のマルチモーダルAI端末になり得ると指摘しています。

具体的に何ができるのか。音声の文字起こしを外部サービスに頼らず端末内で完結させ、話者の聞き分け(ダイアライゼーション)までこなす、というのが目玉です。MarkTechPostは、Google自身のEloquentアプリでモデルを本機に切り替えた結果、総合品質が60%以上向上したとGoogleが報告している、と伝えています。会議の録音や個人的な音声メモを、クラウドに一切上げずに扱えるわけです。ただし公式のモデルカードによれば、音声や動画の入力には長さの上限が設けられており、何時間もの素材をそのまま丸ごと、という万能性まで保証されたわけではありません。

ここにポジティブな側面が凝縮されています。プライバシーを守りたい医療・法務・行政の現場や、通信環境の不安定な場所でも、AIが手元で完結する。Apache 2.0という制約の緩いライセンスでウェイトが公開された点も、商用利用や改変の自由度を大きく広げます。

一方で、見過ごせないリスクもあります。AI Weeklyは、制約の少ないオープンライセンスゆえに、APIで管理された商用モデルと違い、音声監視や合成メディアの生成といった悪用にもベンダーの監視が及ばない点を指摘しています。「手元で完結する」自由は、裏を返せば「誰の目も届かない」自由でもあるのです。

規制の観点でも論点は残ります。EUのAI規則をはじめ、各国のルールは「提供者が利用を管理できること」を前提に組み立てられがちです。Gemma 4のウェイトが世界中で累計1億5000万回ダウンロードされ、各人のPCで自由に動く世界は、その前提を静かに揺さぶります。

長期的に見れば、この一手は「AIはクラウドの向こうにある巨大な何か」という常識を書き換える試みだと私は捉えています。性能の絶対値で最前線を争うのではなく、「十分に賢いAIを、誰もが自分の機械で所有する」という方向性。Tech for Human Evolution を掲げる立場からは、知能がインフラから個人の手元へと降りてくる、その分水嶺として記録しておきたい発表です。

【用語解説】

マルチモーダル
テキスト・画像・音声・動画など、複数の種類(モード)の情報を一つのAIがまとめて扱える性質を指す。

エンコーダー/エンコーダーフリー
エンコーダーとは、画像や音声を言語モデルが処理できる形に「翻訳・符号化」する変換装置である。エンコーダーフリーは、その変換装置を介さず、入力を言語モデルへ直接流し込む設計をいう。

LLMバックボーン
モデルの中核を担う大規模言語モデル本体のこと。エンコーダーフリー構成では、視覚・音声の処理もこのバックボーンが引き受ける。

Mixture of Experts(MoE)/26B MoE
内部に複数の「専門家(エキスパート)」を持ち、入力に応じて一部だけを働かせる方式。全パラメータを常時動かさないため、規模のわりに効率がよい。26B MoEはGemma 4の上位モデルを指す。

ネイティブ音声入力
外部の音声認識ツールを挟まず、モデル自身が音声を直接受け取って処理できる機能をいう。

パラメータ
モデルが学習で獲得する内部の調整値。数が多いほど一般に表現力は高まるが、必要なメモリも増える。

メモリフットプリント
モデルを動かす際に占有するメモリ容量のこと。小さいほど、性能の低い機器でも動かしやすい。

VRAM/統合メモリ
VRAMはGPU専用のメモリ。統合メモリは、CPUとGPUが共有するメモリ方式で、Apple Siliconなどが採用する。

Apache 2.0ライセンス
商用利用・改変・再配布を広く認める、制約の緩いオープンソースライセンスの一つである。

Multi-Token Prediction(MTP)ドラフター
複数のトークンを先読みして下書き(ドラフト)し、生成速度を高める仕組み。応答の遅延を抑える役割を持つ。

ダイアライゼーション
音声のなかで「誰が話しているか」を区別し、話者ごとに発言を切り分ける技術をいう。

ウェイト
学習済みのパラメータ一式を指す。これが公開されると、誰でもモデルを自分の環境で動かせる。

Apple Silicon/Snapdragon X
それぞれApple、Qualcommが手がけるノートPC向けの高性能チップ。統合メモリを活かしたローカルAI実行の受け皿として注目される。

EU AI規則(AI Act)
EUが定めるAIの包括的な規制枠組み。リスクに応じて提供者の責務を課す設計が特徴である。

【参考リンク】

Gemma 4|Google DeepMind(外部)
Gemma 4ファミリーの公式紹介ページ。設計思想やモデル構成、想定される利用シーンがまとめられている。

Google DeepMind(公式サイト)(外部)
Gemmaを開発するGoogleの研究部門。最先端のAI研究と各種モデルの最新情報を発信する公式拠点である。

google/gemma-4-12B|Hugging Face(外部)
Gemma 4 12Bの公式モデルページ。ウェイトのダウンロードや仕様、対応するモダリティを確認できる。

Gemma|Kaggle Models(外部)
Gemma 4を入手できるもう一つの公式配布先。事前学習済みと指示チューニング済みの両版が並んでいる。

Google AI Edge Eloquent(外部)
音声入力をオフラインで文字起こし・整形・翻訳するGoogleのアプリ。本文のデモにも使われている。

【参考動画】

【参考記事】

Gemma 4 12B: The Developer Guide(Google Developers Blog)(外部)
従来の重い視覚・音声エンコーダーを約35Mの軽量モジュールへ置き換えた仕組みを詳述する公式ガイド。

Google DeepMind Releases Gemma 4 12B(MarkTechPost)(外部)
文字起こしや話者分離など具体機能を整理。Eloquentで品質が60%以上向上した点も伝える記事。

Google Gemma 4 12B Drops Both Encoders, Runs on 16GB(AI Weekly)(外部)
累計1億5000万DLの普及規模と、緩いライセンスゆえの悪用リスクの両面に触れた分析記事。

Google’s new open source Gemma 4 12B analyzes audio, video(VentureBeat)(外部)
256Kの長文脈や思考モードなど、企業利用の観点からGemma 4 12Bの実務的価値を整理した記事。

Gemma 4 12B: Encoder-Free Multimodal AI for Laptops(Mervin Praison)(外部)
48×48パッチ処理や16kHz音声の扱いなど、エンコーダー除去の実装を技術者向けに分解した記事。

google/gemma-4-12B(Hugging Face モデルページ)(外部)
Gemma 4 12Bの公式モデルページ。参考リンクのURL不整合を訂正する際の実在確認に用いた。

【関連記事】

Gemma 4 正式発表—スマートフォンがオフライン動作する時代へ 本記事の親にあたる4月の発表記事。Gemma 4ファミリー全体の全体像と性能、ライセンス転換を解説。

OpenJarvis 登場、Ollama対応のローカルファーストAI 「クラウドを例外に、ローカルを既定値に」を掲げる試み。手元で動くAIの思想を深掘りする。

MiniMax M3とは?100万トークン対応の中国発オープンウェイトAI オープンウェイトモデルの実力と死角を検証した一本。本記事と読者層がそのまま重なる。

【編集部後記】

正直に打ち明けると、この記事を書きながら私は何度も自分のノートPCのスペックを確認してしまいました。「16GBあれば動く」という一行が、これほど胸を高鳴らせるとは思っていなかったのです。大きなニュースは、たいてい遠くの研究所や巨大なデータセンターからやってきます。けれど今回の主役は、ほかでもない「あなたの机の上」です。

だからこそ、期待と同じだけ慎重さもお伝えしたいと思いました。手元で完結する自由は心強い一方で、その自由をどう使うかは、これから私たち一人ひとりに委ねられていきます。皆さんが実際に触れて感じたこと、作ってみたものがあれば、ぜひ聞かせてください。次の一歩を、一緒に探していけたら嬉しいです。

 

Googleで優先するソースとして追加するボタン
投稿者アバター
TaTsu
『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。 ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。