ノートPCのなかで、AIが目と耳を取り戻しました。Googleが2026年6月3日に公開した新モデル「Gemma 4 12B」は、画像も音声も、そして一定の長さの動画も、ネットにつながずに手元のPCだけで処理できる新しいAIモデルです。これまで当たり前だった「変換装置(エンコーダー)」をまるごと取り払うという大胆な設計で、メモリ16GBのありふれたノートPC上で、上位モデルに迫る賢さを引き出します。クラウドの向こうにあったはずの知能が、いよいよあなたの膝の上に降りてくる——その号砲となる発表を読み解きます。
Googleは2026年6月3日、マルチモーダルモデルGemma 4 12Bを発表した。発表者はGoogle DeepMindのオリヴィエ・ラコンブとガス・マルティンスである。同モデルはエッジ向けのE4Bと26B Mixture of Experts(MoE)の中間に位置し、Gemma 4で初めてネイティブ音声入力に対応した中型モデルだ。マルチモーダル用エンコーダーを持たず、視覚と音声の入力をLLMバックボーンへ直接統合するエンコーダーフリー構成を採る。
標準ベンチマークで26B MoEに迫る性能を、総メモリフットプリント半分未満で実現し、16GBのRAMを備えたノートPCでローカル動作する。Apache 2.0ライセンスで公開され、Multi-Token Prediction(MTP)ドラフターを搭載する。Gemma 4モデル群の累計ダウンロード数は1億5000万を突破した。ウェイトはHugging FaceとKaggleで配布される。
From:
Introducing Gemma 4 12B: a unified, encoder-free multimodal model
【編集部解説】
今回の発表でいちばんの肝は、「エンコーダーフリー」という耳慣れない設計思想にあります。少しだけ専門的な話をさせてください。
これまでのマルチモーダルAIは、画像や音声を「AIが読める形」に翻訳する専用の変換装置(エンコーダー)を、言語モデルの手前に別途くっつけるのが定石でした。Gemma 4 12B は、その変換装置そのものを取り払い、画像のピクセルや生の音声波形を言語モデルへ直接流し込みます。Google DeepMindの開発者向けガイドによれば、視覚処理を担っていた従来の重いエンコーダー(中型モデルで約550M、エッジ向けで約150Mパラメータ)を、わずか約35Mパラメータの軽量モジュールに置き換えたとされています。
なぜこれが効くのか。エンコーダーが「翻訳を終えるまで本体が待つ」という渋滞が消えるため、反応が速くなり、メモリも節約できるのです。Googleが「26B MoEに迫る性能を、メモリ半分未満で」と語る背景には、この構造のスリム化があります。
意義は、性能の数字以上に「どこで動くか」にあります。16GBのVRAMまたは統合メモリを積んだ手元のノートPCで、画像も音声も、一定尺の動画も、ネットにつながずに処理できる。複数の海外メディアは、Apple Silicon搭載のMacBookをはじめとする、統合メモリ型のノートPCが、これでフル機能のマルチモーダルAI端末になり得ると指摘しています。
具体的に何ができるのか。音声の文字起こしを外部サービスに頼らず端末内で完結させ、話者の聞き分け(ダイアライゼーション)までこなす、というのが目玉です。MarkTechPostは、Google自身のEloquentアプリでモデルを本機に切り替えた結果、総合品質が60%以上向上したとGoogleが報告している、と伝えています。会議の録音や個人的な音声メモを、クラウドに一切上げずに扱えるわけです。ただし公式のモデルカードによれば、音声や動画の入力には長さの上限が設けられており、何時間もの素材をそのまま丸ごと、という万能性まで保証されたわけではありません。
ここにポジティブな側面が凝縮されています。プライバシーを守りたい医療・法務・行政の現場や、通信環境の不安定な場所でも、AIが手元で完結する。Apache 2.0という制約の緩いライセンスでウェイトが公開された点も、商用利用や改変の自由度を大きく広げます。
一方で、見過ごせないリスクもあります。AI Weeklyは、制約の少ないオープンライセンスゆえに、APIで管理された商用モデルと違い、音声監視や合成メディアの生成といった悪用にもベンダーの監視が及ばない点を指摘しています。「手元で完結する」自由は、裏を返せば「誰の目も届かない」自由でもあるのです。
規制の観点でも論点は残ります。EUのAI規則をはじめ、各国のルールは「提供者が利用を管理できること」を前提に組み立てられがちです。Gemma 4のウェイトが世界中で累計1億5000万回ダウンロードされ、各人のPCで自由に動く世界は、その前提を静かに揺さぶります。
長期的に見れば、この一手は「AIはクラウドの向こうにある巨大な何か」という常識を書き換える試みだと私は捉えています。性能の絶対値で最前線を争うのではなく、「十分に賢いAIを、誰もが自分の機械で所有する」という方向性。Tech for Human Evolution を掲げる立場からは、知能がインフラから個人の手元へと降りてくる、その分水嶺として記録しておきたい発表です。
【用語解説】
マルチモーダル
テキスト・画像・音声・動画など、複数の種類(モード)の情報を一つのAIがまとめて扱える性質を指す。
エンコーダー/エンコーダーフリー
エンコーダーとは、画像や音声を言語モデルが処理できる形に「翻訳・符号化」する変換装置である。エンコーダーフリーは、その変換装置を介さず、入力を言語モデルへ直接流し込む設計をいう。
LLMバックボーン
モデルの中核を担う大規模言語モデル本体のこと。エンコーダーフリー構成では、視覚・音声の処理もこのバックボーンが引き受ける。
Mixture of Experts(MoE)/26B MoE
内部に複数の「専門家(エキスパート)」を持ち、入力に応じて一部だけを働かせる方式。全パラメータを常時動かさないため、規模のわりに効率がよい。26B MoEはGemma 4の上位モデルを指す。
ネイティブ音声入力
外部の音声認識ツールを挟まず、モデル自身が音声を直接受け取って処理できる機能をいう。
パラメータ
モデルが学習で獲得する内部の調整値。数が多いほど一般に表現力は高まるが、必要なメモリも増える。
メモリフットプリント
モデルを動かす際に占有するメモリ容量のこと。小さいほど、性能の低い機器でも動かしやすい。
VRAM/統合メモリ
VRAMはGPU専用のメモリ。統合メモリは、CPUとGPUが共有するメモリ方式で、Apple Siliconなどが採用する。
Apache 2.0ライセンス
商用利用・改変・再配布を広く認める、制約の緩いオープンソースライセンスの一つである。
Multi-Token Prediction(MTP)ドラフター
複数のトークンを先読みして下書き(ドラフト)し、生成速度を高める仕組み。応答の遅延を抑える役割を持つ。
ダイアライゼーション
音声のなかで「誰が話しているか」を区別し、話者ごとに発言を切り分ける技術をいう。
ウェイト
学習済みのパラメータ一式を指す。これが公開されると、誰でもモデルを自分の環境で動かせる。
Apple Silicon/Snapdragon X
それぞれApple、Qualcommが手がけるノートPC向けの高性能チップ。統合メモリを活かしたローカルAI実行の受け皿として注目される。
EU AI規則(AI Act)
EUが定めるAIの包括的な規制枠組み。リスクに応じて提供者の責務を課す設計が特徴である。
【参考リンク】
Gemma 4|Google DeepMind(外部)
Gemma 4ファミリーの公式紹介ページ。設計思想やモデル構成、想定される利用シーンがまとめられている。
Google DeepMind(公式サイト)(外部)
Gemmaを開発するGoogleの研究部門。最先端のAI研究と各種モデルの最新情報を発信する公式拠点である。
google/gemma-4-12B|Hugging Face(外部)
Gemma 4 12Bの公式モデルページ。ウェイトのダウンロードや仕様、対応するモダリティを確認できる。
Gemma|Kaggle Models(外部)
Gemma 4を入手できるもう一つの公式配布先。事前学習済みと指示チューニング済みの両版が並んでいる。
Google AI Edge Eloquent(外部)
音声入力をオフラインで文字起こし・整形・翻訳するGoogleのアプリ。本文のデモにも使われている。
【参考動画】
【参考記事】
Gemma 4 12B: The Developer Guide(Google Developers Blog)(外部)
従来の重い視覚・音声エンコーダーを約35Mの軽量モジュールへ置き換えた仕組みを詳述する公式ガイド。
Google DeepMind Releases Gemma 4 12B(MarkTechPost)(外部)
文字起こしや話者分離など具体機能を整理。Eloquentで品質が60%以上向上した点も伝える記事。
Google Gemma 4 12B Drops Both Encoders, Runs on 16GB(AI Weekly)(外部)
累計1億5000万DLの普及規模と、緩いライセンスゆえの悪用リスクの両面に触れた分析記事。
Google’s new open source Gemma 4 12B analyzes audio, video(VentureBeat)(外部)
256Kの長文脈や思考モードなど、企業利用の観点からGemma 4 12Bの実務的価値を整理した記事。
Gemma 4 12B: Encoder-Free Multimodal AI for Laptops(Mervin Praison)(外部)
48×48パッチ処理や16kHz音声の扱いなど、エンコーダー除去の実装を技術者向けに分解した記事。
google/gemma-4-12B(Hugging Face モデルページ)(外部)
Gemma 4 12Bの公式モデルページ。参考リンクのURL不整合を訂正する際の実在確認に用いた。
【関連記事】
Gemma 4 正式発表—スマートフォンがオフライン動作する時代へ 本記事の親にあたる4月の発表記事。Gemma 4ファミリー全体の全体像と性能、ライセンス転換を解説。
OpenJarvis 登場、Ollama対応のローカルファーストAI 「クラウドを例外に、ローカルを既定値に」を掲げる試み。手元で動くAIの思想を深掘りする。
MiniMax M3とは?100万トークン対応の中国発オープンウェイトAI オープンウェイトモデルの実力と死角を検証した一本。本記事と読者層がそのまま重なる。
【編集部後記】
正直に打ち明けると、この記事を書きながら私は何度も自分のノートPCのスペックを確認してしまいました。「16GBあれば動く」という一行が、これほど胸を高鳴らせるとは思っていなかったのです。大きなニュースは、たいてい遠くの研究所や巨大なデータセンターからやってきます。けれど今回の主役は、ほかでもない「あなたの机の上」です。
だからこそ、期待と同じだけ慎重さもお伝えしたいと思いました。手元で完結する自由は心強い一方で、その自由をどう使うかは、これから私たち一人ひとりに委ねられていきます。皆さんが実際に触れて感じたこと、作ってみたものがあれば、ぜひ聞かせてください。次の一歩を、一緒に探していけたら嬉しいです。












