スタンフォード発「ワットあたりの知能(IPW)」とは―小型ローカルAIがクラウドに挑む

あなたが今日AIに投げかけた質問は、いったいどこで「考えられて」いたのでしょうか。多くの場合、その答えは手元のパソコンではなく、何百キロも離れた巨大なデータセンターの中にあります。私たちは便利さと引き換えに、自分の言葉も、考えごとも、当たり前のように遠くのサーバーへ預けてきました。

ところが、その前提が静かに崩れはじめているとしたら——。スタンフォード大学の研究チームが突きつけたのは、「賢さ」を電力で割って測るという、シンプルでいて挑発的な問いでした。机の上の一台が、巨艦のようなクラウドにどこまで迫れるのか。その答えは、AIの未来図を思いのほか大きく書き換えるかもしれません。

スタンフォード大学のHazy ResearchおよびScaling Intelligence Labは、2025年11月に論文「Intelligence per Watt: Measuring Intelligence Efficiency of Local AI」（研究室ブログでの題は「A Study of Local Intelligence Efficiency」、arXiv 2511.07885）を発表し、電力あたりのタスク精度を示す指標IPWを提唱した。

アクティブパラメータ200億以下のローカル言語モデル20以上を、8種類のアクセラレータと実世界の100万件のシングルターンクエリで評価した。ローカルモデルはシングルターンクエリの88.7%に正確に回答し、best-of-local構成ではGemini 2.5 Pro、Claude 4.5 Sonnet、GPT-5に対する4ベンチマーク中3つでクラウドを上回った。IPWは2023年から2025年で5.3倍向上した。ローカルのクエリ・カバレッジは23.2%から71.3%へ上昇した。

2026年6月、ヨアヒム・クレメントがReutersに関連コラムを寄稿し、Economic Timesも配信掲載した。

From: Study Finds Small Desktop AI Challenges Data-center Models

【編集部解説】

まず、この研究の核心にある「intelligence per watt（IPW）」という考え方を、噛み砕いておきましょう。これは「1ワットの電力で、どれだけ正確にタスクをこなせるか」を測る物差しです。これまでAIモデルの優劣は、おもにパラメータ数やベンチマークの点数で語られてきました。そこに「消費電力あたりの賢さ」という軸を持ち込んだ点に、この論文の新しさがあります。

なぜ今、この指標が重要なのか。背景には、生成AIの推論需要がデータセンターの増設ペースを上回り、電力と設備投資が逼迫しつつあるという構造問題があります。論文の著者陣はこの状況を、かつてメインフレームを多数の利用者で共有していた時代から、性能あたりの電力効率が改善してパーソナルコンピューターへ計算資源が分散していった歴史になぞらえています。PCがメインフレームを生のパワーで超えたわけではない、という補助線が効いています。

技術的に何ができるようになるのか。手元のノートPC（論文ではApple M4 Maxが例に挙がります）で動く小型モデルが、日常的な質問の大半をクラウド級の精度で処理できる、というのが要点です。実際、ローカルモデルが正確に扱える実世界クエリの割合は2023年の23.2%から71.3%へと伸びました。プライバシーが手元に留まる、通信が要らない、追加コストが発生しにくい——こうした恩恵は、デスクトップで作業する読者の方々にとって決して遠い話ではないはずです。

一方で、過度な期待は禁物です。論文が測ったのは「シングルターンの定番的な対話・推論」に限られます。複数ツールを呼び出すエージェント的な処理、Web操作、長期的な計画立案、長文書の読解といった領域では、ローカルモデルはフロンティアモデルに最大45ポイント劣ると著者自身が明記しています。88.7%という数字も、研究対象とした特定のクエリ分布での値であり、あらゆる用途に一般化できるものではありません。エネルギー測定にもソフトウェア計測ゆえの10〜15%程度の誤差が見込まれます。

ここで、元記事の数値を一点補足します。総合5.3倍という効率向上の内訳は、研究室公式ブログ（Hazy Research）では「モデル改良による3.1倍 × ハードウェア進化による1.7倍」と記され、元記事の表記と一致します。一方、HuggingFaceに掲載された論文要旨では、モデル改良分が「3.2倍」と表示されており、原典側に版による表記の揺れがある点には留意が必要です。なお、この研究はスタンフォード単独ではなくTogether AIとの共同であり、著者には2017年チューリング賞受賞者でAlphabet会長も務めるジョン・ヘネシー氏も名を連ねます。重みのある研究体制だという点は押さえておきたいところです。

帰属についても整理しておきましょう。元記事が「Economic Timesのコラム」とする論説は、もともと投資ストラテジストのヨアヒム・クレメント氏がReuters向けに執筆したもので、Economic Timesはその配信を掲載した媒体です。クレメント氏のコラムには論文には無い踏み込んだ数字もあり、小型モデルはエネルギーを50〜80%節約でき、大規模モデルが経済的に最も合理的な選択肢となるのは現在の用途の約5分の1にすぎない、と論じています。

ただし、ここは視点を分けて読むべきところです。スタンフォードの論文はあくまで「ローカルがクラウドを補完しうる」という慎重な枠組みで効率の事実を提示しています。best-of-local構成では、Gemini 2.5 Pro・Claude 4.5 Sonnet・GPT-5に対する4ベンチマーク中3つでクラウド側を上回ったと報告されていますが、これは「置き換え」ではなく需要の「再分配」に近い主張です。対してクレメント氏は、これを「Anthropic、OpenAI、xAIといった巨大事業者の収益モデルを揺るがしうる」という投資家目線の主張へと拡張しています。研究の発見と、その経済的含意の主張とは、分けて受け取るのが公平でしょう。「小が大を駆逐する」という単純な対立ではなく、用途に応じてローカルとクラウドを賢く振り分けるハイブリッド構成へ向かう、と読むほうが実態に近いと考えます。

規制と長期の視点で言えば、計算がデバイス側に戻ることは、データ主権やプライバシー保護の追い風になりえます。EUのAI規制をはじめ、データを国外のクラウドへ送らない構成が選ばれる場面は今後増えるかもしれません。同時に、検閲やフィルタリングを回避できるローカル実行が悪用される懸念や、効率指標が一人歩きしてモデルの安全性評価が後回しになるリスクにも、注意を払う必要があります。

AIの未来はクラウドの巨艦だけが描くものではありません。あなたの机の上の一台が、その物語の主役になりうる——そう示唆する一次研究が、投資家の論説を通じて市場の関心事へと広がりつつある、まさにその転換点に私たちは立っています。

【用語解説】

（ハードウェア）アクセラレータ
AIの計算を高速・省電力に処理する専用チップの総称。本研究ではApple M4 MaxやNVIDIA B200などを比較対象とした。

シングルターン（クエリ）
1回の質問に1回答えるやり取り。会話を何度も往復するマルチターンや、複数手順を伴う処理とは区別される。

best-of-local（ベスト・オブ・ローカル）
質問ごとに、手元で動く複数のローカルモデルのうち最も適したものを選んで割り当てる構成。本研究での評価方式の一つである。

クエリ・カバレッジ
ローカルモデルが十分な精度で処理できる実世界クエリの割合。本研究では2023年の23.2%から2025年の71.3%へ上昇したとされる。

ハイブリッド・ルーティング
処理をローカルとクラウドへ適切に振り分ける構成。簡単な処理は手元で、難しい処理はクラウドで担わせる発想である。

【参考リンク】

arXiv:2511.07885（論文本体）（外部）
本研究のプレプリント本体。著者一覧や要旨、PDF、改訂履歴まで確認できる一次情報。

GitHub: HazyResearch/intelligence-per-watt（外部）
IPWを再現・計測する公式コードベース。計測用のツールが公開され、検証や追試にそのまま利用できる。

Together AI（外部）
本研究の共同実施者。オープンな言語モデルの学習・推論基盤を提供し、研究の実装面を支えた企業。

John L. Hennessy 公式略歴（スタンフォード）（外部）
共著者ジョン・ヘネシー氏の公式ページ。Alphabet会長で2017年チューリング賞受賞者であることが確認できる。

【参考記事】

Intelligence Per Watt（Hazy Research 公式ブログ）（外部）
効率向上を5.3倍とし、内訳をモデル改良3.1倍・ハード1.7倍と明記する一次情報。今回の数値訂正の典拠となる。

The future of AI may be small, cheap and unprofitable（Reuters）（外部）
元記事が依拠した論説。小型モデルは50〜80%省電力で、大規模が合理的なのは現用途の約5分の1にすぎないと論じている。

Intelligence Per Watt（プロジェクト公式サイト）（外部）
ローカルが88.7%に回答し、ハイブリッド構成で電力64%・コスト59%を削減するとの数値を集約した公式サイト。

Intelligence per Watt（HuggingFace 論文ページ）（外部）
論文要旨を掲載。モデル改良分を3.2倍と表示しており、原典側の版による数値差を確認する典拠となる。

Intelligence Per Watt（Scaling Intelligence Lab）（外部）
研究室の公式解説。88.7%と5.3倍に加え、Together AIとの共同体制や著者15名の構成が確認できる。

Stanford and Together.AI Researchers Chart Edge Models（The Batch）（外部）
研究を平易に解説した技術メディア。メインフレームからPCへの移行になぞらえ、効率の意義を整理している。

【関連記事】

OpenJarvis 登場、Ollama 対応のローカルファーストAI─スタンフォード発「Intelligence Per Watt」の挑戦
本記事が扱うIPW研究を、実際に手元で動かす実装ツールへ落とし込んだ続報。指標から製品へという流れを追える。

Perplexity「ハイブリッド推論」発表—AIの問いは「何ができるか」から「どこで動かすか」へ
IPWの考え方を商用サービスが取り込んだ事例。ローカルとクラウドの振り分けという論点を補完する。

あなたのデータを手放さないAI―ピューディパイが無料公開した「Odysseus」とは
データ主権とオンデバイスAIの潮流を示す一本。本記事のプライバシー論点と響き合う。

【編集部後記】

今回のニュースを紐解くと、この研究が投げかけているのは「大きいことは、それだけで正義なのか」という素朴な問いだと感じました。クラウドの巨大さは確かに多くを可能にしてきましたが、「効率」という物差しを一つ置いた瞬間、見えていた風景は少し違って見えてきます。

机の上の一台に知能が宿る未来は、まだ限界も多く、すべてを置き換えるものではありません。それでも、その小さな可能性が静かに広がっていく過程をこれからも丁寧に追いかけていきたいと思います。

IPA「10大脅威2026 個人編」対策マッピングシート完全活用ガイド—家族と職場で「使う資料」にする実装5ステップ