Perplexity「ハイブリッド推論」発表—AIの問いは「何ができるか」から「どこで動かすか」へ

AIの世界でいま静かに進んでいるのは、「何ができるか」から「どこで動かすか」への問いの移り変わりです。Perplexity が打ち出したのは、ひとつの仕事をタスクごとに分解し、手元のデバイスとクラウドへ自動で割り振る仕組み。背景には、精度・プライバシー・コストという、本来は両立しにくい三つの要素を同時に満たそうとする狙いがあります。チップが本格的な推論をこなせるようになった2026年だからこそ実現しつつある、計算の新しい置きどころを読み解きます。


Perplexityは2026年6月2日、Personal Computerの次の一歩として、初のハイブリッド・ローカルサーバー推論オーケストレーターを発表した。

これは処理をユーザーのデバイス上で実行するか、クラウド上のエージェントに委ねるかをタスクごとに判断し、各部分を自動で振り分ける。財務記録や医療情報、個人ファイルなど機微なデータはデバイス上のコンパクトなモデルがローカルで処理し、最先端モデルの能力を要する処理はサーバーで実行する。

発表はIntelとともに行われ、同じモデル非依存のハーネスはNVIDIAのRTX Sparkを含む他のローカルシリコン上でも動作する。ローカル推論に対応したPersonal Computerは7月に登場する。

From: 文献リンクデータセンターはあなたのマシンへ移る

【編集部解説】

この発表が「2026年6月2日」という日付で出てきたことには、明確な文脈があります。同時期、台湾・台北では世界最大級のコンピューター見本市 Computex 2026 が開かれており、Perplexity はその舞台で今回の仕組みを初披露しました。同社の評価額は200億ドルとされ、CEOのアラビンド・スリニバス氏は、Intel CEOのリップブー・タン氏とともに Intel の基調講演に登壇し、機密性の高い取引資料を処理してみせています。このステージでの実演に続き、ブログでの正式発表が6月2日に行われました。つまりこれは、静かなブログ発表というより、業界の大舞台で打たれた一手なのです。

「ハイブリッド・ローカルサーバー推論オーケストレーター」という言葉は耳慣れないかもしれません。要点は、AIに何かを頼んだとき、その処理の一部分ごとに「手元の機械でやるか、クラウドに送るか」を、ソフトウェア側がリアルタイムで自動判断する点にあります。従来の Personal Computer でも、ローカルではファイル参照、重い計算はサーバー、という分担はありました。新しい仕組みが踏み込んだのは、どのモデルを使うかだけでなく、処理を物理的にどこで走らせるかをシステム自身に考えさせた点です。

なぜこれが効くのか。Perplexity の主張を噛み砕くと、こうなります。最も賢い最先端モデルは高価で電力を食う。けれど、すべての処理にそれが要るわけではない。機微なデータはそもそも外に出したくない。ならば「軽い処理・秘密の処理は手元、重い処理だけクラウド」と振り分ければ、精度・プライバシー・コストという三者のせめぎ合いを同時にさばける、という発想です。記事中の「1ワット当たりのトークン価値」とは、消費電力に対してどれだけ意味のある仕事ができたか、という効率の指標だと捉えてください。

この発想を後押しするのが、ハードウェア側の地殻変動です。同じ Computex で Intel は、AIの主役が学習用GPUからエージェントを差配するCPUへ移ると論じ、データセンター向けの新CPU「Xeon 6+」(開発コード名 Clearwater Forest)を投入しました。報道では、このCPUが1ラックあたり最大15万個のエージェントを動かせるとも伝えられています。一方の NVIDIA も Computex 2026 に合わせ、Windows 向けの新超チップ「RTX Spark」を発表しました(公式リリースは現地時間5月31日付)。最大1ペタフロップ(PFLOPS)級のAI性能と最大128GBの統合メモリーを備え、報道では Apple の M5 Pro/M5 Max などを意識した位置づけとされています。チップが本格的な推論をこなせるようになったからこそ、「振り分け」の議論が現実味を帯びてきたわけです。

ここで一点、冷静に見ておきたい食い違いがあります。原典は「Intelとともに発表し、同じハーネスは NVIDIA の RTX Spark など他のシリコン上でも動く」とモデル非依存性を強調しています。一方で報道では、Computex の舞台で示された機能は当面 Intel 製プロセッサー上の Windows 向けアプリに限られるとも伝えられています。つまり「将来的にどこでも動く設計」と「いま実際に出る範囲」は別物だということです。誇張ではありませんが、読者には「構想」と「初期の提供範囲」を分けて受け取っていただきたい部分です。

できるようになることは、わかりやすい言葉で言えば「自分の機械の中に、自分専用のデータセンターを持つ」体験です。財務・医療・契約といった外に出せない資料を、AIに丸ごと預けて分析や下準備を任せられる。しかも秘密の核心部分は手元から出ない。一部報道によれば、機密性の高い処理をクラウドへ送る前にユーザーの許可を求める設計とされ、これは企業がエージェント型AIに抱く「データガバナンス」の不安に応えるものです。

長期的な含意も小さくありません。原典が触れる「主権」の論点はその一つで、重要データを自国の法域に留めるために各国がデータセンターを新設しなくても済む、という主張は、データ保護規制(日本の個人情報保護法やEUのGDPRなど)との相性の良さを意識したものでしょう。集中型インフラの増設圧力が和らげば、電力・水・用地をめぐる社会的摩擦の緩和にもつながり得ます。

もっとも、楽観だけでは語れません。鍵を握るのは「手元の軽いモデルが、何を秘密として守り、何をクラウドへ出すか」を正しく仕分けられるかどうかです。この門番役の判定が誤れば、本来出すべきでない情報が外へ漏れる可能性があります。便利さの裏で、振り分けの精度と透明性が新たな信頼の焦点になる、ということは押さえておきたい点です。

最後に視座を一段上げると、今回の動きは Perplexity 一社の製品発表にとどまりません。自前のチップを持たない検索・オーケストレーション企業が、価値の重心が「モデル」から「どこで・なぜ計算するかの差配」へ移ると見て、そこに賭けた——そう読むこともできます。ハイブリッド機能を載せた Personal Computer は7月に登場する予定です。構想が実機の手触りに変わるそのときこそ、この賭けの成否を私たちが見極める番になります。

【用語解説】

ハイブリッド・ローカルサーバー推論オーケストレーター
一つのタスクを細かく分け、その部分ごとに「手元のデバイスで処理するか、クラウドのサーバーで処理するか」を自動で振り分ける仕組み。Perplexity が今回「初」と称して発表した。

TOPS
Tera Operations Per Second の略で、1秒あたり何兆回の演算ができるかを示す処理性能の単位。オンデバイスでAIをどれだけ動かせるかの目安として用いられる。

RTX Spark
NVIDIA が Computex 2026 で発表した、PC・ノートPC向けの超高性能チップ(製品名)。最大1ペタフロップ級のAI性能を掲げ、Windows端末上でローカルにAIエージェントを動かすことを狙う。

Xeon 6+(開発コード名 Clearwater Forest)
Intel がデータセンター向けに投入した新型CPU(製品名)。エージェントを多数同時にさばくことを想定している。

【参考リンク】

Perplexity 公式サイト(外部)
ハイブリッド推論オーケストレーターとPersonal Computerを手がけるAI検索企業の公式サイト。製品情報とブログを掲載している。

Intel 公式サイト(外部)
今回の発表をPerplexityと共同で行ったCPUメーカーの公式サイト。Xeon 6+ など各製品の情報を確認できる。

NVIDIA 公式サイト(外部)
RTX Sparkを発表したGPU・半導体メーカーの公式サイト。GPUやAIプラットフォームの製品情報を掲載している。

NVIDIA GTC Taipei at COMPUTEX 2026(外部)
NVIDIAがComputex 2026に合わせ開催したイベントの公式ページ。基調講演や展示の概要を案内している。

Apple 公式サイト(外部)
比較対象のM5 Pro/M5 Maxを擁するメーカーの公式サイト。Macやチップの製品情報を掲載している。

COMPUTEX TAIPEI 公式サイト(外部)
今回の発表の舞台となった見本市の公式サイト。会期や基調講演など開催概要を確認できる。

【参考記事】

Perplexity AI unveils hybrid local-cloud inference system at Computex 2026(VentureBeat)(外部)
評価額200億ドルのPerplexityがComputex 2026で初のハイブリッド推論オーケストレーターを披露したと報じる記事。

Intel Argues Agentic AI Will Shift Data Center Focus Back to CPUs at Computex 2026(Technobezz)(外部)
Intelが主役はGPUからCPUへ回帰すると論じ、新CPU Xeon 6+で最大15万エージェントを動かせると伝えた記事。

NVIDIA and Microsoft Reinvent Windows PCs for the Age of Personal AI(NVIDIA 公式)(外部)
RTX Sparkの公式発表。1ペタフロップのAI性能と最大128GBの統合メモリーを明記している。

Computex 2026: An Intelligent World Built on Silicon(Intel Newsroom)(外部)
Intel公式発表。Perplexityとのハイブリッド推論の実演や、データセンターにおけるx86の役割に触れている。

Perplexity Computer adding ability to split tasks between local and cloud models(9to5Mac)(外部)
Perplexity Computerにローカルとクラウドの分割機能が加わり、7月に提供予定だと報じた記事。

Nvidia Unveils RTX Spark AI PC Chip at Computex With Support From Major PC Makers(The AI Insider)(外部)
RTX Sparkを1ペタフロップ級と紹介。ASUSやDellなど大手PCメーカーが今秋に搭載機を出すと報じる。

【関連記事】

Perplexity Computer──19モデルのAIが働き続けるマルチモデル自律エージェント
今回のハイブリッド推論の前身にあたる、クラウド完結型Perplexity Computerの解説記事。19モデル並列オーケストレーションの仕組みがわかる。

MSI、COMPUTEX 2026でAIインフラ全戦略を公開|液冷データセンターからエッジ現場まで一気通貫
同じCOMPUTEX 2026の別側面。クラウドからエッジまでを貫くハード側のAIインフラ戦略を整理した速報記事。

Surface Laptop Ultra 正式発表|NVIDIA RTX Spark搭載、128GBメモリでMacBook Proに挑む
本文で触れたRTX Sparkを搭載する実機の詳報。ローカル推論の受け皿となる端末の姿を具体的に確認できる。

OpenJarvis 登場、Ollama対応のローカルファーストAI─スタンフォード発「Intelligence Per Watt」の挑戦
今回の中核概念「ワット当たりの価値」と直結する記事。ローカルファーストAIと省電力推論の潮流を押さえられる。

【編集部後記】

今回記事を書きながらひとつの問いが浮かびました。「これは結局、AIエージェントなのか」という問いです。

いま注目を集める Codex や Claude Code、Google の Antigravity も含め、これらはすべて広い意味で「エージェント型」の製品です。けれど、その中身をのぞくと役割が分かれています。Codex や Claude Code が、自らコードを書き上げる「働き手」だとすれば、Antigravity や Personal Computer は、複数の働き手に仕事を割り振る「現場監督」に近い存在です。

そのなかで Personal Computer だけが、もう一歩踏み込んでいます。仕事の中身だけでなく、「その仕事を、どのモデルで、手元で動かすかクラウドへ送るか」という働く場所の判断まで、自分で引き受けようとしているのです。同じ「エージェント」という言葉でも、自律する対象が一段広いと言えます。

私が面白いと感じたのは、各社がそろって「エージェント」を語りながら、その言葉に少しずつ違う意味を込め始めている点でした。働き手なのか、監督なのか、働く場所まで決める監督なのか。この問いの立て方そのものが、これからのAIを見極める物差しになっていくように思います。7月に登場する実機が、この物差しのどこに位置するのか、引き続き見守っていきたいと思います。

Googleで優先するソースとして追加するボタン
投稿者アバター
TaTsu
『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。 ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。