声に出さなければ、AIには伝わらない——そんな前提が、静かに崩れ始めています。スマートフォンに話しかけるのが憚られる場面、騒音で声が掻き消される環境、あるいは深夜の静まった家ではかえって声が響きます。私たちは長い間、「AIと会話するには声が必要だ」という物理的な制約を当然のものとして受け入れてきました。Appleが今年初めに行った20億ドル規模の買収と、IRカメラ搭載のAirPods Pro新モデルに関する複数の噂が重なり合うとき、その前提を覆すシナリオが見えてきます。
今年1月、Appleはサイレントスピーチ認識技術を専門とするスタートアップ「Q.ai」を約20億ドルで買収した。これはAppleの買収史上2番目の規模にあたる。Q.aiが手がけてきたのは、顔の微細な動きやパターンを解析し、実際に声を発することなく発話内容を認識する技術だ。
4月18日、9to5Macが報じたところによると、AppleはIRカメラを搭載したAirPods Pro 3の派生モデルを開発中であり、その主用途がサイレントスピーチ入力になる可能性があるという。当初はビジュアルインテリジェンス向けという観測もあったが、Q.ai買収を踏まえると、サイレントスピーチの入力デバイスとしての役割が浮上している。AirPodsにはすでに加速度センサー、皮膚検知センサー、心拍数モニターが搭載されており、IRカメラとの組み合わせが技術的な土台を形成する可能性がある。IRカメラ搭載モデルは2026年末までに登場すると噂されている。
From:
Apple’s upcoming AirPods Pro 3 variant could debut a groundbreaking new feature
📋 編集部注(2026年4月21日更新):記事公開に前後して、サイレントスピーチ技術の新たなアプローチとして韓国・POSTECH(浦項工科大学)の論文が各メディアで相次いで報じられました。記事で紹介した「三つの系譜」を補完する形で、追記しています。
【編集部解説】
Q.aiとは何者か——Face IDを生んだ技術者が再びAppleへ
Appleが今年1月29日に買収を確認したQ.aiは、イスラエルに拠点を置くステルス型のAIスタートアップです。買収額はFT報道で約20億ドル、2014年のBeats(30億ドル)に次ぐAppleの買収史上2番目の規模にあたります。
注目すべきは、Q.aiのCEOアビアッド・マイゼルス(Aviad Maizels)氏の経歴です。同氏は2013年にPrimeSenseをAppleへ売却しており、その3DセンシングはFace IDの基盤技術と業界で広く見なされています。つまりAppleは、同じ技術者から顔に関するセンシング技術を二度買っていることになります。一度目は顔で認証するために、二度目は顔で話すために——この符合は単なる偶然ではなく、Appleが「顔」というインターフェースに長期的な賭けを続けてきたことを示唆しているように読めます。
Q.aiの技術の核は、顔面の皮膚微細運動を光学センサーと機械学習で解析し、実際に音声を発していなくても発話内容を復元する「サイレントスピーチ認識(Silent Speech Recognition)」です。同社の特許は赤外線を顔に照射して筋肉の動きを読み取る仕組みを記述しており、この記述とAirPods Pro 3のIRカメラ搭載モデルの噂が重なることで、技術と製品ロードマップがひとつの線としてつながって見えてきます。
15年目の音声UIが抱える「話せない」という壁
Siriが登場したのは2011年、AmazonがAlexaを発表したのが2014年。音声アシスタントは登場から15年近くを経て、技術的には大きく成熟しました。それでも、オフィスの会議室で「Hey Siri」と話しかける人はほとんど見かけません。通勤電車の中で音声検索を使う人も稀です。私たちが音声UIに対して感じている違和感の正体は、技術的な精度の問題ではなく、声に出すという行為そのものに伴う社会的摩擦にあります。
この壁は、技術の改良では越えられない性質を持っています。どれだけ音声認識の精度が上がっても、カフェで独り言のようにAIに話しかける恥ずかしさは消えません。早朝のマンションでは反響を気にして言葉を呑み込み、会議室では同席者に配慮して指示を控えます。声を使うこと自体が制約となる場面は、音声UIの設計では解決できない領域です。
サイレントスピーチは、この問題を技術的に迂回する初めての本格的なアプローチです。声帯を振動させずに口の形だけで発話すれば、隣の席の人にも聞こえず、騒音にも邪魔されません。AIと会話するというインタラクションの形は保ちながら、その代償として支払っていた社会的コストが消える——これは入力モダリティの歴史において、キーボードからタッチに移行した瞬間と同じくらいの地殻変動を起こす可能性があります。
三つの系譜——光学、筋電位、そして脳へ
サイレントな入力手段の探求は、実は複数の系譜で並走してきました。技術アプローチの違いを整理すると、現在の競争構図が見えてきます。
一つ目はMITメディアラボで2018年に研究が始まったAlterEgoです。顎と顔の皮膚に電極を貼り、筋電位(EMG)信号を読み取ることで、頭の中で言葉を「サブボーカライズ(内的に発声)」する際の微弱な神経筋信号を解読します。2018年の時点で数字・算術記号等の約20語の限定語彙に対し92%の単語認識精度を達成しており、2025年9月には商用化を目指すスタートアップがステルスを解除し、公開発表を行いました。
二つ目はMetaのNeural Bandです。こちらも筋電位を使いますが、手首に巻くリストバンド型で、微細な指や手の動きを検出します。2025年9月に発売されたMeta Ray-Ban Displayスマートグラスにバンドルされており、指を動かす代わりに「動かそうとした意図」の電気信号を読み取って操作する仕組みです。CES 2026ではGarminとの連携など、メガネ以外のデバイスへの展開も発表されました。
そして三つ目が、AppleがQ.ai買収で手に入れた光学イメージング方式です。筋電位方式のように皮膚に電極を接触させる必要がなく、カメラが顔を「見る」だけで発話を読み取れます。Meta方式が手のジェスチャーに特化し、AlterEgoが頭部装着型の電極を必要とするのに対し、Apple方式はイヤホンというすでに広く普及した形状の中に収まる可能性を持っています。デバイスの普及基盤の広さという点で、この差は小さくありません。
参考までに、より侵襲的な第四の選択肢としてはNeuralinkのような脳内インプラント型が存在しますが、これは臨床試験段階であり、一般消費者向けの普及は異なる時間軸で語られるべきものです。
なぜAirPods Pro 3だったのか——センサーが先に揃っていた
Q.ai買収の文脈でAirPods Pro 3のIRカメラ搭載モデルが注目されるのは、AppleがこのイヤホンにすでにQ.ai技術を支える周辺センサーをほぼ揃え終えていたためです。標準モデルのAirPods Pro 3には加速度センサー、そして心拍数モニターが搭載されており、ここに赤外線カメラが加わることで、顔の下部から発話に関わる微細運動を観察する複合センサープラットフォームが完成します。
アナリストのミンチー・クオ氏は2024年頃からIRカメラ搭載AirPodsの登場を予測しており、当初はジェスチャー操作やビジュアルインテリジェンス(周囲の環境認識)向けという見方が主流でした。しかしQ.ai買収により、本命の用途がサイレントスピーチ入力であった可能性が一気に現実味を帯びてきています。実際、Q.aiの特許にはヘッドフォンでの応用が明記されており、Appleがこの買収を行った時点で、落としどころはすでに見えていたと考えるのが自然でしょう。
IRカメラ搭載のハイエンド派生モデルは2026年後半に登場するとされ、価格は標準モデルの249ドルから約299ドルへ上がる見込みです。ただし、この予測はハードウェアの出荷時期に関するものであり、サイレントスピーチ機能そのものがいつソフトウェアとして解放されるかは別の問題です。買収から統合、プロダクト化まで、通常は年単位の時間がかかります。
Apple AIの立て直しと、ポスト・スマホを見据えた伏線
Q.ai買収はもう一つの文脈からも読み解く必要があります。Bloombergは2026年1月、Appleが「AI shake-up(AI体制の刷新)」に着手したと報じ、長らく遅延していたSiriの大幅刷新や組織再編が進行中であることを伝えました。Apple Intelligenceの一部機能が発表から公開まで1年以上遅れ、GoogleのGeminiやOpenAIのGPTシリーズに対してAppleが後手に回ってきた状況は、多くの読者がご存知の通りです。
この文脈で見ると、Q.ai買収は単なる「新機能の仕込み」ではありません。大規模言語モデルの開発競争で追い上げる選択肢と並行して、Appleは入力モダリティそのものを差別化要因にする道を模索していると読めます。GoogleやOpenAIがクラウド側のモデルで戦っている間に、Appleはハードウェアと密結合したユーザーインターフェースの革新で独自のポジションを作ろうとしている——この戦略は、Face IDで個人認証の枠組みを塗り替えた過去の成功パターンと重なります。
さらに長い時間軸で見れば、Q.ai買収はVision Proやスマートグラス、そしてまだ公式には存在しないApple GlassesやApple Intelligence Pendantといった噂のデバイス群とも接続します。顔を入力インターフェースに変える技術は、スクリーンを持たないデバイスほど価値が大きい。AirPodsはその橋渡しであり、iPhoneユーザーが「顔で話す」体験に慣れるための慣らし期間を提供するプラットフォームなのかもしれません。
残る問い——プライバシー、アクセシビリティ、そして「声を失う」ということ
ここまで可能性の話を重ねてきましたが、正直なところ、確実なことはまだ多くありません。ここから先は、私たちもまだ答えを持っていない領域です。
まず精度の問題があります。MITのAlterEgoが2018年に達成した92%精度は、数字・算術記号等の約10〜15語の限定語彙で達成された結果でした。Q.aiの商用製品がどこまで進化しているかは、Appleが正式に技術仕様を公開するまでわかりません。日常的な長文入力に耐える実用精度に到達しているのか、コマンド入力程度にとどまるのかで、機能の位置づけは大きく変わります。
プライバシーの論点も無視できません。常時顔にIRカメラを向けるイヤホンは、発話意図の読み取りだけでなく、表情や感情の推定にも応用可能な技術基盤を持ちます。Appleはオンデバイス処理とプライバシー保護を差別化軸にしてきましたが、「読み取ったが送信しなかった」ことをユーザーがどう検証できるのかという問題は残ります。
一方で、アクセシビリティの観点では大きな希望があります。AlterEgoの研究は当初からALSや喉頭摘出で声を失った人々への応用を視野に入れていました。AppleがAirPodsという年間数千万台規模で出荷されるデバイスにこの技術を載せるなら、これまで専用の高価な機器を必要としていた発声障害の方々が、汎用デバイスで意思疎通できる世界が近づきます。
そして最後に、文化的な問い。「声に出す」という行為は、人類が言語を獲得して以来、他者と関わるための最も根源的な身体行為でした。それをAIとの対話において手放したとき、私たちは何を得て、何を失うのでしょうか。声を出さずにAIに相談する習慣が広がった世界では、独り言や呟きの文化はどう変容していくのでしょうか。この問いに答えを出すのは早すぎますが、問いの存在そのものは、今から意識しておく価値があります。
Apple、Meta、そしてAlterEgoのような独立系プレイヤーが、それぞれ異なる技術アプローチで同じゴール——声を使わずに機械と話す——を目指しています。2026年後半に登場が噂されるAirPods Pro 3のハイエンドモデルは、この競争の次のマイルストーンになるかもしれません。私たちはその到達点を見届けると同時に、「AIと会話する」という行為の定義そのものが静かに書き換わっていく過程に立ち会おうとしています。
【2026年4月21日 追記】
本記事公開の少し前、サイレントスピーチ研究の新たなアプローチが各メディアで一斉に報じられました。韓国・POSTECH(浦項工科大学)のSunguk Hong氏、Sung-Min Park教授らのチームが学術誌 Cyborg and Bionic Systems に発表した研究で、首(喉)の皮膚と筋肉の微細なひずみを光学センサーで読み取り、AIで音声として復元するウェアラブルシステムです。電極の貼付も不要で、ソフトシリコン製のセンサーが発話しようとした際の皮膚変形パターンを捉え、CNNとトランスフォーマーを組み合わせたAIが言葉に変換します。本記事で紹介した「光学イメージング(Apple/Q.ai)」「筋電位EMG(AlterEgo・Meta)」とも異なる、非接触・非電極系の新たなアプローチとして注目されています。現時点では限定された語彙での実証段階ですが、発声障害を持つ方々への応用可能性という点でも期待が寄せられています。
【用語解説】
サイレントスピーチ認識(Silent Speech Recognition)
声帯を振動させずに口を動かす「サブボーカライゼーション」や顔面筋の微細な動きを検出し、発話内容を復元する技術の総称。ALS、喉頭摘出など声を失った人々への支援技術として研究が進められてきた。近年は一般ユーザー向けの応用が加速している。
Q.ai
2026年1月にAppleが買収したイスラエル発のステルス型AIスタートアップ。赤外線センサーと機械学習を組み合わせ、顔面皮膚の微細な動きから発話を非接触で認識する光学式サイレントスピーチ技術を開発。設立者のアビアッド・マイゼルス氏は2013年に3DセンサーメーカーPrimeSenseをAppleへ売却した経歴を持ち、その技術はFace IDに活用されたと広く報じられています。
赤外線(IR)カメラ
人間の目では見えない赤外線領域の光を撮像するカメラ。顔面の皮膚表面に赤外線を照射し、筋肉の動きを精密に捉えることが可能。AirPodsに搭載される場合、耳周辺から顔の下部を観察する角度でサイレントスピーチ解析に活用できると見られる。
AlterEgo
MITメディアラボが2018年に発表した非侵襲型サイレントスピーチシステム。顎や頬に貼付した電極で筋電位(EMG)信号を取得し、頭の中でサブボーカライズした言葉を解読する。2018年時点の研究版で数字・算術記号等の約10〜15語の限定語彙に対し92%の認識精度を達成。2025年にはAlterEgo Inc.が商用展開に向けた公開発表を実施。
筋電位(EMG:Electromyography)
筋肉が収縮する際に発生する微弱な電気信号。皮膚表面の電極で非侵襲的に計測できる(sEMG:表面筋電図)。MetaのNeural BandはsEMGを手首で計測し、指を動かす「意図」の段階で操作コマンドを認識する。
サブボーカライゼーション(Subvocalization)
声帯を実際に振動させることなく、頭の中で言葉を「内的に発声」すること。黙読時に自然に生じる現象で、このとき喉や顔の筋肉にごく微細な電気信号が発生する。AlterEgoやMetaのNeural Bandはこの信号を検出して発話を認識する。
Visual Intelligence(ビジュアルインテリジェンス)
iPhone 15 Proシリーズ以降に搭載されたApple Intelligenceの機能。カメラを向けた対象物について、商品情報や動植物の種類、レストランのメニュー詳細などをリアルタイムに認識・提示する。AirPods Pro 3へのIRカメラ搭載はビジュアルインテリジェンスの拡張が目的という観測もあったが、現在はサイレントスピーチ入力への転用が有力視されている。
【参考リンク】
AirPods Pro(外部)
AirPods Pro 3の製品仕様・機能・購入情報を掲載する公式ページ。ヘルスケア機能や音質特性の詳細を確認できる。
Apple Intelligence(外部)
Appleが提供するAI機能群の解説ページ。Siri拡張、ライティングツール、Visual Intelligenceなど各機能の概要を確認できる。
AlterEgo – MIT News(英語)(外部)
MITメディアラボのサイレントスピーチシステム「AlterEgo」研究。92%精度達成の詳細と技術原理を解説した2018年の公式発表。
Meta Ray-Ban Display & Neural Band – Meta Newsroom(英語)(外部)
MetaがEMGリストバンド「Neural Band」をスマートグラスとセットで発表した公式ニュース。筋電位による無音操作の仕組みと位置づけを解説。
日本ALS協会(JALSA)(外部)
ALS患者と家族を支援する日本の団体公式サイト。サイレントスピーチ技術が目指す発声支援の文脈を、患者当事者の立場から知ることができる。
【参考記事】
Apple Confirms Second Biggest Acquisition Ever — MacRumors(英語)(外部)
Apple公式確認を受けたQ.ai買収報道。Financial Timesの原典引用と、Q.ai特許がヘッドフォン・メガネへの応用を示している点を報告。
Apple Acquires Q.ai — WinBuzzer(英語)(外部)
Q.ai CEO アビアッド・マイゼルス氏のPrimeSense売却経歴とチーム規模(約100人)など企業詳細を報告。Face IDとの技術的連続性を解説。
AirPods Pro 3 with IR cameras — SoundGuys(英語)(外部)
ミンチー・クオ氏、マーク・ガーマン氏ら複数アナリストによるIRカメラ搭載AirPodsの登場時期・価格予想(約299ドル)を整理した解説記事。
Q.ai Acquisition Deep Dive — the5krunner(英語)(外部)
Q.aiの技術詳細(光学センサー+機械学習、顔面筋・皮膚微細運動の解析、whisper-to-speechアルゴリズム)を詳しく解説した技術考察記事。
AlterEgo公開発表 — Decrypt(英語)(外部)
2025年にAlterEgo Inc.がステルスを解除し公開発表を行った報道。サイレントスピーチ技術の商用化競争を俯瞰するのに有用。
Meta Neural Band:ARグラス以外への展開 — Engadget(英語)(外部)
CES 2026でのMeta Neural Bandの新展開(GarminなどARグラス以外のデバイスとの連携)を報じる記事。EMGリストバンドの応用範囲の拡大を解説。
AirPods Pro 3ハイエンド派生モデルの詳細 — 9to5Mac(英語)(外部)
IRカメラ搭載モデルが標準版とは別のハイエンドラインとして登場予定であることを報じた先行記事。
Soft Multiaxial Strain Mapping Interface with AI-Driven Decoding for Silent Speech in Noise — Cyborg and Bionic Systems(英語)(外部)
POSTECH・Sung-Min Parkらが発表した光学式ひずみセンサーによるサイレントスピーチ研究の原論文。首の皮膚変形パターンをAIで音声復元する新アプローチを詳解。
AI Restores Voices Through Microscopic Neck Movements — Neuroscience News(英語)(外部)
POSTECH論文の一般向け解説記事。首の微細な動きから声を復元する仕組みと、発声障害者への応用可能性をわかりやすく紹介。
【編集部後記】
満員電車で思いついた用件、赤ちゃんが寝ついたばかりの部屋、大勢の前で話す直前の数秒——私たちの日常には「声を出せない時間」がいくつも存在します。サイレントスピーチがそこに届くなら、それは便利さというより、これまで諦めていた小さな会話の機会が戻ってくることに近いのかもしれません。
一方で、自分の口元が常時AIに読まれ続けることに、気持ちはまだ追いついていません。「声を使わないこと」が新しい礼儀として定着するのか、最後まで違和感として残り続けるのか。暮らしの作法として、少しずつ考えていきたいテーマです。











