発声なき発話「サイレントスピーチ」4つのアプローチと現在地

スマートフォンやスマートスピーカーの普及によって、音声で機器を操作することは日常になりました。しかし少し立ち止まって考えると、私たちが実際に音声入力を使える場面は、思いのほか限られていることに気づきます。

電車の中、図書館、病院の待合室、緊張感のある会議室——周囲への配慮や、聞かれたくない内容があるとき、私たちは音声入力をためらいます。あるいは工場や航空機のコックピットのような騒音環境では、音声認識の精度が大幅に落ちます。そして、喉頭がんや筋萎縮性側索硬化症（ALS）などの疾患によって、そもそも声を出すことが困難な人々にとって、音声入力は選択肢にすら入りません。

「声を出すこと」が前提のインターフェースは、使えない場所と使えない人を生み出し続けています。

この課題に正面から取り組む技術領域が、サイレントスピーチ（Silent Speech Interface：SSI）です。

サイレントスピーチとは何か

サイレントスピーチとは、発声を伴わずに言葉を認識する技術の総称です。音声認識が「声帯から出た音」を処理するのに対し、SSIは発声に至る前の段階——口や筋肉、あるいは脳の活動——から言葉を取り出そうとします。

私たちが話すとき、脳が言語を組み立て、その信号が神経を通じて口・舌・顎・喉の筋肉へ伝わり、肺からの空気が声帯を振動させて音になります。サイレントスピーチはこの連鎖のどこかを捕捉することで、音にならなくても「話した内容」を読み取ろうとする技術です。

現在、主要なアプローチは4つに分類できます。それぞれに仕組みが異なり、得意な場面と課題も異なります。

アプローチ①：筋電位（EMG）方式

仕組み

発声しなくても、言葉を発しようとすれば口・顎・喉周辺の筋肉はわずかに活動します。この活動が生じる微弱な電気信号（筋電位：EMG）を電極で拾い、機械学習で言葉に変換します。「声なき発話」を筋肉レベルで捕捉するアプローチです。

代表事例：AlterEgo

2018年にMITメディアラボで始まった研究が起源です。開発者のArnav Kapur氏が率いる形で、2025年初頭に独立企業「AlterEgo AI, Inc.」として商業化に移行しました。

デバイスは耳掛け型で、顔・顎・首周辺に電極を配置します。口パクや内語（声に出さず頭の中で発話する行為）の際の筋電信号を捕捉し、骨伝導で回答を返します。

2025年9月のAxios AI+ Summitでの発表では、AIへのクエリ送信、リアルタイム翻訳会話、周囲の環境への質問など、より広範な機能が実証されました。同社は「世界初の近テレパシー型ウェアラブル」と表現しています。ただし製品の価格や発売時期は現時点では非公開です。

代表事例：GMOペパボ×横浜国立大学

国内の注目事例として、GMOペパボのペパボ研究所と横浜国立大学・太田研究室の共同研究があります。2026年6月9日、国際学術誌「Advanced Intelligent Systems」（Wiley）に論文が採択・公開されました。

このデバイスが提示する設計上の工夫は、「どこにセンサーを置くか」という問いへの答えです。従来のEMG系SSIは顔や口元にセンサーを常時貼り付ける必要があり、見た目の違和感と装着負担が普及の壁でした。この研究では手の甲に装着し、必要なときだけ指先を口元に近づけてEMG信号を取得する「オンデマンド型」を提案しています。

液体金属配線、透明な柔軟FPC電極、エラストマー材料による封止という素材の組み合わせにより、指の動きに追従しながら安定した信号を取得できる構造を実現しました。ディープラーニングによる認識精度は平均97.2±1.3%（30語の語彙）。無発声コマンドによるドローンのリアルタイム制御も実証しています。

EMG方式の現在地

EMG方式は4アプローチの中で最も社会実装に近い段階にあります。精度は制御実験下で90〜97%台を達成する研究が複数出ています。一方で、語彙の制限、個人ごとの信号パターンの差、装着感の問題は共通の課題として残っています。

アプローチ②：超音波方式

仕組み

顎の下側に超音波イメージングプローブを装着し、口腔内の舌や軟口蓋の動きを超音波エコー映像として取得します。発声しなくても口や舌を動かせば口腔内の形状が変化する——その変化をニューラルネットワークで解析し、発話内容を認識します。筋電位ではなく口腔内の「空間的な形」を直接捕捉する点が、EMG方式と根本的に異なります。

代表事例：暦本純一氏（東京大学名誉教授・ソニーCSLシニアフェロー）の研究

ヒューマンコンピュータインタラクション（HCI）の第一人者として知られる暦本純一氏は、近年のサイレントスピーチ研究において中心的な役割を果たしてきました。2026年3月に東京大学を退職後も、ソニーCSLシニアフェローとして研究を継続しています。

超音波イメージングを用いたサイレントスピーチの先駆的研究としてSottoVoceがあります。顎下に装着した超音波プローブで口腔内の動きを捉え、合成音声を生成。既存の無改造スマートスピーカーを制御できることも実証されました。

暦本氏は、単一の方式にとどまらず多様なアプローチでサイレントスピーチを探求してきました。顎下の皮膚の動きをセンサーで捉えるDerma、カメラで唇を読み少数の学習でコマンドを登録できるLipLearner、そして聞こえないほど小さなささやき声を捉えるSilentWhisperと、装置をより簡素に、より自然にする方向へ研究を重ねています。

超音波方式の現在地

超音波方式は顔への電極貼付が不要で、プライバシー性の高い操作環境を設計できる可能性があります。ただし現時点では研究段階にあり、EMG方式と比較して商業化事例は少ない状況です。暦本研究室の一連の研究はこの領域の国内外における重要な知的資産になっています。

アプローチ③：口唇読み＋AI方式

仕組み

カメラで口の動きを撮影し、AIが自動でリップリーディングを行います。電極や超音波センサーなどを身体に装着する必要がなく、カメラさえあれば動作するのが最大の利点です。

現状と課題

ディープラーニングの進歩により、制限された語彙での認識精度は大幅に向上しています。単語レベルの認識では、標準的なベンチマークデータセット「LRW（Lip Reading in the Wild）」において、モデルにより最高94.1%の精度が報告されています。ただしこれは単語単位での数値であり、文章レベルの認識では精度はこれより下がります。

業界の動きとして、2026年1月にAppleがイスラエルのスタートアップQ.aiを買収したことが注目を集めました。買収額はAppleが公表していませんが、Financial Timesは約20億ドル近くと報じており、これはApple史上2番目の規模の買収にあたるとされています。Q.aiは顔面皮膚の微細な筋肉の動きからサイレントスピーチを解読する技術を持つ企業です。この技術がApple製品にどのような形で組み込まれるかは現時点では不明ですが、大手プレイヤーがこの領域に本格的に関心を持ち始めていることを示す動きとして受け止められています。

しかし、照明条件、顔の向き、話者ごとの口形の差異による精度のばらつき、そしてプライバシー上の懸念が主な課題です。声を出さずにプライベートに操作するという目的に対し、カメラの存在自体が場面によっては矛盾しうる点も残っています。

アプローチ④：脳波（EEG）方式

仕組みと位置づけ

頭皮上に電極を配置し、脳波（EEG）を計測します。EMGや超音波が「身体の動き」を拾うのに対し、EEG方式が目指すのは「頭の中で言葉を考える（想像発話）」段階の脳活動の解読です。

厳密には、EMG・超音波・口唇読みとは捕捉するレイヤーが異なります。前者3つが「発話しようとした身体信号」を拾うのに対し、EEGは「まだ身体に信号が届く前の脳内活動」を解読しようとするもので、サイレントスピーチの延長線上にありながら、BCIに近い領域に足を踏み入れています。

まだ研究段階、課題も多い

認識精度は制限された語彙・制御実験条件下で85〜92%台を報告する研究もありますが、個人差が大きく、新規ユーザーへの汎化が難しいのが実情です。商業化事例は現時点で存在せず、純粋な研究段階にあります。EMGとEEGを組み合わせたセンサーフュージョンで精度改善を図る研究も進んでいますが、日常利用への道は遠いというのが現在の評価です。

社会実装に向けて、何が揃う必要があるか

現時点での各方式の課題を整理すると、社会実装には技術的な精度だけでなく、以下の条件が複合的に解消される必要があります。

語彙の壁：多くの研究は、数十〜数百語規模のコマンド認識を前提としています。一方、日常会話を成り立たせるには、最低でも数千語規模が必要とされます。認識できる語彙と、自由な会話に必要な語彙の間には、依然として大きな隔たりがあります。

個人適応の壁：EMGもEEGも、個人差が大きい信号です。新しいユーザーがすぐに高精度で使えるシステムを作ることは、現在も研究の主要なテーマです。

装着感・社会的受容性の壁：デバイスを日常的に身につけることへの心理的・社会的ハードルは、技術的精度とは別の問いです。顔に電極を貼ることを自然に受け入れる社会的文脈は、まだ形成されていません。

プライバシーの壁：常時装着型のデバイスが発話信号を継続的にログする可能性は、「声に出さなければ記録されない」という感覚的な安全圏を消去します。デバイス側の設計原則として「意図した発話のみを読む」という制約をどう保証するかは、技術的かつ社会的な問いです。

この技術が問いかけていること

サイレントスピーチは、インターフェースの話であると同時に、「声とは何か」「沈黙とは何か」という問いに触れています。

声は本来、公共的なものです。話せば周囲に聞こえる——この物理的な制約が、場の礼儀や配慮、秘密という概念の前提になってきました。サイレントスピーチが日常に入り込んだとき、沈黙している人が実は多くのことを発話しているかもしれない状況が生まれます。「沈黙」が意味をなさなくなる可能性があります。

発声困難な人々が「声を持てる」可能性と、すべての発話がデバイスを経由してログされうるリスクは、同じ技術の上に乗っています。どちらの未来を選ぶかは、技術の完成度の問いではなく、設計と社会的合意の問いです。

研究者たちはその問いのど真ん中で、今日も実験を続けています。

【用語解説】

サイレントスピーチ（Silent Speech Interface：SSI）
発声を伴わずに言葉を認識する技術の総称。音声認識が「音」を処理するのに対し、発声前の身体信号（筋電位・超音波・脳波など）を捕捉する。

筋電位（EMG：Electromyography）
筋肉が活動する際に生じる微弱な電気信号。口周辺の筋肉に電極を当てることで、発声を伴わない発話意図を計測できる。

想像発話（Imagined Speech）
声に出さず、頭の中だけで言葉を「話す」行為。EEG（脳波）でその信号を解読しようとする研究が進んでいる。

骨伝導（Bone Conduction）
耳の外側から骨を通じて内耳に音を伝える技術。耳をふさがずに音を聞けるため、サイレントスピーチデバイスの出力手段として使われる。

ALS（筋萎縮性側索硬化症）
全身の筋肉が萎縮する神経変性疾患。発話が困難になるため、サイレントスピーチ技術の医療応用先の一つとして注目される。

【参考リンク】

暦本研究室（東京大学）（外部）
SilentWhisperほか、サイレントスピーチ関連研究の成果を多数掲載。

AlterEgo（MIT発スタートアップ）（外部）
EMG方式のサイレントスピーチデバイスを開発するボストン拠点スタートアップ。

ペパボ研究所（外部）
GMOペパボの研究開発組織。横浜国立大学との共同研究でEMG式手装着型デバイスを開発。

論文：Soft Active Electromyography Interface for Machine Learning-Enabled Silent Speech Recognition（外部）
GMOペパボ×横浜国立大学の共同論文。DOI：10.1002/aisy.70440

【参考記事】

AlterEgo startup lets you query AI, command computers with “silent speech”（Axios）（外部）
AlterEgoの商業化発表を最初に報じた記事。CEOのコメントと技術的説明を含む。

Alterego’s ‘Silent Speech’ Could Be The Answer To Dictating Text In Public（UploadVR）（外部）
AlterEgoのデバイス仕様と技術的位置づけを解説。EMGとEEGの違いを整理した記事。

「未来はすでにここにある」暦本純一が最終講義で語った、これから10年の技術者の仕事（エンジニアtype）（外部）
暦本氏のサイレントスピーチ研究の背景と動機を本人の言葉で説明。

【編集部後記】

声を出せないシチュエーションというのは、思いのほか多いものです。それも、社会的、肉体的な理由があり、単純ではありません。

サイレントスピーチの研究者たちは、その課題を解決しようとしています。まだ語彙は限られ、デバイスも洗練の途中にあります。

ヒューマンインターフェースが、社会を豊かにする反面、黙っているように見える人が実は黙っていない、自分の口の動きや脳波がデバイスに感知されているといった不安もまた、生まれようとしているのです。

【関連記事】

GMOインターネットグループ、全社員8,300人にAI音声入力環境を展開——生成AI活用率97.8%の次の一手
AIへの入力手段を「キーボードから声へ」転換する企業の取り組み。本記事が「声を出さずに」AIへ伝える技術を扱うのに対し、こちらは「声を出して」伝える音声入力の高度化を追う。同じ「声でAIを操作する」という課題の、表と裏の関係にある。