Microsoft AzureやMistral AIも標的に、音声AIを乗っ取る新攻撃「AudioHijack」をIEEEで研究者らが実証

サイバーセキュリティニュース

Headline News

山本達也

[公開]

2026年5月26日7:36

[更新]2026年5月26日

Microsoft AzureやMistral AIも標的に、音声AIを乗っ取る新攻撃「AudioHijack」をIEEEで研究者らが実証 - innovaTopia

浙江大学、シンガポール国立大学、南洋理工大学の研究チームは、2026年5月にサンフランシスコで開催されたIEEE Symposium on Security and Privacyにおいて、隠し音声によるプロンプトインジェクション攻撃「AudioHijack」を発表した。

本攻撃は、人間にはほぼ知覚できない形で音声波形を改変し、大規模音声言語モデルを攻撃者の意図する動作へ誘導するものである。検証対象は、Qwen2-Audio、GLM-4-Voice、Phi-4-Multimodal、Voxtral-Mini、Kimi-Audioを含む13のオープン音声AIモデルで、Microsoft AzureおよびMistral AIの商用ボイスエージェントへの転移効果も確認された。

攻撃成功率はシナリオによって79〜96%に及ぶ。主著者のメン・チェン氏はIEEE Spectrumに対し、シグナルの学習には約30分を要し、学習後はユーザーの発話内容に関係なく同一モデルへ繰り返し使用できると述べた。Microsoftは、実環境への展開ではモデル周辺に追加のセーフガードが含まれていると同誌に回答した。

From: AudioHijack: Hidden-Audio Prompt Injection Can Trick Voice AI Into Actions

【編集部解説】

「テキストを介したAIへの命令乗っ取り」は、ここ数年で広く知られるようになった攻撃手法です。しかし今回のAudioHijackは、その戦場が一気に「音声」へと拡張されたことを示す、ひとつの転換点だと受け止めています。

私たちが日常的に聞いているポッドキャスト、会議の録音、YouTubeの動画、そしてBGMとして流している音楽──これらすべてが、AIエージェントに対する「命令の入れ物」になりうるという指摘は、率直に言って背筋が冷えるものでした。

まず押さえておきたいのが、攻撃対象が「LALM(Large Audio-Language Model:大規模音声言語モデル)」と呼ばれる、比較的新しい世代のAIだという点です。これは音声を「文字起こしする」だけの従来型エンジンとは違い、音声を聴き、意図を読み取り、メールを送ったりカレンダーを更新したりと「行動」までこなせるAIを指します。

研究チーム(浙江大学・シンガポール国立大学・南洋理工大学)は、このAudioHijackを「auditory prompt injection(聴覚プロンプトインジェクション)」と命名しました。直訳すれば「耳から忍び込ませる命令注入」です。Qwen2-Audio、GLM-4-Voice、Phi-4-Multimodal、Kimi-Audio、Voxtral-Miniを含む13のオープンモデルで79〜96%という高い成功率を記録し、Microsoft AzureおよびMistral AIが提供する3つの本番グレード音声エージェントへの転移攻撃まで成立したと報告されています。

技術的に興味深いのは、研究チームが分類した6つの「誤動作カテゴリ」です。聴覚的な無反応(auditory blindness)、指示の拒否、誤情報の生成、フィッシング誘導、ペルソナ操作、そしてツールの不正利用。これらは単なる理論ではなく、実際のエージェントが業務に組み込まれたとき、何が起きうるかを具体的に示しています。

特に「ツールの不正利用」──たとえば外部送金、メール送信、社内ファイルへのアクセスといった行動が、ユーザーが意図しない音声によってトリガーされる構図は、これからの数年で最も警戒すべきシナリオだと考えます。

さらに不穏なのは、論文の付随情報として「音楽が最も理想的な”運び屋”になりうる」と指摘されている点です。音楽には自然な残響(リバーブ)があり、そこに敵対的な摂動を埋め込んでも人間には違和感として認識されにくいためです。BGMを流しているカフェ、街頭のスピーカー、Web会議で誰かが共有した動画──攻撃の入口は、私たちの想像以上に多様化する可能性があります。

そしてもうひとつ、見逃せないのが「コンテキスト独立性」という性質です。主著者のメン・チェン氏(Meng Chen、浙江大学博士課程)は、シグナルの学習には約30分しかかからず、一度作ってしまえばユーザーが何を話していようと同じモデルに対して使い回せる、と述べたと報じられています。これは、攻撃の「量産」と「使い回し」が容易になることを意味します。

防御側の現状は、残念ながら楽観できません。報じられた限りでは、唯一一定の効果を見せた防御策はモデル内部の「アテンション機構」を監視する手法のみで、それすら、攻撃者がこの防御の存在を知れば、攻撃成功率がわずかに下がるのと引き換えに回避可能だとされています。プロンプトハードニング──「悪意ある指示には従うな」とAIに教える定番手法──は、成功率をわずかに下げるにとどまりました。

ここから見えてくるのは、AIセキュリティの考え方そのものを切り替える必要があるということです。すなわち「モデルを賢くすれば守れる」という発想から、「アプリケーション側のアーキテクチャで境界を引く」という発想へ。ファイル送信、外部API呼び出し、社内データ検索といった特権的な操作には、AIの解釈とは別軸での明示的な承認が要る、ということになるでしょう。

これは、過去にWindowsで猛威を振るったマクロマルウェアや、OAuth同意画面を悪用した攻撃、ブラウザ拡張機能を介したフィッシングと、構造的にはまったく同じパターンです。「信頼されたソフトウェアが、悪意ある入力によって正当な権限を悪用するよう仕向けられる」──セキュリティ分野ではこれを「confused deputy(混乱した代理人)」と呼びますが、AIエージェントもまた、この古典的な罠の最新の犠牲者となりつつあるわけです。

日本の読者にとってこの話題が無関係ではない理由は明確です。Microsoft 365 Copilotの本格展開、Teams会議の自動文字起こし、コールセンターのAI化、議事録自動作成サービスの普及──いずれも、まさに今、企業の業務フローに組み込まれている技術です。そして商談・契約・採用といった機密性の高い会話が、知らぬ間に「機械可読な命令源」へと姿を変えつつあります。

規制の観点では、EU AI Actが定める「高リスクAI」の要件、日本のAI事業者ガイドライン、そして経済産業省や総務省が進めるAIセーフティ評価の枠組みに、「マルチモーダル入力に対する敵対的堅牢性」を明示的に組み込む必要性が高まるはずです。テキストプロンプトインジェクションへの対策は議論が成熟してきましたが、音声・画像・動画は依然として手薄な領域だと感じています。

一方で、忘れてはいけないポジティブな側面もあります。AudioHijackは「攻撃」として発表されましたが、これは正規の学術プロセス(IEEE Symposium on Security and Privacyによる査読)を通じた、防御側のための研究です。攻撃手法が可視化されることで、Microsoftをはじめとするベンダーは具体的な緩和策を組み込むことができます。実際にMicrosoftはIEEE Spectrumに対し、実環境ではモデル周辺に追加のセーフガードが含まれていると回答しています。

長期的には、音声AIの利便性とセキュリティのトレードオフは、ボイスインターフェースが社会インフラ化するうえで避けて通れないテーマになります。重要なのは、利便性を捨てることではなく、「どの操作なら自動化を許し、どの操作には人間の判断を残すか」という、設計上の境界線をどこに引くかという議論ではないでしょうか。

私たちが今この記事を取り上げる理由は、まさにそこにあります。音声エージェントが本格的に普及する手前のこのタイミングで、技術の「期待」と「不安」の両面を直視しておくこと。それが、デジタルの窓口として読者のみなさんに最初にお伝えしたい論点です。

【用語解説】

LALM(Large Audio-Language Model:大規模音声言語モデル)
音声と言語を同一のモデル内で扱えるAI。従来の音声認識(文字起こし)エンジンと異なり、音声を理解したうえで応答を生成し、外部ツールの呼び出しまでこなせる。Qwen2-AudioやGLM-4-Voice、Phi-4-Multimodal等がこれに該当する。

プロンプトインジェクション
AIに与える入力(プロンプト)の中に悪意ある指示を混入させ、本来の動作ルールを上書きさせる攻撃手法である。これまでは主にテキストを介した攻撃として研究されてきた。

聴覚プロンプトインジェクション(auditory prompt injection)
今回のAudioHijack研究で定式化された概念で、音声波形そのものに人間には知覚できない命令を埋め込み、音声AIを誤動作させる攻撃である。

敵対的摂動(adversarial perturbation)
機械学習モデルを欺くために、入力データ(画像・音声等)へ意図的に加えられる微小な変化のことだ。人間にはほぼ気づかれない一方で、モデルの判定結果を大きく変える。

コンテキスト独立性(context-agnostic)
攻撃用に作成された敵対的音声が、被害者が何を話していようと、また会話の文脈がどうあろうと、同じモデルに対して繰り返し有効である性質を指す。攻撃の「量産」と「使い回し」を可能にする要因である。

アテンション機構
AIモデルが入力のうちどの部分に注目して処理するかを決める仕組みである。AudioHijackはこのアテンションを敵対的音声に引き寄せる構造であり、現状で唯一一定の効果を示した防御策は、このアテンション挙動を監視する手法だとされている。

プロンプトハードニング
「悪意ある指示には従わないこと」をモデルに学習させ、攻撃への耐性を高めようとする防御アプローチだ。一定の効果はあるが、確率的に動作するAIにとって厳密なアクセス制御の代替にはならない。

混乱した代理人(confused deputy)
セキュリティ分野の古典的概念で、正当な権限を持つソフトウェアが、悪意ある入力によって本来の目的に反する操作を実行させられる構造的脆弱性を指す。マクロマルウェアやOAuth同意悪用も同じパターンに属する。

マルチモーダル
テキスト、音声、画像、動画など、複数の入力形式を同時に扱えるAIの設計様式である。利便性が高い一方、攻撃面も多面化する。

【参考リンク】

IEEE Symposium on Security and Privacy 2026 採択論文ページ(外部)
セキュリティ・プライバシー分野の主要国際会議。AudioHijackの論文情報と著者所属が掲載されている。

IEEE Spectrum(外部)
IEEE発行の技術系メディア。AudioHijack研究を主著者インタビュー付きで一次的に報じている。

浙江大学(Zhejiang University)公式サイト(外部)
本研究の主著者メン・チェン氏が所属する中国の総合研究大学の公式英語サイトである。

National University of Singapore(外部)
本研究の参加機関のひとつ、シンガポール国立大学の公式サイト。

Nanyang Technological University(外部)
本研究の参加機関のひとつ、シンガポールの南洋理工大学の公式サイトである。

Microsoft Azure AI Services(外部)
研究で転移攻撃の検証対象となった商用音声エージェントを含むAIサービス群の公式ページ。

Mistral AI(外部)
研究で商用音声エージェント(Voxtral等)が検証対象となったフランス発のAI企業である。

Microsoft 365 Copilot(外部)
日本企業にも展開が進むAIアシスタント。音声入力・会議文字起こし機能を含む製品である。

AudioHijack論文プレプリント(arXiv)(外部)
研究チーム本人による論文原典。技術的詳細や実験条件を一次資料として確認できる。

【参考記事】

Hidden Signals Can Hijack AI Voice Systems(IEEE Spectrum)(外部)
主著者メン・チェン氏への直接取材を含む一次報道。成功率や30分の学習時間等を記載。

AI assistants can be hijacked and manipulated by inaudible sounds(CyberInsider)(外部)
13モデルの検証と6つの攻撃カテゴリ、商用エージェントへの転移攻撃を整理している。

AI voice bots hijacked by hidden sounds in podcasts and YouTube clips(Cybernews)(外部)
ポッドキャスト・動画・Zoom会議等の現実シナリオに即した脅威モデルを解説している。

Hijacking Large Audio-Language Models via Auditory Prompt Injection(arXiv)(外部)
研究チームによる原典論文。6カテゴリの定義や実験条件等、技術的詳細を確認できる。

Hackers Find That Inaudible Sounds Can Hijack Your AI Voice Chatbot(Futurism)(外部)
一般読者向けに攻撃の社会的インパクトを平易に解説した記事である。

AudioHijack論文レビュー(themoonlight.io)(外部)
arXiv論文の技術レビュー。畳み込み摂動や音楽搬送の有効性等を整理している。

【関連記事】

生成AIの新リスク「プロンプトインジェクション」が浮上、対策は?
プロンプトインジェクションの基本概念と対策の出発点。AudioHijackを理解する前提知識として。

生成AIの新リスク「プロンプトインジェクション」が浮上、対策は?

生成AIの新たな脅威として注目される「プロンプトインジェクション」とは何か？ChatGPTなどの大規模言語モデルに悪意ある指示を与えることで、本来出…

innovaTopia -（イノベトピア） – …

「AIで要約」ボタンに潜む罠、31社が悪用する新攻撃手法とは
AIアシスタントのメモリ機能を狙う攻撃手法。信頼されたAIを悪用する構造が共通。

「AIで要約」ボタンに潜む罠、31社が悪用する新攻撃手法とは

Microsoftが「AI Recommendation Poisoning」と呼ばれる新たな攻撃手法を発表。31社が「AIで要約」ボタンに隠れた指示を埋め込み、AIアシスタントのメ…

innovaTopia -（イノベトピア） – …

MCP脆弱性にNSAが警鐘、AnthropicのMCP InspectorでCVSS 9.4のRCE発覚
エージェント型AIにおける「信頼境界」の課題を扱った直近記事。AudioHijackと同根。

MCP脆弱性にNSAが警鐘、AnthropicのMCP InspectorでCVSS 9.4のRCE発覚 — エージェント型AIの落とし穴

米国国家安全保障局NSAが5月、AIエージェント基盤MCPのセキュリティガイダンスを発行。MCP採用は18ヶ月で970倍に拡大する一方、Anthropic MCP Inspect…

innovaTopia -（イノベトピア） – …

Claude Codeのサンドボックスに5.5か月潜んだ脆弱性、AWS認証情報やソースコードが流出可能だった
プロンプトインジェクションとサンドボックス回避の合わせ技。脅威モデルが類似。

Claude Codeのサンドボックスに5.5か月潜んだ脆弱性、AWS認証情報やソースコードが流出可能だった

Anthropic社のClaude Codeに、ネットワークサンドボックスを完全に突破する脆弱性が5.5か月間潜んでいたことが判明。SOCKS5のヌルバイトインジェクシ…

innovaTopia -（イノベトピア） – …

Antigravity(Google)に重大脆弱性—最高セキュリティ設定を突破するプロンプトインジェクション攻撃とは
Google製AIエージェントへの攻撃事例。テキスト面の先行事例として比較に有用。

Antigravity（Google）に重大脆弱性—最高セキュリティ設定を突破するプロンプトインジェクション攻撃とは

GoogleのエージェントIDE「Antigravity」に深刻な脆弱性が発見された。ファイル検索ツールへのプロンプトインジェクションで任意コードが実行でき、最…

innovaTopia -（イノベトピア） – …

【編集部後記】

普段なにげなく聴いているポッドキャストやBGM、Web会議の録音音声が、AIアシスタントにとっては「命令」として届きうる時代に入りつつあります。みなさんはご自身が日々使っているAIツールに、どこまでの権限を渡しているか、振り返ったことはありますか。

便利さと引き換えに、何を任せ、何を自分の手元に残すか──その線引きを一緒に考えていけたら嬉しいです。「聞こえない音」が私たちの未来をどう変えるのか、ぜひみなさんの感覚や違和感も聞かせてください。

サイバーセキュリティニュース

Headline News

山本達也

『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。

記事一覧