MOSS-Audioとは?8Bで30B級に挑むOpenMOSSのオープンソース音声理解モデルを解説

会議の録音から「誰が、いつ、どんな感情で何を話したか」までを、文字起こしの先まで読み解く——そんな「音を理解するAI」が、いま中国の研究グループから無料で公開されました。復旦大学発のOpenMOSSなどが手がけた「MOSS-Audio」です。声だけでなく環境音や音楽も解釈し、しかも8B(80億パラメータ)という比較的小さなサイズで、4倍規模のオープンソースモデルを上回ったと報告されています。とりわけ「いつ話されたか」を秒単位で当てる精度では、GoogleのGeminiさえ引き離したといいます。商用利用も自由なこのモデルは、議事録や字幕、音の異常検知といった現場をどう変えるのか。その一方で、声から感情を読み取る力がはらむ危うさも含めて、解説していきます。


MOSS-Audioは、MOSI.AI、OpenMOSSチーム、Shanghai Innovation Instituteが公開したオープンソースの音声理解モデルである。

音声・環境音・音楽の理解、音声キャプショニング、時間認識型QA、複雑な推論に対応する。今回はMOSS-Audio-4B-Instruct、MOSS-Audio-4B-Thinking、MOSS-Audio-8B-Instruct、MOSS-Audio-8B-Thinkingの4モデルを提供する。LLMバックボーンはQwen3-4BまたはQwen3-8Bで、総サイズは約4.6Bと約8.6Bである。総合音声理解でMOSS-Audio-8B-Thinkingは平均71.08を記録した。ASRの総合CERは11.30、タイムスタンプASRではMOSS-Audio-8B-InstructがAISHELL-1で35.77 AAS、LibriSpeechで131.61 AASを達成した。

モデルはApache License 2.0で提供される。2026年6月1日にarXivで技術レポート(arXiv:2606.01802)を公開した。

From: OpenMOSS/MOSS-Audio – GitHub

【編集部解説】

まず、このリリースの主語を正確に押さえておきたいと思います。MOSS-Audioは音声を「生成する」モデルではなく、音声を「理解する」モデルです。音声を入力すると、文字起こし・話者や感情の分析・環境音の解釈・音楽の分析・時刻を指定した質問応答などを、テキストとして返します。従来はこれらを別々の専用システムで分担していましたが、それを一つの基盤モデルに束ねた点が今回の核心です。

開発主体にも背景があります。OpenMOSSは復旦大学のNLP研究室(FudanNLP)を母体とし、現在は上海創新研究院(SII)に拠点を置き、復旦大学およびMOSI.AIと連携してプロフェッサー・チウ・シーポン(邱錫鵬)が率いる研究グループです。同グループは2023年に、中国で最初期のオープンソース会話型大規模言語モデルの一つであるMOSSを公開した実績を持ちます。ちなみにMOSSという名は、映画『流浪地球』(邦題『流転の地球』)に登場するAIに由来します。音声生成側のMOSS-TTSファミリーも別途公開されており、「理解」と「生成」を両輪でそろえにきた動きと読み取れます。

技術面で注目したいのは「タイムスタンプASR」の精度です。これは「いつ、何が話されたか」を秒単位で言い当てる能力で、表のAAS(数値が小さいほど良い)でMOSS-Audio-8B-Instructは他を引き離しました。なぜここが効くのかというと、議事録の頭出し、字幕の自動整列、会議の特定発言への参照といった実務が、時刻の正確さに直接ぶら下がっているからです。

この点は、業界が抱える積年の課題とも重なります。音声系の大規模モデルでは「テキスト幻覚(textual hallucination)」がしばしば指摘されてきました。音声を無音に差し替えても5割超の正答率を出してしまうベンチマークが存在するほど、モデルが実際の音ではなく言語的な事前知識で答えている疑いがあるという問題です。時刻を正確に当てる課題は、音を本当に聴いているかを測る試金石になります。MOSS-Audioが時間表現を学習段階から組み込んだ設計は、この弱点への一つの回答といえます。

競合との位置関係も冷静に見ておきましょう。主要な対抗馬であるQwen3-Omniはアリババクラウドが開発した30B級のモデルです。総合音声理解では、8B規模のMOSS-Audioがこの30B級や33B級のオープンソースを上回ったと報告されており、「小さくて強い」という訴求は概ね妥当です。ただし、クローズドソースのGemini-3.1-Proは総合理解では依然として明確に先行しており、「すべての面で世界最高」ではない点は誤読しないようにしたいところです。MOSS-Audioが文字どおり群を抜いたのは、あくまでタイムスタンプの精度という特定軸です。

設計の妙にも触れておきます。「DeepStack層間特徴注入」は、もともと画像系で用いられた発想を音声に応用したもので、エンコーダーの最終層だけでなく途中の層の情報も言語モデルへ流し込みます。声色や息づかい、わずかな環境音といった「細部」は最終層で平均化されて失われやすく、それを救い上げる狙いです。アプローチの違いも興味深く、Qwen陣営はタイムスタンプ予測のために専用の整列モデル(Qwen3-ForcedAligner)を別立てしたのに対し、MOSS-Audioは一つのモデルの中で時間を扱おうとしています。設計思想の分岐点として記録しておく価値があります。

実用面のインパクトは小さくありません。MOSS-AudioはApache License 2.0で公開されており、商用利用・改変・再配布がコピーレフトの制約なく認められます。4Bモデルなら手元のGPUでも動かしやすく、議事録解析、コンテンツのモデレーション、字幕・アクセシビリティ支援、音による異常検知など、これまで高価な専用APIに頼っていた領域を内製化する選択肢が広がります。

一方で、潜在的なリスクからも目をそらすべきではありません。話者の特徴や感情を音から推定する能力は、便利さと裏腹に、同意なき声紋分析や感情の監視といった用途にも転用されえます。オープンソースは利点であると同時に、こうした用途への歯止めがかけにくいという宿命も抱えます。感情推定の精度や前提が文化・言語によって偏る可能性にも、利用側の慎重さが求められるでしょう。

規制の観点も無視できません。EUのAI法(AI Act)は第5条(1)(f)で、職場や教育機関において音声や表情から感情を推定するAIを原則「禁止」としており、この規定は2025年2月にすでに発効しています。それ以外の場面や、医療・安全目的の例外にあたる場合は「禁止」ではなく「高リスク」に分類されます。声から心理状態を読む技術は、用途しだいで禁止にも高リスクにも振れる領域だということです。なお対象となるのはあくまで「感情の推定」で、「笑っている」という見た目の観察ではなく、「幸せだ」と内面を推し量って初めて抵触するという線引きも、実務では重要になります。日本でも、録音データの取得・解析にまつわる同意やプライバシーの整理は、技術の普及より先に問われていくはずです。

長い目で見ると、今回の一件は「音を、画像やテキストと同じ土俵で扱える対象に引き上げる」という潮流の一歩として位置づけられます。映像理解が数年でコモディティ化したように、音声理解もまた、特別な専門システムから日常の部品へと降りてくる段階に入りつつあります。innovaTopiaがこの段階で本件を取り上げる理由も、まさにそこにあります。聴くことの自動化が当たり前になる前に、その仕組みと功罪を読者と共有しておきたいのです。

【用語解説】

音声理解(Audio Understanding)
音声を文字に起こすだけでなく、誰が・どんな感情で話しているか、背景にどんな音があるか、いつ何が起きたかまでを解釈する技術領域だ。音声を「生成」するのではなく「読み解く」側を指す。

ASR(自動音声認識)/CER
ASRは音声を文字へ変換する技術。CER(Character Error Rate=文字誤り率)はその誤り具合を示す指標で、数値が小さいほど正確である。

タイムスタンプASR/AAS
発話を文字化するだけでなく、各語や文が「何秒の地点か」まで対応づける課題。AASはその時刻ずれを測る指標で、数値が小さいほど時刻が正確だ。

音声キャプショニング(Speech Captioning)
声の性別・年齢・抑揚・明瞭さなどの特徴を言語で記述するタスク。単なる文字起こしより細かな「音の説明」を生成する。

時間認識型QA(Time-Aware QA)
「2分時点で何と言ったか」のように、時刻を前提にした質問へ答える機能を指す。

DeepStack層間特徴注入
もともと画像認識で用いられた発想を音声へ応用したもの。エンコーダーの最終層だけでなく中間層の情報も言語モデルへ流し込み、声色や環境音などの細部を保持する仕組みだ。

思考連鎖(Chain-of-Thought)/Thinking系
答えに至る途中の推論を段階的に展開させる手法。MOSS-AudioのThinking系はこの推論を強化した版である。

テキスト幻覚(Textual Hallucination)
音声モデルが実際の音ではなく、文脈からの推測で答えてしまう現象。音声を無音に差し替えても、特定のベンチマークで5割超の正答率を出す事例が報告されている。

MMAU/MMAU-Pro/MMAR/MMSU
いずれも音声理解の総合力を測るベンチマーク。スコアが高いほど成績が良い。

Apache License 2.0
商用利用・改変・再配布をコピーレフトの制約なく認めるオープンソースライセンスだ。

EU AI法(AI Act)/第5条(1)(f)
EUの包括的なAI規制。職場や教育機関での感情推定AIなどの禁止規定は2025年2月2日に発効した。禁止行為への違反には最大3500万ユーロ、または全世界年間売上高の7%のいずれか高い方の制裁金が科されうる。

FudanNLP/OpenMOSSの来歴
OpenMOSSは復旦大学のNLP研究室(FudanNLP)を母体とする研究グループで、2023年に中国で最初期のオープンソース会話型LLMの一つ「MOSS」を公開した。

【参考リンク】

OpenMOSS(公式サイト)(外部)
チウ・シーポン氏が率いる研究グループの公式サイト。LLMやマルチモーダル基盤モデルの研究を公開している。

MOSI.AI / MOSI Studio(外部)
MOSS-Audioの開発に関わるMOSI.AIのサイト。音声合成などのサービスを提供している。

Shanghai Innovation Institute(SII)(外部)
OpenMOSSが拠点を置く研究機関。AI分野の教育・研究のイノベーションを掲げている。

OpenMOSS-Team(Hugging Face)(外部)
4モデル(4B/8B、Instruct/Thinking)の重みやモデルカードを配布する公式ページである。

MOSS-Audio プロジェクトページ(外部)
モデルの機能やデモを紹介する公式の解説ページである。

Qwen3-Omni(GitHub)(外部)
本文で比較対象としたアリババクラウドのオムニモーダルLLM。音声や動画などを扱う。

EU AI Act Service Desk(欧州委員会)(外部)
職場での感情推定など第5条の禁止行為を解説する、欧州委員会の公式FAQである。

【参考記事】

MOSS-Audio Technical Report(arXiv:2606.01802)(外部)
開発元の技術レポート。エンコーダー・アダプター・デコーダー構成や設計上の中核を示す。

OpenMOSS Releases MOSS-Audio(MarkTechPost)(外部)
感情推定や音楽分析、多段階推論までを単一モデルで担える点を解説した記事である。

MOSS-Audio: 8B Parameters Challenge 30B(DEV Community)(外部)
8B規模が30B級に挑む構図と、Apache 2.0による利用の自由度に触れた記事である。

Audio-Dependent Question Answering(DCASE 2026 Task)(外部)
音声言語モデルの「テキスト幻覚」を課題に据えたタスク説明。時刻精度の背景になる。

Qwen3-ASR Technical Report(arXiv:2601.21337)(外部)
タイムスタンプ予測の専用整列モデルを別立てした、対照的な設計を報告する技術文書だ。

Red Lines under EU AI Act(Future of Privacy Forum)(外部)
職場・教育機関での感情推定の禁止と高リスク分類の線引きを整理した解説である。

EU AI Act Shock: Emotion Recognition Is Now Illegal at Work(UC Today)(外部)
感情推定禁止の制裁金水準と、対象となる生体情報の範囲を伝える記事である。

【関連記事】

Alibaba Qwen3-ASR-Flash登場|11言語対応AI転写で競合を圧倒(内部)
本記事の比較対象Qwen系のASR。対Gemini・GPT-4oのCER比較という論点が直結する。

Qwen3:アリババが中国初のハイブリッド推論AIをオープンソース化(内部)
MOSS-Audioのバックボーン。Thinking/Instructの2モードを理解する前提になる解説だ。

Mistral AI「Voxtral Transcribe 2」発表|音声認識に革新(内部)
Apache 2.0・オープンウェイト・エッジ実行という、本記事と重なる論点が揃う一本。

【編集部後記】

音を「聴いて理解する」AIが、特別な装置から手元の道具へと降りてくる——その移り変わりの只中に、私たちはいます。便利さに心が動く一方で、声から感情や属性が読み取られる時代に、何を任せ、何を手元に残すのか。

編集部にも答えはありません。だからこそ、技術の輪郭とその功罪を、読者のみなさんと同じ目線で見つめ続けたいと思います。みなさんなら、この「聴く知性」をまず何に使ってみたいでしょうか。

Googleで優先するソースとして追加するボタン
投稿者アバター
Ami
テクノロジーは、もっと私たちの感性に寄り添えるはず。デザイナーとしての経験を活かし、テクノロジーが「美」と「暮らし」をどう豊かにデザインしていくのか、未来のシナリオを描きます。 2児の母として、家族の時間を豊かにするスマートホーム技術に注目する傍ら、実家の美容室のDXを考えるのが密かな楽しみ。読者の皆さんの毎日が、お気に入りのガジェットやサービスで、もっと心ときめくものになるような情報を届けたいです。もちろんMac派!