名古屋大学大学院情報学研究科の大橋温人氏は2025年1月24日、日本語初のリアルタイム音声対話モデル「J-Moshi」を公開した。
このAIモデルは、フランスのスタートアップ企業Kyutai Labsが開発した英語版「Moshi」をベースに、日本語での追加学習を実施したものである。
J-Moshiの主な特徴は以下の通り:
- モデルサイズは7Bパラメータ
- 応答の遅延時間は160〜200ミリ秒
- 24GB以上のVRAMを搭載したGPUが必要
開発における技術的詳細
- 名古屋大学のスーパーコンピュータ「不老」を使用
- JSTムーンショット型研究開発事業の支援を受けて開発
- 株式会社アイシンとの共同研究により対話コーパスを構築
本モデルは2025年3月10日から14日まで長崎の出島メッセで開催される言語処理学会年次大会「NLP2025」にて発表予定である。
公開されているモデルは2種類
- nu-dialogue/j-moshi:基本モデル
- nu-dialogue/j-moshi-ext:Multi-stream TTSによる拡張データで学習した発展モデル
fromX
【編集部解説】
J-Moshiは、人間の自然な会話の特徴である「話す」と「聞く」を同時に行うフルデュプレックス(全二重)対話を実現した画期的なシステムです。従来の音声対話システムでは、ユーザーの発話が終わるまでAIが待機する必要がありましたが、J-Moshiは相手の発話中でも相槌を打ったり、補足的な質問を行ったりすることができます。
開発背景と特徴
このシステムは、フランスのスタートアップKyutai Labsが2024年9月に公開した英語版Moshiをベースに、名古屋大学の研究チームが日本語向けに最適化したものです。特筆すべきは、応答の遅延時間がわずか160〜200ミリ秒という超低遅延性能です。
実用性と応用可能性
7Bという比較的小規模なパラメータ数にもかかわらず、自然な対話が可能な点が注目に値します。これにより、AIチューバーやデジタルサイネージ、電話応対など、幅広い実用的なアプリケーションへの展開が期待できます。
開発プロセスと技術基盤
開発には名古屋大学のスーパーコンピュータ「不老」が使用され、128基のNVIDIA V100 32GB GPUによる大規模な学習が行われました。また、株式会社アイシンとの共同研究により構築された対話コーパスを活用しており、産学連携の成果としても評価できます。
今後の展望と課題
3月に開催される言語処理学会年次大会「NLP2025」での発表が予定されており、学術界からの評価も注目されます。ただし、現状では24GB以上のVRAMを必要とする点や、知識ベースが限定的である点などの技術的制約があります。
社会的インパクト
このシステムは、人間とAIのコミュニケーションに新しい可能性を開くものです。特に、高齢者向けの対話エージェントや、AIと人間のよりナチュラルなインタラクションが求められる場面での活用が期待されます。
潜在的な課題
一方で、このような高度な対話システムの普及に伴い、なりすましや詐欺への悪用リスクも懸念されます。また、システムの出力にバイアスや不正確な情報が含まれる可能性もあり、実用化に向けては慎重な検証が必要でしょう。