advertisements

FlashLabs、世界初のオープンソース音声AIモデル「Chroma 1.0」リリース|150ms以下の超低遅延を実現

[更新]2026年1月27日

FlashLabs、世界初のオープンソース音声AIモデル「Chroma 1.0」リリース|150ms以下の超低遅延を実現

人間とAIの会話における「不自然な間」がついに解消される。FlashLabsが発表したChroma 1.0は、従来の3段階処理を排除し、わずか135msで応答するオープンソースの音声AIモデルだ。数秒の音声サンプルから本人そっくりの声を生成する技術と組み合わせることで、音声インターフェースの常識を塗り替える可能性を秘めている。


FlashLabsは2026年1月22日、世界初のオープンソース、エンドツーエンド、リアルタイム音声間AIモデルでパーソナライズされた音声クローニング機能を備えた「Chroma 1.0」のリリースを発表した。

従来のASR→LLM→TTSパイプラインを使用せず、ネイティブに音声間で動作する。エンドツーエンドのTTFTは150ms以下を実現し、Day-0 SGLangサポートにより約135msまで短縮される。

数秒の参照音声から高忠実度の音声クローニングが可能で、話者類似度スコアは0.817を記録し、人間のベースライン0.73を10.96%上回った。約4Bパラメータのコンパクトなアーキテクチャを採用している。創業者兼チーフリサーチ&エンジニアリングのイー・シーは、ビルダー、研究者、企業が人間のスピードで動作するAIシステムを構築できるようにすると述べた。

From: 文献リンクFlashLabs Releases Chroma 1.0: The World’s First Open-Source End-to-End Real-Time Voice AI Model

FlashLabs PR Newswireより引用

【編集部解説】

Chroma 1.0の最大の革新は、従来の音声AIが必要としていた「音声認識(ASR)→言語モデル(LLM)→音声合成(TTS)」という3段階のパイプラインを完全に排除した点にあります。この従来方式では各段階で処理の遅延が積み重なり、会話のテンポが不自然になる問題がありました。Chromaはこれを音声から音声へ直接変換するエンドツーエンド設計にすることで、レイテンシを劇的に削減しています。

発表された150ms以下というTTFT(Time To First Token)は、業界の主要プレイヤーと比較しても驚異的な数値です。例えば、従来のTTSエンジンではAmazon Pollyが1090ms、Azure Text-to-Speechが1140msを要していたのに対し、Chromaは約1/7以下の応答速度を実現しました。さらにSGLang最適化により135msまで短縮されており、人間の会話における自然な間合いに極めて近づいています。

音声クローニング性能も注目に値します。わずか数秒の音声サンプルから話者類似度スコア0.817を達成し、人間のベースライン0.73を10.96%上回った点は、従来の音声合成技術が大量のデータと長時間の学習を必要としていた常識を覆すものです。この技術により、コールセンターやバーチャルアシスタントが個々のユーザーの声で応答するパーソナライズが現実的になります。

4Bパラメータという比較的コンパクトなモデルサイズも戦略的に重要でしょう。7B〜9Bパラメータの大型モデルと比較しても遜色ない推論能力を維持しながら、エッジデバイスや組み込みシステムでの展開が可能になるためです。これはスマートフォンやIoTデバイスでのリアルタイム音声対話の普及を加速させる可能性があります。

オープンソースでの公開は、研究コミュニティと産業界の両方に大きな影響を与えるはずです。論文、モデル、推論コードの全てが公開されることで、技術の民主化が進み、新たなアプリケーションの開発が促進されるでしょう。

ただし、高精度な音声クローニング技術には深刻なリスクも伴います。数秒の音声サンプルで本人そっくりの声を生成できるということは、なりすまし詐欺や偽情報の拡散に悪用される可能性が高まることを意味します。実際、AIによる音声クローニングを使った詐欺は既に急増しており、FTC(米国連邦取引委員会)が対策コンテストを開催するほど深刻な問題となっています。

今後、この技術が社会実装される過程では、音声認証システムの見直しや、AI生成音声の検出技術の開発、利用規約や法規制の整備が不可欠になってくるはずです。技術の進化と倫理的配慮のバランスをどう取るかが、音声AI時代の重要な課題となるでしょう。

【用語解説】

ASR(Automatic Speech Recognition / 音声認識)
人間の音声を文字データに変換する技術。従来の音声AIシステムでは最初の処理段階として使用されていた。

LLM(Large Language Model / 大規模言語モデル)
膨大なテキストデータで学習した言語処理AIモデル。従来の音声AIでは、ASRで変換されたテキストを処理し、応答を生成する中核部分を担っていた。

TTS(Text-to-Speech / 音声合成)
テキストデータを音声に変換する技術。従来の音声AIシステムでは最終段階として使用され、LLMが生成したテキストを音声化していた。

TTFT(Time To First Token)
AIモデルが入力を受け取ってから最初の出力(トークン)を生成するまでの時間。音声対話システムでは応答速度の重要な指標となる。

SGLang
AIモデルの推論処理を最適化するフレームワーク。レイテンシの削減とスループットの向上を実現する。

パラメータ
AIモデルが学習によって獲得する数値的な重み。パラメータ数が多いほど複雑な処理が可能になるが、計算リソースも増加する。Chroma 1.0は4B(40億)パラメータを採用している。

エンドツーエンド
複数の処理段階を統合し、入力から出力まで一貫したシステムとして動作させる設計手法。中間処理を省略することで遅延を削減できる。

音声クローニング
特定の人物の声の特徴を学習し、その人物そっくりの音声を生成する技術。わずか数秒の音声サンプルから高精度な複製が可能になっている。

話者類似度スコア(SIM)
生成された音声が元の話者の声にどれだけ類似しているかを数値化した指標。1.0に近いほど類似度が高い。

エッジデバイス
クラウドサーバーに依存せず、スマートフォンやIoT機器などのデバイス単体で処理を実行できる端末。ローカル処理により低遅延と高プライバシーを実現する。

オープンソース
ソフトウェアのソースコードを無償で公開し、誰でも自由に利用・改変・配布できるライセンス形態。技術の透明性と民主化を促進する。

【参考リンク】

FlashLabs Chroma 1.0 – arXiv論文(外部)
Chroma 1.0の技術的詳細、アーキテクチャ、ベンチマーク結果を記載した学術論文。モデルの設計思想と性能評価の全容が公開されている。

FlashLabs Chroma-4B – Hugging Faceモデルページ(外部)
Chroma 1.0の学習済みモデルをダウンロードできる公式ページ。モデルカードには使用方法や技術仕様が記載されている。

FlashLabs Chroma – GitHub推論コード(外部)
Chroma 1.0の推論を実行するためのオープンソースコード。開発者がすぐに実装を開始できるよう、実装例とドキュメントが提供されている。

【参考動画】

Chroma 1.0の実際の音声対話デモンストレーション。単発の質疑応答と複数ターンにわたる会話の両方で、リアルタイム応答性能を確認できる。

【参考記事】

FlashLabs Researchers Release Chroma 1.0: A 4B Real-Time Speech Dialogue Model with Personalized Voice Cloning – MarkTechPost(外部)
Chroma 1.0の技術的特徴と性能指標を詳細に解説。4Bパラメータモデルでありながら高度な推論能力を持つ点、話者類似度スコア0.817という具体的な数値、従来モデルとの比較データが記載されている。

Text-to-Speech Latency Benchmark – Picovoice GitHub(外部)
主要な音声合成エンジンのレイテンシベンチマーク。Amazon Polly(1090ms)、Azure Text-to-Speech(1140ms)など既存サービスの具体的な応答時間が測定されている。

Retell AI vs. Synthflow vs. Twilio Voice Assistants – Retell AI(外部)
リアルタイム音声アシスタントのレイテンシ比較。業界標準となる応答速度の指標と、サブセカンドレイテンシ(1秒未満)の重要性について解説されている。

The dangers of voice cloning and how to combat it – The Conversation(外部)
音声クローニング技術のリスクと対策について学術的視点から解説。なりすまし詐欺、偽情報拡散などの具体的な脅威と、検出技術や規制の必要性が論じられている。

FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model – Hugging Face Papers(外部)
論文の概要とコミュニティの反応がまとめられたページ。モデルの技術的革新性、7B〜9Bパラメータモデルとの性能比較、実装の詳細が議論されている。

【編集部後記】

Chroma 1.0がオープンソースで公開されたことで、音声AIの開発は新しいフェーズに入りました。数秒の音声サンプルで自分の声を持つAIアシスタントが作れる未来は、私たちの日常をどう変えるでしょうか。

コールセンターの待ち時間がゼロになる便利さの一方で、声のなりすましリスクにどう備えるべきか、一緒に考えていきたいテーマです。みなさんは、この技術をどんな場面で使ってみたいですか。あるいは、どんな懸念を感じますか。ぜひSNSで教えてください。

投稿者アバター
TaTsu
『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。 ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。

読み込み中…

innovaTopia の記事は、紹介・引用・情報収集の一環として自由に活用していただくことを想定しています。

継続的にキャッチアップしたい場合は、以下のいずれかの方法でフォロー・購読をお願いします。