Last Updated on 2025-04-23 10:38 by admin
Nari Labsは2025年4月19日、16億パラメータを持つテキスト読み上げ(TTS)モデル「Dia」をリリースした。このモデルはテキストから直接自然な対話を生成することができる。
Diaの共同制作者であるToby Kimは、このモデルがGoogleのNotebookLMのポッドキャスト機能に匹敵し、ElevenLabs StudioやSesameのオープンモデルの品質を上回ると主張している。また、OpenAIの最近リリースしたgpt-4o-mini-ttsに対する競合製品となる可能性がある。
Diaは資金ゼロで開発され、GoogleのTensor Processing Unit(TPU)を使用してトレーニングされた。現在、DiaのコードとモデルウェイトはHugging FaceとGitHubで公開されており、誰でもダウンロードして使用できる。
このモデルの主な特徴は以下の通りである:
[S1]や[S2]などのタグを使用して複数の話者の対話を生成できる
(laughs)、(coughs)などの非言語的な音声も生成可能
音声サンプルを提供することで、感情やトーンをコントロールできる
完全にオープンソース(Apache 2.0ライセンス)で商業利用も可能
現在、Diaは英語のみをサポートしている。GPUでの実行が必要となり、NVIDIA A4000 GPUでは、約40トークン/秒(86トークンで1秒の音声に相当)の速度で生成が可能だ。モデルを実行するには約10GBのVRAMが必要となる。
Nari Labsはフルタイムの1人とパートタイムの1人、合計2人のエンジニアで構成されているスタートアップである。彼らはDiscordサーバーとGitHubを通じてコミュニティの貢献を積極的に受け入れている。また、カジュアルユーザー向けのDiaのコンシューマーバージョンも開発中で、早期アクセスのためのウェイトリストを提供している。
【編集部解説】
Nari Labsが開発した「Dia」は、テキスト読み上げ(TTS)技術の世界に新たな風を吹き込む注目のモデルです。この1.6Bパラメータを持つオープンソースモデルは、2025年4月19日に正式リリースされました。検索結果から得られた情報を総合すると、Diaの特徴と業界への影響について、より詳細な理解が得られます。
まず、Diaの最大の特徴は「対話」に特化している点です。従来のTTSモデルが単一の声で文章を読み上げることに主眼を置いていたのに対し、Diaは複数の話者による自然な会話を生成することを目的としています。これにより、ポッドキャストやオーディオブック、ゲームのキャラクター会話など、より幅広い用途での活用が期待できます。
特筆すべきは、このモデルが「資金ゼロ」で開発されたという点です。Nari LabsのToby Kimによれば、GoogleのTPU Research Cloudの支援を受けて開発が進められました。大手企業の巨額な投資なしに、高品質なAIモデルが開発できるという事例は、AI民主化の流れを加速させる可能性があります。
Diaの技術的な側面も興味深いものがあります。このモデルは単に音声を生成するだけでなく、(laughs)や(coughs)などのタグを解釈して、実際の笑い声や咳などの非言語音声を生成できます。開発者によれば、これはElevenLabsやSesameなどの競合モデルが「haha」といったテキスト置換を出力するのとは対照的で、より自然な対話表現を可能にしていると主張しています。
また、音声条件付け(voice conditioning)機能により、サンプル音声の特性を新しい対話に反映させることができます。これにより、特定の声質や感情表現を維持したまま新しいコンテンツを生成することが可能になります。
Diaが業界に与える影響として最も重要なのは、オープンソース化による「民主化」でしょう。Apache 2.0ライセンスで公開されているため、商業利用を含む幅広い用途に無料で使用できます。これはElevenLabsなどの有料サービスとは一線を画しており、開発者やクリエイターにとって大きな選択肢となります。
プライバシーの観点からも、Diaはローカル実行が可能なため、テキストデータを外部サーバーに送信する必要がありません。これにより、機密情報を含むコンテンツでも安心して音声化できるようになります。
現時点での制限としては、英語のみのサポートであることや、実行に約10GBのVRAMを必要とするなど、ハードウェア要件が比較的高いことが挙げられます。しかし、Nari Labsは今後CPUサポートや量子化バージョンの提供を計画しており、アクセシビリティの向上が期待されています。
長期的な視点では、Diaのようなオープンソースモデルの登場は、音声合成技術の進化を加速させるでしょう。コミュニティによる改良や特定用途向けのカスタマイズが進み、より多様で高品質な音声生成が可能になると予想されます。
一方で、高品質な音声合成技術の普及は、なりすましや偽情報の拡散といったリスクも伴います。Nari Labs自身も個人の偽装や誤情報の拡散、違法行為への使用を明示的に禁止しています。技術の発展と並行して、適切な利用ガイドラインや検証技術の開発も重要になってくるでしょう。
Diaの登場は、AIによる音声生成の未来に新たな可能性を開くものです。オープンソースの力を活かした技術革新が、私たちのコミュニケーションや創作活動にどのような変化をもたらすのか、今後の展開に注目していきたいと思います。
【用語解説】
テキスト読み上げ(TTS: Text-to-Speech):
テキストデータを人間の声に似た音声に変換する技術。スマートスピーカーやナビゲーションシステム、読み上げソフトなどで広く使われている。
パラメータ:
AIモデルの中の調整可能な値のこと。パラメータ数が多いほど、より複雑なパターンを学習できる可能性がある。1.6Bは16億個のパラメータを意味する。
オープンソース:
ソフトウェアのソースコードが公開され、誰でも自由に使用、改変、再配布できる開発モデル。Diaの場合はApache 2.0ライセンスで提供されている。
音声条件付け(Audio Conditioning):
サンプル音声を提供することで、出力される音声の特性(声質や感情表現など)をコントロールする技術。
非言語音声(Non-verbal Sounds):
言葉以外の音声表現。笑い声、咳、喉を鳴らす音など、会話をより自然に感じさせる要素。
Hugging Face:
AIモデルの共有プラットフォーム。研究者やデベロッパーがモデルを公開・共有できる場所で、Diaもここで公開されている。
【参考リンク】
Nari Labs – Dia GitHub(外部)
Diaのソースコードとモデルウェイトが公開されているGitHubリポジトリ。インストール方法や使用例も掲載。
Dia-1.6B – Hugging Face(外部)
Diaモデルが公開されているHugging Faceページ。オンラインデモも利用可能。
ElevenLabs(外部)
高品質な音声合成サービスを提供する企業。Diaの競合サービスの一つ。
【参考動画】
【編集部後記】
音声合成技術の進化は目覚ましいですね。皆さんは日常生活でどんな場面でAI音声を活用していますか?スマートスピーカーでの会話、ナビゲーションの案内、あるいはポッドキャストの聴取など、気づかないうちに私たちの周りにはAI音声が溢れています。Diaのようなオープンソースモデルの登場で、個人でも高品質な音声コンテンツが作れる時代になりました。もし自分だけのポッドキャストや朗読コンテンツを作るとしたら、どんなものを作ってみたいですか?ぜひで教えてください。