株式会社CoeFontは、最新AI音声モデル「CoeFont v3 Fuji」の一般公開を開始した。同社は東京都港区に本社を置き、代表取締役は早川尚吾である。
これまで一部ユーザー限定で提供していた同モデルは、人間らしい発話リズムと繊細な感情表現を両立した日本語AI音声モデルである。動画制作、ナレーション、教育、アプリ音声などで利用できる。
一般公開にあわせて「v3 Fuji」チャレンジも開始され、誰でも収録に参加可能となった。喜怒哀楽などの感情別収録と通常収録を合わせて1,500文を録音し、審査を経て一部の声が正式に採用される。
無料ユーザーでも3回まで試用可能で、スタンダードプランは月間約8,000文字まで、プラスプランは月間最大100万文字まで利用できる。
同社は2020年設立の東京科学大学認定ベンチャーで、Voice Hubには10,000種類以上のAI音声が揃っている。
From:
CoeFont、最新AI音声モデル「CoeFont v3 Fuji」の一般公開を開始!
【編集部解説】
AI音声がついに「感情」を語り始めました。CoeFontが11月に一般公開した「v3 Fuji」は、8月の正式リリース以降、一部ユーザー限定で提供されていた最新モデルです。今回の一般公開により、誰でもこの高品質なAI音声を利用できるようになっただけでなく、自分の声を提供して次世代モデルの一部になれる「v3 Fujiチャレンジ」も同時にスタートしました。
CoeFontは2020年設立の東京科学大学(旧東京工業大学)認定ベンチャーで、代表取締役の早川尚吾氏が東工大在学中に立ち上げた企業です。旧社名はYellstonで、2021年12月にCoeFontへ社名変更しています。「すべてのクリエイターに声を届ける」というコンセプトのもと、AI音声合成技術の民主化を進めてきました。
v3 Fujiの最大の特徴は「感情表現」です。従来のAI音声は、正確な発音や流暢さでは高いレベルに達していましたが、人間らしい感情のニュアンスを表現することは困難でした。抑揚、間、リズム、テンションの変化といった非言語情報は、実は言葉の意味を伝える上で非常に重要な役割を果たしています。v3 Fujiはこの領域に踏み込んだモデルです。
AI音声合成市場は急成長しており、世界市場規模は2021年に2.9億ドルと推定され、2025年には23.5億ドルに達すると予測されています。この成長を支えているのは、スマートスピーカーや音声アシスタント、オーディオブック、動画ナレーションなど、音声コンテンツの需要拡大です。しかし、商用利用において「機械的な声」という印象は大きな障壁となっていました。
v3 Fujiは喜怒哀楽などの感情を込めた音声を再現できるため、これまでAI音声では難しかった小説の朗読、ゲームキャラクターの音声、感情的なナレーションなど、表現力が求められるコンテンツ制作への扉を開きます。無料ユーザーでも3回まで試用でき、スタンダードプランは月間約8,000文字、プラスプランは月間最大100万文字まで利用可能という料金体系も、幅広い利用者層を想定していることがわかります。
今回注目すべきは「v3 Fujiチャレンジ」の一般公開です。1,500文の収録(感情別収録と通常収録を含む)を行うことで、審査を経て自分の声が次世代AI音声モデルとして採用される可能性があります。これは単なるサービス提供ではなく、ユーザー参加型の技術開発モデルです。多様な声のデータを集めることで、より豊かな表現が可能なAI音声のエコシステムを構築しようとする戦略が見て取れます。
ただし、AI音声技術の進化には倫理的な課題も伴います。声の無断使用や悪用のリスク、声優やナレーターなど声を職業とする人々への影響、ディープフェイク音声による詐欺や誤情報の拡散など、技術の発展と並行して考えるべき問題は少なくありません。CoeFontは公式サイトで「倫理的で包括的なAI音声プラットフォーム」の開発を掲げており、不正利用対策や権利保護にも配慮している姿勢を示しています。
AI音声が「情報を伝える装置」から「感情を伝えるコミュニケーションツール」へと進化する今、私たちは人間とAIの音声コミュニケーションにおける新たな地平に立っています。v3 Fujiの一般公開は、この技術が研究室から実社会へと本格的に展開される重要な一歩と言えるでしょう。
【用語解説】
AI音声合成(Text-to-Speech/TTS)
テキストデータを音声に変換する技術である。ディープラーニングなどのAI技術を活用することで、人間の発声特性を学習し、自然で人間に近い音声を生成することが可能になった。抑揚、間、リズムなどの韻律情報も再現できるようになっている。
韻律(プロソディ)
音声における抑揚、アクセント、リズム、間などの要素を指す。言葉の意味を正しく伝えるために重要な役割を果たし、感情や意図を表現する非言語情報でもある。AI音声合成において、この韻律の自然な再現が人間らしさを生み出す鍵となる。
ディープラーニング(深層学習)
多層のニューラルネットワークを用いた機械学習手法である。大量のデータからパターンを学習し、人間が明示的にルールを設定しなくても高度な判断や生成が可能になる。音声合成においては、人間の声の波形や特徴を直接学習することで自然な音声を生成できる。
東京科学大学
2024年10月に東京工業大学と東京医科歯科大学が統合して発足した国立大学である。旧東京工業大学は理工系の名門大学として知られ、多くのベンチャー企業を輩出している。
【参考リンク】
CoeFont公式サイト(外部)
株式会社CoeFontが提供するAI音声プラットフォーム。音声合成、ボイスチェンジャー、AI通訳など多様な機能を提供している。
CoeFont v3 Fuji特設ページ(外部)
最新AI音声モデル「v3 Fuji」の詳細情報とサンプル音声を公開。無料で試用できる機能も提供されている。
v3 Fujiチャレンジ(外部)
自分の声で次世代AI音声モデルの制作に参加できる収録プログラム。1,500文の音声収録を通じて応募できる。
【参考動画】
【参考記事】
AI音声はついに”感情”の領域へ!CoeFont、最新音声モデル「CoeFont v3 Fuji」を正式リリース(外部)
2025年8月5日のv3 Fuji正式リリース時のプレスリリース。モデルの技術的特徴や20種類以上のAI音声同時公開について詳述されている。
CoeFont、新AI音声モデル「v3 Fuji」発表(外部)
v3 Fujiの技術的詳細と「Fuji」というネーミングの由来について解説。人間らしい発話と感情表現の実現方法を報じている。
AI音声は”感情”へ。日本語AI音声の最高峰「CoeFont v3 Fuji」が公開(外部)
v3 Fujiが非言語的な意味を代替し始めたという視点から技術的意義を深堀り。AI音声が情報伝達装置からコミュニケーションツールへ進化したことを分析している。
「おしゃべりひろゆきメーカー2」登場、新AIモデルで”ほぼ本人”の声に?(外部)
2025年4月のv3 Fuji発表時の記事。音声ジェネレーター「おしゃべりひろゆきメーカー2」への実装について報じている。
AI音声スタートアップの「Yellston」、社名とサービス名を「CoeFont」に統合(外部)
2021年12月の社名変更に関するプレスリリース。旧社名Yellstonから現在の株式会社CoeFontへの変更背景と企業理念について説明されている。
東工大発ベンチャーがAI音声合成に喜怒哀楽の表現機能を追加(外部)
2021年の感情表現機能追加時の記事。CoeFontにおける感情表現技術の初期開発段階について報じられている。
AI音声合成の現状と未来:可能性を追求する(外部)
AI音声合成市場の成長予測(2021年2.9億ドルから2025年23.5億ドルへ)と技術動向について詳述。市場全体の文脈を理解するための参考資料。
【編集部後記】
AI音声が感情を語り始めた今、私たちは音声コミュニケーションの新しい時代の入り口に立っています。
v3 Fujiの一般公開により、誰でも感情豊かなAI音声を利用できるようになりました。皆さんはどのような場面でこの技術を活用してみたいでしょうか。動画制作、オーディオブック、プレゼンテーション、あるいはまったく新しい用途かもしれません。
一方で、人間の声とAI音声の境界が曖昧になることへの期待と不安も同時に存在します。技術の進化を歓迎しつつ、倫理的な利用についても共に考えていければと思います。ぜひ実際にv3 Fujiを試して、感じたことを共有していただけたら嬉しいです。
























