Last Updated on 2025-05-30 16:44 by admin
2025年5月29日、米国ニューヨークのHume AIは会話型AI音声モデル「Empathic Voice Interface(EVI)3」を発表した。
EVI 3はユーザーが自然言語で声の特徴や性格を指定し、即座にカスタム音声を生成できるボイス・トゥ・ボイス機能を持つ。
用途はカスタマーサポート、ヘルスコーチング、ストーリーテリング、バーチャルコンパニオンなど多岐にわたる。個人はHumeのウェブサイトやiOSアプリでデモ利用が可能で、開発者向けAPIは近日中に提供予定。
Humeの1,720人によるユーザーテストでは、EVI 3はOpenAIのGPT-4oやGoogle Gemini、Sesameなど競合モデルより自然さ、表現力、共感性、応答速度などで高評価を得た。
EVI 3は約300ミリ秒の低遅延、多言語対応(英語・スペイン語)、無制限のカスタムボイス生成を特徴とし、価格は従量課金制で詳細は未発表である。
From: Emotive voice AI startup Hume launches new EVI 3 model with rapid custom voice creation
【編集部解説】
EVI 3は、従来のAI音声モデルと比較して、ユーザーの感情や意図をより深く理解し、自然な会話を実現する点が際立っています。
Hume独自の音声・言語統合モデルにより、会話中にプロンプトで話し方や感情を即時に調整できるため、カスタマーサポートやヘルスケア、教育、エンターテインメント分野での応用が期待されています。
また、API経由での統合が容易であり、開発者や企業は自社サービスにEVI 3の音声体験を組み込むことができます。競合のGPT-4oやGeminiと比較して、共感性や表現力、応答速度で優位性を示していることが公式ベンチマークでも確認されています。
一方で、声のクローン機能は現時点でEVI 3には搭載されておらず、倫理的配慮や悪用防止策が重視されています。今後、音声AIが社会に浸透する中で、感情データの取り扱いや規制、プライバシー保護の重要性がさらに高まると考えられます。
EVI 3の登場は、音声AIが単なる情報伝達手段から、人間の感情や個性を媒介するインターフェースへと進化する転換点と言えるでしょう。
【用語解説】
Empathic Voice Interface(EVI):
Hume AIが開発した、感情や個性を反映できる会話型AI音声モデルのシリーズ名。
ボイス・トゥ・ボイス:
ユーザーの声や特徴をもとにAIが即座にカスタム音声を生成する技術。
感情知能(Emotional Intelligence):
AIが声の抑揚や間、トーンから感情を推定し、応答に反映する能力。
API(Application Programming Interface):
他のソフトウェアやサービスと機能を連携させるための仕組み。
【参考リンク】
Hume AI公式サイト(外部)
感情認識AIや音声合成AIを開発する米国ニューヨーク拠点の企業。EVIシリーズやOctave TTSなどを提供。
EVI 3公式ブログ(外部)
2025年5月発表のEVI 3に関する公式解説。技術的特徴や活用例を掲載。
【参考動画】
【編集部後記】
AI音声技術が進化し、感情や個性を持つカスタム音声が身近になりつつあります。もし自分だけのAIボイスや、状況に応じて感情を変える音声AIが使えるとしたら、どんなシーンで活用してみたいと思いますか?みなさんのアイデアや期待をぜひ聞かせてください。
【参考記事】
ZDNET「Hume’s new EVI 3 model lets you customize AI voices – how to try it」
Hume AI公式ブログ「Introducing EVI 3」
TestingCatalog「Hume.ai released EVI 3, a new personalized voice AI model」