Last Updated on 2024-08-14 10:05 by admin
OpenAIは2024年7月30日、ChatGPTの新機能「高度な音声モード(Advanced Voice Mode)」のアルファ版をChatGPT Plusの一部ユーザーに提供開始した。この機能は、2024年5月のOpenAIのイベントで発表されたGPT-4oモデルを使用している。
高度な音声モードの特徴:
- より自然なリアルタイムの会話が可能
- ユーザーの感情を検知して反応
- ユーザーが会話を遮っても対応可能
- 4つのプリセット音声(Breeze、Cove、Ember、Juniper)を搭載
OpenAIのCEOであるSam Altman氏によると、今後数週間でさらに多くのPlusユーザーにアクセスを拡大し、2024年秋にはすべてのChatGPT Plusユーザーに提供される予定である。
利用には、ChatGPT Plusの有料サブスクリプションに加え、Android端末ではアプリバージョン1.2024.206以降、iPhoneではiOS 16.4以降とアプリバージョン1.2024.206以降が必要となる。
OpenAIは安全性と信頼性を重視しており、100人以上の外部評価者による45言語でのテストを実施した。また、著作権保護のため、音楽やその他の著作権で保護されたオーディオの生成を防ぐフィルターを導入している。
from:ChatGPT Advanced Voice Mode First Impressions: Fun, and Just a Bit Creepy
【編集部解説】
OpenAIが発表した「高度な音声モード」は、AIと人間のコミュニケーションに新たな次元をもたらす可能性を秘めています。この機能は単なる音声認識や合成を超えた、より自然で直感的なインターフェースを提供します。
まず注目すべきは、この機能がGPT-4oモデルを基盤としている点です。これは、テキスト、画像、音声を統合的に処理できる最新のAIモデルです。従来の音声アシスタントとは異なり、ユーザーの感情や非言語的な要素を理解し、それに応じて反応できる能力を持っています。
この技術によって、AIとのコミュニケーションがより自然で流動的になります。例えば、会話の途中で話題を変えたり、AIの発言を遮ったりしても、スムーズに対応できるようになります。これは、日常生活や仕事の場面でAIをより効果的に活用できる可能性を示唆しています。
一方で、この技術には潜在的なリスクも存在します。例えば、AIの応答があまりにも人間らしくなることで、ユーザーがAIと人間を混同してしまう可能性があります。また、感情を理解し操作できるAIの登場は、プライバシーや倫理の面で新たな課題を提起するかもしれません。
OpenAIは安全性に配慮し、100人以上の外部評価者による45言語でのテストを実施しています。また、著作権保護のためのフィルターも導入されています。これらの取り組みは、AIの発展と社会的責任のバランスを取ろうとする姿勢の表れと言えるでしょう。