OpenAIは2024年7月30日、ChatGPTの音声機能「Advanced Voice」のモバイル版への限定アクセスを開始した。この機能は、ChatGPTとの音声会話を可能にするもので、現在はChatGPT Plusの有料ユーザーの一部に提供されている。
Advanced Voice機能は、OpenAIの音声認識技術「Whisper」と5つの音声合成モデルを使用している。ユーザーは5種類の音声から好みのものを選択できる。
この機能は、iOS版とAndroid版のChatGPTアプリで利用可能だが、現時点では英語のみに対応している。OpenAIは、今後数週間でより多くのユーザーにアクセスを拡大する予定である。
Advanced Voice機能は、2023年9月に初めて発表され、当初はiOS版のみで提供されていた。今回のアップデートにより、Android版でも利用可能になった。
OpenAIは、この機能が言語学習、アクセシビリティの向上、マルチタスキングの支援など、様々な用途に活用できると述べている。
from:OpenAI opens limited access to ChatGPT Advanced Voice Mode on mobile
【編集部解説】
OpenAIが発表したChatGPTの新機能「Advanced Voice」は、AIとの音声対話を革新的なレベルに引き上げる可能性を秘めています。この機能は、単なる音声認識や合成を超えて、より自然で流暢な会話体験を提供することを目指しています。
注目すべきは、この機能が当初の予定から1ヶ月遅れてリリースされたことです。これは、OpenAIが品質と安全性を重視していることの表れと言えるでしょう。AI技術の急速な進歩において、慎重なアプローチは非常に重要です。
Advanced Voice機能は、OpenAIの音声認識技術「Whisper」と5つの音声合成モデルを組み合わせています。これにより、ユーザーは好みの音声を選択できるだけでなく、より自然な対話が可能になります。
この技術の応用範囲は広大です。言語学習や、視覚障害者のためのアクセシビリティ向上、さらにはマルチタスキング支援など、様々な分野での活用が期待されます。
しかし、このような高度な音声AIには潜在的なリスクも存在します。例えば、AIが人間の声を模倣することによる詐欺や、プライバシーの問題などが考えられます。OpenAIが機能のリリースを慎重に進めているのは、こうしたリスクへの対応も含まれているのでしょう。
長期的には、この技術が人間とAIのインターフェースを大きく変える可能性があります。キーボードやタッチスクリーンに頼らない、より自然なコミュニケーション方法が一般化するかもしれません。
また、この技術の進歩は、音声認識や自然言語処理の分野に新たな基準を設ける可能性があります。他のAI企業も同様の機能の開発を加速させることが予想され、音声AI市場全体の成長につながるでしょう。
ただし、現時点では英語のみの対応となっています。日本語を含む多言語対応が今後の課題となるでしょう。また、この技術が一般に普及するにつれ、音声AIの使用に関する新たな倫理的ガイドラインや法的規制の必要性も出てくるかもしれません。
innovaTopiaの読者の皆様には、この技術の進化を注視しつつ、その可能性とリスクの両面を考慮することをお勧めします。AIとの対話が日常生活にどのように組み込まれていくのか、私たちは興味深い時代の転換点に立っているのかもしれません。
【用語解説】
【参考リンク】
関連ウェブサイト: