Image Credit:OpenAI gives ChatGPT a voice for verbal conversations

OpenAIは、ChatGPTに新たな音声および画像機能を追加することを発表しました。ChatGPTは、簡単なテキスト入力でエッセイや詩、要約を生成することができる人気のあるAIアシスタントですが、今回のアップデートにより、ユーザーはチャットボットとの音声対話も可能になります。この発表は、AmazonがOpenAIのライバルであるAnthropicに最大40億ドルを投資すると発表した日と重なっており、GoogleもBardチャットボットを通じて追いつこうとしており、Metaはオープンソースを重視して競争に臨んでいます。今日は、音声と大規模な言語モデルを組み合わせることで、生成型AIの大きな進化がありました。ユーザーは、例えばベッドタイムストーリーを即興で頼むこともできますし、簡単な声の誘導でチャットボットに質問することもできます。また、ユーザーは画像を使って情報を検索することもできます。たとえば、何かの写真をアップロードしてそれが何であるかを説明してもらうことや、目標の達成方法を教えてもらうことができます。音声機能は、音声からテキストを生成する新しいテキスト読み上げモデルによって実現されています。リアルな音声を生成するために、有名な声優と提携し、Whisper音声認識システムを使用して音声をテキストに転写しています。Spotifyもパートナーとして参加し、パーソナリティが自分の声をサンプルにすることで、彼らの番組を英語からスペイン語、フランス語、またはドイツ語に翻訳する新機能を提供しています。ただし、OpenAIはこの技術を一般に提供するわけではなく、限られたパートナーとのみ提携しています。音声機能は、まずはChatGPTのアンドロイドとiOSのアプリで限定的に提供され、画像検索はすべてのプラットフォームで使用できるようになります。機能は2週間以内に有料のPlusとEnterpriseサブスクリプションのユーザーに提供されます。


Pexelsによる写真提供

OpenAIは、ChatGPTに新たな音声と画像の機能を追加することを発表しました。これにより、ユーザーはテキストだけでなく音声でも対話を行うことができるようになります。音声機能は、テキストから人間らしい声を生成するテキスト音声合成モデルによって実現されています。このモデルは、声優と提携し、5種類の異なる声を作成しています。また、ユーザーは画像を用いてChatGPTに質問することも可能です。たとえば、写真をアップロードしてChatGPTにそれが何であるか説明してもらったり、目標の達成方法を教えてもらったりすることができます。これらの新機能は、有料のPlusとEnterpriseのサブスクリプションユーザー向けに2週間以内に提供される予定です。ただし、音声機能は最初はChatGPTのAndroidとiOSアプリでベータ版として提供され、画像検索は全プラットフォームでデフォルトで利用可能です。

引用元記事はこちら
OpenAI gives ChatGPT a voice for verbal conversations

error: Content is protected !!