Image Credit:Meta’s newest dataset will train speech recognition engines on ‘clusters’ of speakers

2023年においても、モバイルデバイス上の合成アシスタントは、2011年とほとんど同じく、ほとんど聞き取ることができません。しかし、Meta AIが開発した新しいデータセットは、発話レベルで音声をクラスタリングすることで、自動音声認識(ASR)ツールの性能を向上させることを約束しています。

従来のデモグラフィックに基づくデータセットでは、年齢層や性別、国籍、英語のアクセントなど、人々の発音のバリエーションを制限する傾向があり、幅広いユーザーの理解に制約をもたらしていました。Meta AIはそれに対処するために、代わりに発話クラスタリングの手法を開発しました。この手法では、異なる話者グループから似たような発話を含む単一のクラスタを作成し、さまざまなクラスタを使用してモデルを訓練し、公平性のデータセットを使用してモデルが異なる人口グループにどのように影響を与えるかを測定することができます。

Meta AIが作成したデータセットには、595人の有料のアメリカのボランティアから収集された約27,000件のコマンドの発話が含まれています。これらの発話は、音楽、キャプチャ、ユーティリティ、通知制御、メッセージング、通話、および書き取りなどの7つの主要なテーマに関連しています。他の研究者は、これらの発話を使用して独自のモデルやデジタルアシスタントを訓練することができます。例えば、曲を検索する方法や友達と計画を立てる方法、どこで会うかを尋ねるなどのプロンプトが含まれています。

この新しいシステムの評価のために、Metaはまず、公開されている英語のFacebookの動画を使用してモデルを訓練しました。研究者は次に、評価用のデータセットとして、Metaが2021年に公開した「Casual Conversations v1」と、音声発話48,000件を含むデータサプライヤーから収集された「匿名化されたデータセット」を使用して、そのモデルを評価しました。

初期の結果は有望であり、「評価データセットのすべての人口グループにおいてモデルのパフォーマンスが改善されましたが、特にアクセントの包括性が向上しました」とブログには記載されています。発話のクラスタリング手法を使用することで、ASRのパフォーマンスは全体で10%向上し、年齢が66歳から85歳の層でも大きな改善が見られました。これは、従来の声コマンドの領域で代表されなかった人口統計グループです。

研究者は、「当社の提案されたアルゴリズムは、Metaの責任あるAIに向けた長期的な取り組みの一環であり、公正性の問題に対処するために総合的なアプローチの一部に過ぎない」と述べています。今後は、チームは他の言語へのシステムの適応を検討しています。


Pexelsによる写真提供

2023年ですが、AIシステムの進化にもかかわらず、モバイルデバイス上の合成助手はまだ2011年の時と同じくらい聞き取りにくいという問題があります。しかし、Meta AIが開発した新しいデータセットが、発話単位で音声をクラスタリングすることで、自動音声認識(ASR)ツールの性能向上を約束しています。

Metaは、トランスクリプトの支援なしにトレーニングすることで、4,000以上の話される言語を認識したり、人間の専門家よりも高いリップリーディングの能力を持つASRの性能向上を目指してきました。ただし、ASRモデルのトレーニングに使用されるデータセットの多くは、年齢層、性別、国籍、英語のアクセントなどの人口統計学的な情報に基づいて組織されており、発音のバリエーションが制限されるため、様々なユーザーを理解する機能を妨げています。

Meta AIは、これを解決するために、発話のクラスタリング方法に依存するデータセットを開発しました。「スピーカーの人口統計情報に基づいてデータセットを分割する代わりに…、提案されたアルゴリズムは発話のレベルで音声をクラスタリングします」とMeta AIチームは水曜日のブログ投稿で説明しています。「1つのクラスタにはさまざまなスピーカーからの似たような発話が含まれています。その後、異なるクラスタを使用してモデルをトレーニングし、公平性のデータセットを使用してモデルが異なる人口統計グループにどのように影響を与えるかを測定することができます。」

Metaが開発したデータセットには、595人の有料アメリカのボランティアから収集された約27,000のコマンド発話が含まれています。これらの発話は、音楽、キャプチャ、ユーティリティ、通知制御、メッセージング、通話、音声入力という7つのメインテーマを中心に展開されており、他の研究者はこれを使用して自分自身のモデルやデジタルアシスタントをトレーニングできます。発話者には、曲を音声検索する方法や友人との予定を立てる方法、どこで会うかを尋ねるような指示が含まれています。

この新しいシステムを評価するために、Metaはまず、公開されている英語のFacebook動画でモデルをトレーニングしました。その後、Casual Conversations v1(2021年にリリースされた)とASRのための匿名データセット(867人の個人からの48,000の発話を含む)の2つのデータセットを使用してそのモデルを評価しました。

初期の結果は有望であり、「評価データセットのすべての人口統計グループでモデルのパフォーマンス向上が見られましたが、アクセントの包括性に関しては大きな進歩がありました」とブログには述べられています。クラスタリングの方法を使用することで、ASRのパフォーマンスが10%向上し、年齢層66〜85歳の人々からも大きな進歩がありました。これは、音声コマンドの分野では伝統的に内包率の低い人口統計グループです。

「私たちの提案されたアルゴリズムは、Metaの責任あるAIに対する長期的な焦点の一部であり、公平性の問題に対処するための包括的なアプローチの一部に過ぎません」と研究者は書いています。今後は、チームはこのシステムを他の言語にも適応することを検討しています。

引用元記事はこちら
Meta’s newest dataset will train speech recognition engines on ‘clusters’ of speakers

error: Content is protected !!