Image Credit:Meta’s open-source speech AI recognizes over 4,000 spoken languages

Meta社は、AI言語モデルを開発し、4000以上の話される言語を認識し、1100以上の言語に音声合成を実現することに成功しました。このMassively Multilingual Speech(MMS)プロジェクトは、AIの開発において重要である、種々の言語多様性を維持することを目的に、オープンソース化されました。MMSの開発にあたっては、聖書などの翻訳された宗教的なテキストの音声データを使用することで、大量の音声データを収集することができました。しかし、このアプローチが、キリスト教的視点に偏りをもたらさないかという点については、Meta社は、コネクショニスト時間分類(CTC)アプローチを採用したことにより、偏りがないことを説明しています。Meta社は、このモデルが更なる開発や改善のためにオープンソース化したいと考えています。Meta社は、「テクノロジーは、言語を削減するではなく、人々が自分の母語を話して情報にアクセスすることによって、複数の言語を学ぶことを奨励することができる世界を想像しています」と述べました。


Pexelsによる写真提供

Meta社が新たなAI言語モデルを作成した。同社の「Massively Multilingual Speech (MMS)」プロジェクトは、4000以上の話されている言語を認識し、1100以上の言語を音声合成することができる。MMSは既存の多様な言語を学習素材に含め、多言語音声モデルを開発した。また、MMSのモデルとコードを公開し、世界中の言語多様性を保護し、維持することを目的として、研究者たちに貢献することを期待する。MMSの音声認識モデルと音声合成モデルは、CTCアプローチを使用しており、聖書のような文書の音声を使用することで、より多様な言語に対応している。ただし、名詞等の翻訳における語の誤訳のリスクもあるため、技術の開発にあたっては、AIコミュニティ間の協力が必要であるとしている。

引用元記事はこちら
Meta’s open-source speech AI recognizes over 4,000 spoken languages

error: Content is protected !!