AIで4000種類の言語を認識する！ – Meta社の Massively Multilingual Speech

Image Credit:Meta’s open-source speech AI recognizes over 4,000 spoken languages

Meta社は、AI言語モデルを開発し、4000以上の話される言語を認識し、1100以上の言語に音声合成を実現することに成功しました。このMassively Multilingual Speech（MMS）プロジェクトは、AIの開発において重要である、種々の言語多様性を維持することを目的に、オープンソース化されました。MMSの開発にあたっては、聖書などの翻訳された宗教的なテキストの音声データを使用することで、大量の音声データを収集することができました。しかし、このアプローチが、キリスト教的視点に偏りをもたらさないかという点については、Meta社は、コネクショニスト時間分類（CTC）アプローチを採用したことにより、偏りがないことを説明しています。Meta社は、このモデルが更なる開発や改善のためにオープンソース化したいと考えています。Meta社は、「テクノロジーは、言語を削減するではなく、人々が自分の母語を話して情報にアクセスすることによって、複数の言語を学ぶことを奨励することができる世界を想像しています」と述べました。

Pexelsによる写真提供

Meta社が新たなAI言語モデルを作成した。同社の「Massively Multilingual Speech (MMS)」プロジェクトは、4000以上の話されている言語を認識し、1100以上の言語を音声合成することができる。MMSは既存の多様な言語を学習素材に含め、多言語音声モデルを開発した。また、MMSのモデルとコードを公開し、世界中の言語多様性を保護し、維持することを目的として、研究者たちに貢献することを期待する。MMSの音声認識モデルと音声合成モデルは、CTCアプローチを使用しており、聖書のような文書の音声を使用することで、より多様な言語に対応している。ただし、名詞等の翻訳における語の誤訳のリスクもあるため、技術の開発にあたっては、AIコミュニティ間の協力が必要であるとしている。

引用元記事はこちら
Meta’s open-source speech AI recognizes over 4,000 spoken languages

月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

AIで4000種類の言語を認識する！ – Meta社の Massively Multilingual Speech

Related Post

革命的AI登場！WWDC24開始

ウェブ３に特化した投資会社、Borderless CapitalがCTF Capitalの買収を発表

ウェブ3投資ファンドがCTF Capitalを買収　- ラテンアメリカに拠点を拡大

You missed

開発者に朗報！　AppleのWWDC 2024の詳細が公開中

YouTubeの新アップルデベロッパーアカウントが登場

革新的なコーディングプロジェクト探し

革命的AI登場！WWDC24開始