熱門焦點鐵殼味

不用翻譯蒟蒻！Meta透過 AI 科技保存全球語言多元性

2023-05-232023-05-23 Pan Miao 《新約聖經》, 《聖經》, AI, AR, Massively Multilingual Speech, Meta, MMS, VR, 大規模多語言語音模型擴展文字轉語音, 擴增實境, 虛擬實境, 語音轉文字技術

世界上許多語言正面臨消失的危機，而現有的語言辨識與生成技術上的限制更加快此趨勢。Meta 今日發表一系列的 AI 模型，希望藉此幫助大家以自己習慣的語言，更輕鬆地獲取資訊及使用電子裝置。

支援數千種語言

Meta 的大規模多語言語音（Massively Multilingual Speech，或簡稱為 MMS）模型擴展文字轉語音及語音轉文字技術的應用範圍，從最初的 100 種語言，至今已可轉換超過 1 千 1 百種語言，超越過去的 10 倍，此外，還能夠辨識超過 4 千種口語語言，是過去的 40 倍。

這項技術已有許多應用案例，從 VR、AR 至訊息服務，不僅能夠使用偏好的語言操作，更可理解出每個人的聲音。Meta 將開源這項技術的原始碼及模型，讓研究社群能夠以現有的工作成果為基礎繼續開發，一同保存全球的語言，並拉近人們之間的距離。

Meta 的大規模多語言語音模型擴語音技術的應用範圍，從 100 種語言，至今已可轉換超過 1 千 1 百種語言

開發方式

過去最大型的語音資料庫最多僅涵蓋 100 種語言，因此開發此技術所面臨的第一個挑戰即為「蒐集數千種語言的語音訓練資料」。為了克服這項挑戰，Meta 使用已翻譯成多種語言、譯文已被廣泛閱讀及研究的宗教經典，例如《聖經》，作為語言的文字訓練資料。

聖經譯文有多種語言的公開錄音檔，作為大型多語言語音模型計畫的一部分，Meta 創造的資料集，蒐集超過 1 千 1 百種語言的《新約聖經》有聲讀物資料集，平均為每種語言提供 32 小時的語音訓練資料，後續又加入其他未標註的基督教有聲讀物後，可用的語言訓練資料已涵蓋超過 4 千種語言。

雖然資料集收錄的聲音以男性居多，但測試成果顯示，不論是男性或女性的聲音，此語音模型皆能同等準確地辨識。此外，上述的語言訓練資料大多為宗教相關的內容，但我們的分析顯示，這並不會使模型傾向於生成出更多的宗教性質的語言。

持續往目標邁進

Meta 將持續擴增大規模多語言語音模型的涵蓋範圍，以支援更多語言的轉換及辨識，並努力克服現有語音技術難以處理方言的挑戰。

若欲瞭解更多關於大型多語言語音的資訊，請參閱此連結。

Meta 的大規模多語言語音模型（Massively Multilingual Speech AI）可辨識超過 4 千種口語表達的語言，辨識量是既有技術的 40 倍
此模型擴展文字轉語音及語音轉文字技術的應用範圍，從 100 種語言增加至 1 千 1 百種
此技術可用於 AR（擴增實境，Augumented Reality）及 VR（虛擬實境，Virtual Reality）應用，並以大家各自偏好的語言進行，也能理解每個人的聲音

史塔夫短評：用母語在虛擬世界與全世界的朋友自在聊天

分享這篇文章：

You May Also Like

剖析2018十大趨勢：按鍵開關將消失、機器人時代將來臨？

凱擘大寬頻製播媒體識讀節目讓大眾學習識別和質疑AI生成的假訊息

Meta生成式AI廣告工具全球陸續上線！Reels短影音成擴大受眾、強化品牌形象新利器