小方言也能用？新型語音識別模型能有多秀

隨著Siri等虛擬助手的普及，自動語音識別技術變得越來越普遍，但很多系統只能在世界上使用最廣泛的約7000種語言中發揮作用。這些系統在很大程度上並不適用於較罕見的語言。

最近研究人員有了新的進展能使機器學習模型能夠學習世界上罕見的語言，這些語言缺乏訓練演算法所需的大量轉錄語音。而且解決方案往往過於複雜和昂貴，難以廣泛應用。

研究人員現在已經解決了這個問題，他們開發了一種簡單的技術，降低了高階語音學習模型的複雜性，使其更高效地執行，達到更高的效能。

他們的技術包括去除常見但複雜的語音識別模型中不必要的部分，然後對其進行微調，使其能夠識別特定的語言。因為一旦較大的模型被縮小，只需要進行一些小的調整，向該模型教授一門不常見的語言的成本和時間要少得多。

這項工作可能有助於創造公平的競爭環境，並將自動語音識別系統帶到世界上許多尚未使用語音識別的地方。自動語音識別還可以幫助使用者學習新的語言和提高他們的發音技能。這項技術甚至可以用來轉錄和記錄瀕臨消失的稀有語言。

從音訊中學習語言

研究人員研究了一種強大的神經網路，叫做Wave2vec 2。0，這種神經網路經過預先訓練，可以從原始音訊中學習基本語音。神經網路是一系列可以學習識別資料模式的演算法；它們被排列成多層相互連線的節點，處理資料輸入。

wave2vec 2。0是一個自我監督學習模型。它在被輸入大量的無標記語音後可以學習識別口語，訓練過程只需要幾分鐘的轉錄演講。這為對罕見語言的語音識別打開了大門，這些語言缺乏大量的轉錄語言。（比如西非有500萬人使用的沃洛夫語）

然而，神經網路有大約3億個單獨的連線，所以需要巨大的計算能力來訓練一種特定的語言。研究人員開始透過修剪來提高這個網路的效率。

在對整個神經網路進行修剪以建立一個較小的子網路後，他們先用少量標註的西班牙語語音訓練該子網路，然後再用法語語音訓練該子網路，這個過程稱為微調。

“我們預計這兩種模式會非常不同，因為它們針對不同的語言進行了微調。但令人驚訝的是，如果我們對這些模型進行修剪，它們最終會得到高度相似的修剪模式。法語和西班牙語有97%的重疊。”

他們用10種語言進行了實驗，從羅曼語系的義大利語和西班牙語，到字母表完全不同的語言，如俄語和普通話。結果是一樣的——微調後的模型都有很大的重疊。

一個簡單的解決方案

利用這一獨特的發現，他們開發了一種簡單的技術來提高神經網路的效率和效能，稱為PARP （Prune， Adjust， and Re-Prune）。

在第一步中，像Wave2vec 2。0這樣的預先訓練的語音識別神經網路透過去除不必要的連線進行修剪。然後在第二步中，對生成的子網路進行特定語言的調整，然後再次進行修剪。在第二步中，如果已刪除的連線對該特定語言很重要，則允許它們重新增長。

因為在第二步中允許連線重新增長，所以模型只需要微調一次，而不是經過多次迭代，這大大減少了所需的計算能力。

測試技術

研究人員將PARP與其他常見的剪枝技術進行了對比，發現它在語音識別方面的表現優於其他所有技術。當只有非常少量的轉錄的語言來訓練時，這種方法特別有效。

他們還表明，PARP可以建立一個更小的子網路，可以一次針對10種語言進行微調，消除了為每種語言修剪單獨的子網路的需要，這也可以減少訓練這些模型所需的費用和時間。

接下來，研究人員希望將PARP應用於文字到語音模型，並看看他們的技術如何提高其他深度學習網路的效率。

資訊源於：MIT

別眨眼網