借鑑人類，跨越模態 | NLP和預訓練模型未來的發展之路

整理 | 李佳倫、戴一鳴

責編 | 戴一鳴

近來，超大規模預訓練模型快速發展，在自然語言處理領域引起熱議。基於深度學習的自然語言處理技術正沿著“極大資料、極大模型、極大算力”的軌道，“無所不用其極”地一路奮進。

在8月28日舉辦的

“第六屆語言與智慧高峰論壇”

中，來自

百度技術委員會的吳華、華為諾亞方舟實驗室的蔣欣、中科院自動化所的張家俊

做主題演講報告，針對預訓練模型和自然語言處理領域的發展進行了評價。

吳華認為，藉助人類天生魯棒的學習機制，或將為解決NLP領域的困境提供思路，甚至構建一種兩層的高效學習機制；

蔣欣認為，預訓練模型的持續發展，或將解決因果、網路、安全、公平、多模等方面的問題；

張家俊團隊研究了預訓練模型在中文領域的應用，探索了任務敏感的預訓練模型和圖文音三模態預訓練方面的工作。

NLP的未來可能進化

- 直覺和理性的融合 -

講者：吳華，百度技術委員會主席

大家好，我演講的題目叫做：

《NLP的未來可能進化：直覺和理性的融合》

，藉助人類的這種神經網路的初步研究結果，其實人類的大腦機制也不是成熟的，但是從現有的研究結論來看的話，大概有幾個基本的結論：

人類具有

“天生”魯棒

的學習機制。人類具有“天生”先進的並行框架和機制；具有meta-learning的學習機制，相對漫長的童年期，使得人類具備規劃、推理和語言能力；知識和文化透過文化能被傳承。

人類能夠透過

“後天”與環境的互動

來提升能力。“後天”童年期的元學習機制非常重要，人類可以透過與環境不斷互動來建立和強化神經元連線；透過“後天”學習獲得知識。

文字相當於是大腦的

外存

。文字是知識和文化傳承的重要載體。

1.人類語言學習和NLP處理機制之間的類比

除了天生魯棒的機制以外，（人類大腦）後天是透過跟環境互通來提升能力。人類的智力除了有“天生”的能力，還有“後天”學習的能力，大腦神經元的建立、連線方式、連線強度可以透過“後天”不斷地與環境互動獲取和提升。

現在我們說超大規模預訓練模型，如GPT-3的引數很大，但人類的智慧，或者說動物界的智慧，也是和大腦皮層的神經元數量是相關的。

如圖，從左到右依次為水豚、恆河猴、大猩猩、人類、非洲大象的大腦。人類大腦的體積雖然不是最大的，但大腦皮層的神經元最多。所以這也說明，GPT-3神經元數量變大後，泛化能力也變強，這其中有一些關係，這是認知科學的一些結論。

人類語言的學習方式是什麼樣的呢？首先有天生的能力，透過基因設定神經元連線的模式和學習機制，因為人的大腦是分割槽的，語言相關區有一種連線模式，同時有透過文字傳承的知識，這些都是剛才提到的天生相關的機制。後天透過面向任務的持續學習能力，使人類的能力進一步發展。簡單類比，相當於大規模神經網路的並行演算法和機制。

語言方面，人類大腦皮層神經元連線，對應於NLP中的自然語言處理預訓練；知識方面，人類社會透過文字傳承的知識，對應於NLP中的知識圖譜；後天學習方面，類似於人類面向任務的後天持續學習，對應於NLP中的各種任務：機器翻譯、對話、閱讀理解、創作等。

目前NLP大規模預訓練模型取得的一些共識，是透過一個預訓練的模型，面向任務做小樣本學習、零樣本學習以及微調，可用於各行各業。大模型最重要的優勢是表明進入了大規模可複製的工業落地階段，只需小樣本的學習也能達到比以前更好的能力，且模型引數規模越大這種優勢越明顯。

2.當前NLP面臨的一些困境

人類思維有兩個系統，一個是直覺系統，另一個是理性推斷系統。而神經網路中的模型只是學到了資料中的模式，很難做到規劃、推理和決策，這樣的模型在應用中是有魯棒性、可解釋性和泛化性的問題。

魯棒性較差。例如，對原句做一點擾動，模型的預測就會變得不準確了。由神經網路模型的attention資料，會發現模型不能學到這些對label產生重要影響的證據。

可解釋性較弱。如上圖，做不同的擾動如錯別字或增加了一些字，就會錯判成負向情感了。因此，即便能找到一些證據，對證據的解釋性是比較差的，這也是跟魯棒性相關的。

缺乏基本常識，對於人類小孩都知道的一些常識，機器的表現並不好。

可控性差，知識準確率低。在生成模型中，知識準確率比較低，張冠李戴的知識非常多，而且非常不可控。

3.可能的解決方案

我們做了很多實驗來尋求未來可能的解決方案。比如說很多老師提到的句法知識，用句法知識加強attention後，在語法檢查、CLUE等小型資料和小模型上表現得非常好。

另一個可能的解決方案是跨模態

，

因為自然語言是離散的，但人類在學習語言的時候和物體及概念有對應，我們期待能用同一個模型學習跨模態的表示或者獲得相應的常識。

第三個是高效的學習機制

，

第一層是進化學習，模擬人類的長期進化機制。內層是和環境互動後天適應的快速學習機制。現在也有學者用進化學習機制及彈性可塑性規則來學習，這種方式跟神經網路的反向傳播不一樣，它很經濟，不需要很多資料。

基於兩層學習機制，對於語言學習是可以有直覺與理性結合

，

理性是一個high-level，粗粒度policy的決策機制；而細粒度的，比如直覺性強的、隱性的可以用神經網路來解決，這些我們已經在對話系統中有一些驗證。謝謝。

預訓練模型能否替代符號計算模型？

講者：蔣欣，華為諾亞方舟實驗室資深研究員，

語音實驗室主任

1.深度學習技術的發展現狀

深度學習的技術，有很多的進展，不光是模型的規模方面。當然，大模型有足夠的容量去表達比較複雜的語義關係操作。同時，預訓練的學習方式，能夠部分解決資料需求的問題，因為它有可能見過大部分的資料。此外還能解決一些OOD的問題。

剛才吳華老師提到語言學習的問題，現在有很多演算法，然後來做這個比較快速的adaptation，解決一些小樣本的問題，當然這個都沒有完全被解決，但是已經看到很多這樣的方法。

從網路本身來講，神經網路的模組化，能夠部分解決可解釋性和可複用的問題，但是怎樣理解可可解釋性本身是一個問題。大家可能會強調 Module and network，就是說網路中的不同的部分，負責不同的功能，透過不同方式去訓練它，可以解決一些問題。

還有各種各樣的最佳化演算法，不光是 back propagation，假如說要最佳化一些不可微的東西。網路本質上是一個可微的函式，有強化學習、黑盒最佳化、搜尋規劃、對抗訓練等方面，使得模型的最佳化的難度下降。

有人會擔心神經網路太大，推理成本很高，但也有壓縮、加速、蒸餾、量化、剪枝等執行效率看起來也不是太大的問題。

未來，深度學習模型越來越具備解決這種符號AI的經驗問題，或者是推理方面的System Two問題，然後包括數學、推理、程式碼生成等。下面進行一些簡單的介紹。

2.深度學習模型在解決符號AI方面的案例

推理有很多種，包括定理、證明、應用、幾何、三角函式等。去年OpenAI的一個工作，用的就是GPT-3來做定理證明，大概的思路和AlphaGo是一致的，即learning和search。然後會進行預訓練，讓模型更好地理解數學公式。然後做 one-step reasoning，透過逐步演進的搜尋的方法接近證明目標。

結合搜尋的方法，可以給 policy的learning或者是one-step reason提供更多的樣本來學習，最終其實可以達到比符號方法好很多的證明效率，大概40%多。應用題相對簡單，根據給定的一段話，形成一個表示式，然後把它解出來。

今年我們做的一個工作，基於pre-training，採用BART模型，如果擔心decode的結果不太對，可以再做一個ranking，然後同時學這樣的function。另外還需要線上下做很多的這種data obtation，使得不斷的讓ranker去見到正確和錯誤的例子，結果更好。

另外是大家可能會經常說的符號的問題。在程式碼的理解和生成方面，神經網路現在已經做得很好了，OpenAI就做了copilot和codex，可以把自然語言指令翻譯成一段程式碼去執行，都是非常近期的一些工作。谷歌也提到了類似的工作，透過研究發現模型的規模越大，生成程式碼完成任務的比率就更大。

當然並不是每一次生成的結果都能用，這種測試是取樣80次，其中有一次或兩次成功就可以。同樣的，利用程式碼生成的經驗也可以解決數學問題，因為數學問題也可以轉化成一段程式碼。所以透過這些案例，我們可以看到，預訓練語言模型有非常足夠的能力去解決一些看起來非常推理化的問題。

這是我們最近做的一個工作，把抽象語法樹加到程式碼裡，包括程式碼的comments一塊去做pre-training。如果想從各種角度讓這個模型更好地理解程式碼，更好地理解它的結構，它的關係，以及誰是變數，誰是是常數。如果這些能分清楚的話，他就會更好地理解code，結果也是不錯的。

3.未來的發展趨勢

最後總結一下，去年的某個時候我們聽到周志華老師工作叫做

反譯學習

，就是說訓練一個神經網路的分類器，然後有一個knowledge reasoning模組，對分類結果進行分析和推斷，找出裡面不太一致、不太合適的地方，然後從而去反饋到他，在內部改掉，然後再重新訓練分類器，可以進行這樣的一些迴圈。

本質上來說，用符號的系統是可以對神經網路進行資料增強或者資料修改，訓練神經網路系統。去年朱松純老師的團隊有做過一個工作，是根據反譯學習的思路來做手寫的公式識別，非常清晰地驗證了這套方法可行性。

這是我最終擴充套件的一個版本，最終是要用神經網路搜尋的事，但是可以用符號模型為它從各種角度提供資料，比如說預訓練的資料等，透過pre-training就可以學到很多這樣的知識，然後你可以用符號模型去特定到一些任務上去微調。在這裡的訓練並不需要一定是訓練整個大模型，可能只是訓練模型中很少的一部分引數，所以並不一定會非常貴。

此外，當去面對一些不太可能求導的目標的時候，是可以利用這種搜尋和強化學習的方法去學習的。另外說可能大家還關心一些別的東西，比如因果、網路、安全、公平、多模等，這些都可以用資料增強的方式去影響神經網路，然後去訓練一個模組化的神經網路大模型。

如果有比較靠譜的模型，結合模型小型化的技術以後，就可以把它放在具體任務上了。這可能是一個趨勢，一個未來的模式。

從中文GPT實踐的角度看NLP通用模型

講者：張家俊，

中科院自動化所模式識別國家重點實驗室研究員、

智源青年科學家

剛才各位老師介紹了，一些推理系統、認知系統以及神經網路之間的結合。我這裡主要談一談現在大家關注的NLP通用模型的情況。

1.什麼是NLP通用模型

下面先介紹什麼是NLP通用模型，我從維基百科上面找到了這樣一個定義：人工智慧的通用模型或者說通用人工智慧，實際上是一個智慧體能夠理解和學習人類能夠完成的任何智力任務。

把它類比一下，我理解的NLP通用模型是，一個智慧體能夠理解或學習人類能完成的任何語言處理任務。

現在我們希望或是假設智慧體是通用預訓練模型，“任何”這個詞語相對來說太苛刻了，我們希望把它弱化成“很多”，也就是說我們現在希望看到NLP通用模型，希望一個模型能夠完成很多功能。

在我的理解當中，通用模型能夠完成的功能多，但並不是每一個功能都是最好的。現在的預訓練模型有很多：從雙向的BERT，到單向解碼的GPT，到sequence to sequence的BART、T5等等。

跟大家彙報這個工作是希望能探討兩個問題：（1）現在的預訓練模型是不是足夠通用，也就是說一個模型能夠完成很多NLP的任務嗎？（2）怎樣才能夠獲得更加通用的訓練模型呢？

2.預訓練語言模型完成NLP任務的正規化

對於第一個問題，我們先看看現在的預訓練模型是怎麼在下游NLP任務中利用的。

一種方式是fine-tuning，即每一個任務來了，用這個任務的少量資料fine-tuning一下，得到一個新的模型來完成這個任務，每一個任務都做相同的操作。

另一種預訓練模型是最近一兩年由於GPT-3出來之後興起的，是用prompt的方式，即給出預訓練模型的提示語，讓提示語從預訓練模型裡面誘匯出來完成每一個NLP任務。

可以注意到，fine-tuning的方式是每一個任務都要對應一個模型，我覺得它是不那麼通用，也不是那麼的綠色環保。prompt的方式是想從預訓練模型中，透過提示學習到一個通用的模型，這可以用一個模型實現不同的任務，它是通用、綠色環保的。

為了驗證這個問題，我們訓練了三個模型，在海量的中文資料上面，分別訓練了1億、20億、30億引數的模型，表格中是一些具體的引數設定和訓練方式。其中30億引數的模型，我們最近會釋放出來給大家使用。

3..預訓練語言模型通用嗎‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

我們用一些語言生成和理解的例子來看一看。K=0表示只是告訴GPT模型要做什麼任務，但是不告訴它怎麼去做。K=1表示會給這個模型一個做任務的例子，讓這個模型學習該怎麼去完成這個任務。

綠色的是提示詞，當沒有提示詞即沒有樣例而只知道要做什麼任務時，模型其實做得很不好。給它一個樣例或者多個樣例之後，模型做得會越來越好，它知道怎麼去完成這個任務，而且它的泛化能力也會變得越來越好，但它不知道什麼時候結束，這是生成的問題。

在理解任務上也有相似的問題，比如怎麼判斷兩個句子是不是相關的。當我們給模型一個例子，告訴它怎麼去完成這個任務的時候，他會越來越好。但是模型還是不知道怎麼結束，我們定量地分析了一下，發現給的樣例越多，模型分類的準確率也就越高，這是在32億引數的模型上進行的實驗。

我們發現如果給模型較多的樣例之後，效能也會逼近微調小模型的效能，說明這是一種比較好的通用方式，能一個模型完成多個自然語言處理任務。

我們對比了一下模型大小對於效能的影響，我們同時用了一個生成任務和一個理解任務。生成任務是作詩。

我們發現如果模型比較小時，比如每一個都給出一個樣例的話，它只是去複製。而當我們採用32億引數的模型的時候，相對來說模型就具備了一定的生成能力和創作能力。

與生成任務相似，比較小的模型做理解任務時，它不是去回答正面還是負面的，只是把提問複製過來了。

20億個引數模型時，它回答錯了。30億個引數模型時，它知道怎麼去做這個任務，而且回答正確的，但是仍然它也會出現一個問題——不知道什麼時候結束。

我們在某個語義相關性任務上對比了一下小模型和大模型的區別。我們發現具有相同的樣例作為字首的時候，模型引數量越大，預測的準確率也會越高。當然即使是具有比較穩定的32億引數的模型，它仍然有過度生成或者是無法判斷何時結束的問題。

那麼稍微總結一下，我們發現現在這種30億的引數模型，仍然需要若干樣例的提示才能做得更好，而且模型更多的是模仿而缺乏泛化，並且對任務的感知能力比較弱，模型不知道什麼時候該停止輸出。

另一方面我們發現預訓練模型的規模對下游的NLP任務的效能還是有很大影響的，但是不管任務的執行是否正確，我們發現對任務的感知能力仍然是大模型的一個問題。

4.探索1——任務敏感的預訓練模型

我們針對上面的一些實驗，進行了一定的探索和嘗試。

第一個探索是我們想結合兩個方式——

fine-tuning的方式和基於提示的用一個模型實現多個任務的方式

，提出了一個叫任務感知的預訓練模型。這是一個初步的嘗試，我們首先把所有的NLP任務都形式化成語言模型的問題，然後讓它作為一個生成的問題。

同時因為我們要讓他具有任務的感知能力，需要讓他知道什麼時候該結束，什麼時候該完成什麼任務，所以我們在多工fine-tuning的時候，提出了一個叫任務感知的自注意力機制。也就是說在學習的時候，我們顯式地將任務資訊加入進來，幫助去提升這個任務的感知能力，讓其知道該什麼時候去完成這個任務，什麼時候去結束。

我們在這個模型的基礎上做了一點嘗試，當然我們這裡面用的還是比較小的模型——1億的模型，我們一方面是在單個任務上進行各個任務的微調，另一方面是採用我們的方法。

相比於單任務微調，每個任務都是一個模型。我們只用一個模型就能完成多個自然語言處理任務，而且很多時候能夠在這些任務上面超越單任務微調的效能，但是還是仍然會存在一些過度生成和內容重複的問題。

比如說這裡面有一些例子，確實回答的是比較準確，但是後面有一些無關的內容的生成，這就是我們的這樣的第一個嘗試。

5.探索2——圖文音三模態預訓練模型

第二個嘗試，因為語言其實在真實世界當中是離不開語音和視覺資訊的，我們覺得要完成自然語言處理的通用模型的話，應該要實現圖文音三模態的預訓練模型。本人所在的中科院自動化所也做了一定的嘗試，實現了一個叫圖文音的三模態預訓練模型。這三個模組可以單獨地進行編碼和解碼，只是在中間用一種跨模態的機制去實現不同模態的融合和語義的對齊。

這是我們做的一個demo，這個demo可以把圖文字語音都結合在一起，它能夠完成不同模態的理解和轉換以及生成，譬如說圖文問答、圖音問答、影片理解、做詩、中文續寫等等。

最後簡單總結一下，我們透過一些中文GPT模型實踐發現，目前的預訓練語言模型通用性較差、缺乏任務感知能力，尤其不知道何時停止輸出；另外，模型規模越大，下游NLP任務效能越好，但任務感知能力仍然不足。在提升模型通用性方面我們做了兩點嘗試，一個是任務感知的預訓練模型，一個是圖文音多模態預訓練模型（我們認為是邁向通用NLP模型的可能途徑之一）。