語音互動和大資料對人工智慧有多重要?看了你就懂

​語音互動是機器人用來表達的出口,大資料是機器人用來更加準確判!

語音互動和大資料對人工智慧有多重要?看了你就懂

金融行業是大資料與人工智慧落地最具潛力的行業之一。金融行業是資料密集型行業,金融資料具有更高的實時性、安全性和穩定性的要求,結構化資料佔比高,應用場景廣泛。但與此同時,金融行業還有賴於利用第三方資料來為客戶提供更好的服務,自身業務特點也對金融資料的資料安全和個人隱私保護帶來了極大的困難,資料孤島現象嚴重,這也是為何聯邦學習首先在微眾銀行這樣的創新金融企業落地和開花結果的原因。

語音互動和大資料對人工智慧有多重要?看了你就懂

隨著深度學習神經網路的提出、演算法改善和算力的提升、以及大資料的廣泛應用,人工智慧迎來了一波新的高峰。2016 年的「人機大戰」AlphaGo 戰勝圍棋世界冠軍李世石,不僅展示了以大資料驅動的人工智慧的巨大潛力,也讓人們更加期待一個人工智慧在各行各業中得以實現的新時代的到來。

語音互動和大資料對人工智慧有多重要?看了你就懂

然而理想很豐滿,現實很骨感——在實際應用中,大多數應用領域均存在資料有限且質量較差的問題,在某些專業性很強的細分領域(如醫療診斷)更是難以獲得足以支撐人工智慧技術實現的標註資料。同時在不同資料來源之間存在難以打破的壁壘,「大資料」往往只是越來越多的「資料孤島」的總稱。

語音互動和大資料對人工智慧有多重要?看了你就懂

語言建模成功是有原因的!它是一項非常困難的工作,為了有機會解決這個難題,模型需要學習語法,語義以及某些世界常識。給定足夠的資料,大量引數和足夠的計算能力,模型就可以有不錯的學習成果。根據過往的實驗來看,語言建模比翻譯或自動編碼等其它預訓練工作更有效。

語音互動和大資料對人工智慧有多重要?看了你就懂

最近對人類語言的預測率失真 (PRD) 的分析 (Hahn and Futrell, 2019) 研究表明,人類語言和語言建模都具有無窮高的統計複雜性,但語言建模可以在較低層次上模仿逼近人類語言。這一觀察結果有兩個啟示:1)我們可以用相對較小的模型以獲得較為精準的結果;2)我們的模型有很大的拓展潛力。對於這兩種啟示,我們都有充足證據,我們可以在下一節中看到。

語音互動和大資料對人工智慧有多重要?看了你就懂

簡單的做法可以是在預訓練的模型之上新增一個或多個線性層,通常是在 Bert 基礎上增加。或者我們也可以使用模型輸出作為另一個模型的輸入。當目標任務需要預訓練的嵌入有一些互動作用但目前的預訓練模型執行不了時,這通常是有幫助的,例如以 BERT 為預訓練模型但需要詞彙表徵或建立跨句子關係模型。

語音互動和大資料對人工智慧有多重要?看了你就懂

我們希望這樣做的原因之一可能是為了適應結構不同的設定目標,例如一個具有多個輸入序列的任務。在這種情況下,我們可以使用預訓練的模型儘可能初始化結構不同的設定模型。

我們還可以應用於特定專案的修改,例如新增、跳過或連線或警示。最後,修改目標任務的引數可以透過在預訓練的模型層之間新增瓶頸模組 (介面卡)來減少需要精細調整的引數數量。

語音互動和大資料對人工智慧有多重要?看了你就懂

同時隨著大資料的發展,重視資料隱私和安全已經成為一種世界性的趨勢,而歐盟「資料隱私保護條例」(General Data Protection Regulation,GDPR)等一系列條例的出臺更是加劇了資料獲取的難度,這也給人工智慧的落地應用帶來了前所未有的挑戰。