語音互動和大資料對人工智慧有多重要？看了你就懂

語音互動是機器人用來表達的出口，大資料是機器人用來更加準確判！

金融行業是大資料與人工智慧落地最具潛力的行業之一。金融行業是資料密集型行業，金融資料具有更高的實時性、安全性和穩定性的要求，結構化資料佔比高，應用場景廣泛。但與此同時，金融行業還有賴於利用第三方資料來為客戶提供更好的服務，自身業務特點也對金融資料的資料安全和個人隱私保護帶來了極大的困難，資料孤島現象嚴重，這也是為何聯邦學習首先在微眾銀行這樣的創新金融企業落地和開花結果的原因。

隨著深度學習神經網路的提出、演算法改善和算力的提升、以及大資料的廣泛應用，人工智慧迎來了一波新的高峰。2016 年的「人機大戰」AlphaGo 戰勝圍棋世界冠軍李世石，不僅展示了以大資料驅動的人工智慧的巨大潛力，也讓人們更加期待一個人工智慧在各行各業中得以實現的新時代的到來。

然而理想很豐滿，現實很骨感——在實際應用中，大多數應用領域均存在資料有限且質量較差的問題，在某些專業性很強的細分領域（如醫療診斷）更是難以獲得足以支撐人工智慧技術實現的標註資料。同時在不同資料來源之間存在難以打破的壁壘，「大資料」往往只是越來越多的「資料孤島」的總稱。

語言建模成功是有原因的！它是一項非常困難的工作，為了有機會解決這個難題，模型需要學習語法，語義以及某些世界常識。給定足夠的資料，大量引數和足夠的計算能力，模型就可以有不錯的學習成果。根據過往的實驗來看，語言建模比翻譯或自動編碼等其它預訓練工作更有效。

最近對人類語言的預測率失真（PRD）的分析（Hahn and Futrell， 2019）研究表明，人類語言和語言建模都具有無窮高的統計複雜性，但語言建模可以在較低層次上模仿逼近人類語言。這一觀察結果有兩個啟示：1）我們可以用相對較小的模型以獲得較為精準的結果；2）我們的模型有很大的拓展潛力。對於這兩種啟示，我們都有充足證據，我們可以在下一節中看到。