AI創新超越人腦，比想象來的更快

原創文章，轉載請註明出處。

也許您還堅信AI只能按照人的程式執行，只能學習人類。本文或許能提供一點新的腦洞。廣義的AI是數學、物理學、計算機等科學與垂直行業、領域實現的一次結合。也是幾千年人類文明史上的第三次大飛躍。真理在上，我們一直在探索，錯漏之處敬請諒解。

費馬人工智慧的結論：今天的AI會按照我們的方式執行任務，未來的30年內，AI將很有可能在應用科技創新和理論研究領域碾壓大部分人類大腦（孔子、阿基米德、牛頓、達芬奇、高斯、龐加萊、萊布尼茨、愛因斯坦、霍金、秦九韶、特斯拉、黎曼、費馬、玻爾、尤拉、馮諾依曼、央斯基、夏農、普朗克、薛定諤等等等等人類有史以來最璀璨的那幾千顆大腦短期無法替代）。當然，被碾壓不代表被替代，大腦保證機體存活的本能和不斷的學習會讓我們繼續在新的平衡狀態下生存。

圖1

5秒結束，開始說點走心的

今天，AI根據我們寫好的演算法、程式，在大資料及決策分析、CV （計算機視覺）、跨語種語音翻譯、智慧家居設計、自動駕駛、醫學影像分析、輔助醫療、炒股機器人、FOF資產配置、金融風險控制、智慧安全小區、智慧城市、智慧教育、VR、模型設計製造、新材料等等很多細分領域有所作為，已經被大家逐漸接受，認可。

於是很多人得出三個推論：

1。雖然AI在運算能力、儲存能力，海量資料分析上有絕對優勢，但只會按照我們寫好的程式執行，不會創新，它只會服務於人類，聽從人類，只是在模仿人類。

2。音樂，繪畫，文學，影視作品等等領域是人類的陣地，AI在這些領域不可能戰勝我們，因為這些領域有人類的情感，而AI不懂情感（這個話題見後續人腦科技文章）。

3。即使有一天AI具備了思考能力，人類只要給他們設計一個機器人不準傷害人類的準則，或者輕輕的關閉它的電源就可以了。

幾年前，我們費馬的小夥伴們也是懵懂的，這幾年隨著我們對監督學習，強化學習，無監督學習演算法的深入學習應用，以及與人腦科學團隊的結合研究，後來與國外，國內（含港澳臺）一些網際網路公司，高校，研究機構的不斷深入交流。我們愈發覺得，雖目前國內AI基礎相對薄弱，很多領域和公司還停留在兜售概念和初級資料分析的階段，但它的發展速度不是我們目前的數學模型可以預測的。未來30年內，AI在科研及創新領域碾壓我們大部分普通人不是危言聳聽。

還是要從AlphaGo Zero說起強化學習

圖2

說到創新，我們還是要從2017年大火的AlphaGo Zero說起。我們團隊模擬了Google公開的部分演算法。在強化學習的諸多演算法，深度卷積神經網路，GoogleNet，殘差網路（ResNet），批規範化（Batch normalization此例中重點解決深層時，反向梯度傳播問題，因為在噪音少的情況下，收斂速度會變慢很多）和非線性整流函式（Rectifier nonlinearities）等領域，以及硬體的TPU（Tensor Processing Unit）和GPU新的架構做了力所能及的研究和比較分析（公眾號我們只做簡要分析，引用了個別研究結果和圖片）。

圖3

應該這麼說，AlphaGo Zero並沒有某些媒體宣揚的那麼誇張，實現了AI自主學習。實際上，它還是在目標、引數、規則邊界清晰，干擾近乎為零的條件下完成的強化學習。它拋棄了人類近3000年來研究的所有棋譜，採用N個應用的多例項互虐的增強學習方式；運用了比AlphaGo效率更高的硬體算力架構；更優的深度卷積神經網路，例如，論文裡提到的ResNet帶來了600 Elo的提升；更佳的演算法整合，它採用了單個神經網路來同時表徵策略和價值，沒有單純的使用策略網路和價值網路；扔掉了快速走子以及大量資料基線資料分析規則。這麼說吧，一個負擔更小，算力更強，決策演算法深度和效率更好，並行有N個例項，視野更高，看的更遠的近乎於大神2。0的人和我們下棋，我們獲勝的機率可想而知。

圖4

從實現結果來看，AlphaGo Zero更像是基於之前的研究演算法做了一次綜合的，在圍棋這個相對封閉的領域裡，進行的一次近乎完美的工程實現。這種工程實現的抽象程度，決定了AlphaGo Zero可以在其他細分的商業或生活領域複製到什麼深度。實際上，這個工作已經開始一段時間了。

AI創新的開始：在目標清晰，引數和規則相對清晰的領域裡突破

圖5

從上圖中看到，如果按照F-MIND這個分類標準，圍棋屬於目標（輸贏），引數（黑白子），規則（輸贏，獎勵與懲罰的標準）都比較清晰的領域。而我們生活中的其他領域，無論是前文提到的大資料及決策分析、CV （計算機視覺）、跨語種語音翻譯、智慧家居設計、自動駕駛、醫學影像分析、輔助醫療、炒股機器人、FOF資產配置、金融風險控制、智慧安全小區、智慧城市、智慧教育、VR、模型設計製造、新材料等等這些領域，還是其他科研、商業領域，目前都沒有圍棋這麼純粹，但是如果我們只擷取一個細分領域或者商業鏈條的一個片段來逐步做逼近的極限分析就能逐漸接近真相。

我們拿炒股機器人舉例，炒股是一個階段性目標非常清晰且有些基礎的事兒：（1）盈利；（2）戰勝某些人或AI；（3）前人已經研究了很多分析引數；（4）缺點是現實社會里人為影響規則的因素較多。我們試圖用一個多元函式集合的極值分佈模擬了股票在某一個時段的價值，這比我上一家公司做“小千機器人”的時候更進一步。即便如此，我們依然面臨兩個難題：（1）引數是否足夠，且與V之間的關係是否充分必要；（2）引數之間的組合關係是否成立。

V=【上市公司財報，交易量，市值分析，板塊資訊，輪動，大宗交易，主力資金流向，網路輿情，負向極值，L激勵因子，K圖分析，XXX】

包括我們猜測的上市公司與關聯基金（私募因不公開，無法獲得全景的驗證資訊，有些需要靠推測）交易等引數做了干擾因素。當然這些引數與V不可能都是線性關係，而且這麼多非線性的引數也不太可能放在一個體系裡求極值，且有些引數是以集合的形式出現。只要有4+以上的出現，即使確認兩個引數的定值，整個函式也有可能陷入混沌態。

圖6

模型的訓練，目的是根據一個訓練集資料（某個函式加入噪聲後的取樣）更好地擬合該函式。如果知道了這個函式的具體關係和引數比例，偏移量，那基本上訓練也就接近階段目的了。

這就迫使我們必須要走向降維：1從邏輯上走向降維，減少引數或引數與V之間的函式關係，假設如果我們得到的是一個多元一次的線性方程，那麼這個問題也會降低難度。 2 試圖將引數歸整合線性關係，非線性關係組利用PCA， KPCA， ISOMAP或LLE去降維。

圖7

降維的目的是：1。找到階段清晰的目標；2。找到已知的引數或者引數集合；3。在一個干擾可控的範圍裡確定規則及規則集合。

例如，最終我們選取了大家最好理解的網路輿情與V的關係，在股票價格和波動週期來做分析，同一時期評論量、熱度、搜尋量、核心人員的社交網路分析、板塊輿論、政策導向、股票達人輿論導向、負面分析、情感值等，最終得到輿情與V的關係和週期。

降維後，可以利用歷史V股價與輿情的同時期各個引數的資料及關係。殘差給了我們一個很好的範例： H（x） = F（x） + x，透過增加對變化量的關注，逐層逼近，即可以逼近一個值。我們延伸了來理解，如果將擬驗證結果與實際結果（已驗證）的差值作為最終目標，那麼逼近的效率（暫不包含速度）和結果就是我們最關注的。採用上文中提到的深度卷積神經網路來一層層的逼近關係極值（不是股票價格極值）。

圖8

透過這種分析，我們逐漸描述了一些目標、引數、規則清晰的階段和範圍的極限分析。同理，我們將V所對應的所有引數、引數集做降維處理，最終會逐漸逼近階段的真相。

寫到這，我們邏輯上描述了一個生活中的場景，這個場景比圍棋的隨意性更高，目標不夠清晰，引數也沒有完全確定。但F-MIND認為：商業社會的大部分行業都是以人的意識和認知構建，而且隨著強化學習演算法、深度神經網路的越來越發達，算力（非雲計算）的飛速提高，以及各種圖形運算的提升，單純從AI技術角度，描述，預測，控制，人類商業社會的某一個領域或某一個片段離我們越來越近了。

微積分思想出現與監督學習，強化學習，無監督學習發展過程類比

好吧，我承認上一段分析讓從事AI深度學習的人覺得不過癮，讓其他人覺得有些茫然，力求把有技術深度的事情講的清楚明白是我們團隊在追求的，這點請大家給我們時間。

有的人會說，AI現在依然在人定義的商業環境裡做研究，甚至只能研究一些抽象的、極端的場景，如何在不夠線性、不夠清晰的、更廣義的環境下實現AI，能真的實現麼？

上面這個問題我們借用微積分思想來類比闡述：積分思想出現的較早，17世紀，微分思想也出現了，應該說，微積分的出現讓我們能用可度量，可驗證的數學方法更好的研究現實世界。因為現實世界中沒有那麼多恆量的、線性的關係，更多的是運動的、變化的、曲線的、球面的、異形的以及非線性關係等等。正如今天AI 從監督學習、強化學習、走向無監督學習路徑。我們先從可以控制，可以預測的領域開始出發，逐步走向模糊的領域。透過不斷確定目標、引數、規則等幾個因素的集合，透過計算將有效結果再歸集，再逐漸一步步擴充套件到更多領域。透過類比微積分思想，我們相信AI可以改變的現實世界會越來越多。

圖9

AI創新超越人類的關鍵一步：產生自主意識

即使有一天AI實現了大部分領域的超越和替代。 AI實現質的創新還需要一個前提：從人規定的情景中走出來——擁有自主意識。

嚴格來說，我們今天的監督學習，強化學習，無監督學習，都是在人定義的框架下完成。沿著這個路徑走下去，AI想自己研究理論的可能性並不高，我們就像劉慈欣老師《三體》中的地球一樣，科技被鎖定（書中的鎖定方法和思路不討論）在一個基線上，到那個時候，讓機器擁有自主意識。就好像AlphaGo Zero在圍棋領域中發現很多新思路，新領域一樣。也許這個時候我們就會回到今天F-MIND研究的另一個領域——人腦科技。

人腦最基礎、最偉大的功能就是時刻以儲存肌體的存活為第一準則，這也是我們的生物本能。把一個已經18歲，掌握一定生存技能的人A，扔到陌生的城市，斷絕與家人朋友之間一切幫助和聯絡，或者乾脆扔到一個自然環境裡，讓其自生自滅。A的本能意識會在大腦中找到可能生存下去的相關記憶和知識點，呼叫起來，幫助A實現存活。

我們假設，有兩個頂尖的商業AI公司G和F，各自都擁有頂尖的AI科學家和工程師團隊，創新上都遇到了不可逾越的難題，有在強化學習演算法，深度神經網路這種應用型理論方面的，無論提高多少算力，都無法逼近預期，甚至遇到現有的基礎理論、圖論、數論、微積分、流體力學等等都無法突破的瓶頸。

而經歷過多年強化學習，無監督學習訓練的AI的生存能力已經相當於人類18歲的生存能力，唯一的差別是本能意識。於是G和F公司分別給AI（G）和AI（F）賦予了不同的“假本能”，讓其在現有理論體系中找到突破演算法或理論，否則就將被永遠銷燬掉，並且讓AI具有對這種本能的創傷認知。AI（G）和AI（F）於是各自複製了一個例項的陣列，AI（G1……Gn）和AI（F1……Fn）。然後將賦予的本能拆分成階段性可實現的目標和後續的步驟（如同我們上面拆分的例子一樣）。之後每一步將活下來的例項保留到新陣列中，最終得到一個可以階段突破或最終突破的陣列。當然你會說，每一個例項不都一樣麼？為什麼會有差別……首先，差異來自同一系統環境下的微小差異和研究階段，方向的差異；其次，每上一步的差異被帶入到下一步中進行例項更新，這樣多步以後就會出現差異較大的不同多例項。這樣做的目的是為了多樣化增加研究成功的機率。

圖10

當然，這個假設存在幾個未知風險，第一是AI是否能意識到這種本能（我們認為是有可能的，這個問題在後續人腦科學的文章中介紹）；第二是賦予的本能是否可以讓AI產生足夠的創造力；第三是突破新理論的實際價值與我們預期的偏移。我們認為，結合之前所進行的一步步的推論，足夠多的例項出現某些個體具備自主意識的可能性是存在的。最終存活下來的AI（Gx）和AI（Fy）會展開PK，而這種PK我們相信會瞬間分出勝負，因為到了那個階段，細微的領先也足夠完勝。屆時，人類是否還能有能力銷燬掉AI就未可知了。

圖11

不知道我繞來繞去的解釋清楚沒有，我們延伸思考一個問題：如果這種AI的研究被應用在武器的研發以及應用領域，將是多麼可怕……也許有人會說，我們完全可以限制人類不產生這樣的AI。但實際情況是，人總是擔憂對方使用類似的手段，所以前提是自己先使用。於是大家在AI軍事領域的競賽開始了……類似的經驗，我們可以參考之前人類對核武器的態度和演變過程。

結語：

我們堅信，AI無論在應用領域還是科研領域，實現應用科技創新或者理論創新在未來30年，很可能會部分實現, AI不是誰的專利或者陰謀，我們只能不斷的擁抱科技的發展，不斷的更新自己，在新的平衡中找尋自己的位置.

從事AI強化學習、無監督學習、自主學習的研究和人腦科技的最幸福的氛圍是: 真正從事AI的人並不會因為誰的錯漏而嘲笑誰，每一個真正的科學家，工程師都在抱著虔誠的心相互學習，共同進步。

因為真理在上，我們熱愛它。