華為安全CTO開講：未來已來，安全有AI

本文轉載自：OFweek 人工智慧網

摘要：

在紛繁複雜、光怪陸離的數字世界，漏洞的必然存在和入侵的不可避免，使網路安全成為永恆的話題。無論在入侵者還是防禦者眼裡，都在尋求有力的武器。AI技術的出現，在自動化助力上，能顯著提升攻防雙方的能力基線。

未來已來，機器智慧對抗是新網路安全時代的選擇。本文詳細闡述了，AI在網路安全應用的必要性、可行性、應用實踐，以及經驗總結。從專家知識經驗到安全資料利用，從安全左右腦的雙輪驅動，到多方知識協同，打造抵禦多方位立體化攻擊的安全長城。

網路安全的問題源自何方？

安全問題的本源：系統中蘊含超出設計意圖的輸入、中間過程和輸出。一個簡單的函式設計，功能點是：特定的輸入下的特定的輸出。實現時候，可以採用不同的內部邏輯，都能實現此功能點。良好的設計，會充分考慮例外的輸入，不同中間過程中的異常處理，以及非預期輸出的處理。但實際開發過程，由於開發能力、進度壓力、邏輯複雜度大等各方因素下，會有各種設計意圖外的副效應，而這些副效應會成為系統的漏洞，並被利用產生非預期的行為。

對於需要大量人員參與、大量邏輯迭代構建的系統，其複雜度呈指數上升，就會在某種程度上超出設計者的能力控制範圍。

系統的漏洞不可避免，不可杜絕。任何的系統都必然存在漏洞，有漏洞就可能會被入侵。

不誇張，不粉飾，如何客觀看待當下網路安全的真實存在？

傳統基於靜態規則和簽名、簡單行為識別武裝起來的防禦系統，可以抵禦常規攻擊，但在有計劃投入的駭客組織的持續攻擊下，基本是透明的。近年來國際安全行業針對“assume breach”形成共識，是否被入侵成功，只取決於自身的商業和政治價值以及入侵的成本。在高價值目標裡，入侵是已經客觀的存在，並將長期存在。所以，從危害程度看，內網安全防護會是未來的重中之重。

同時隨著萬物互聯的智慧世界的到來，網路攻擊日益增多且越來越自動化、智慧化。複雜的攻擊可以自動檢測環境，從而混淆、躲避和變種；高度自動化的工具使攻擊變得更加聰明，傳統防禦策略是無法處理這些問題。安全團隊的人力會淹沒在大量的告警事件中，產生告警疲勞，從而難以及時識別和應對真正的威脅。

網路安全的現實困局是：

1、組織內安全專家人力和知識不對等，

2、專業安全裝置的應用複雜度高，導致對網路威脅根本視而不見或者即使見也無力處置，乾脆當個腦袋埋入沙堆的鴕鳥，麻木不仁、聽天由命，直到產生巨大危害的那一天。

漏洞的必然存在，和威脅入侵的不可避免，如何保衛數字世界的安全呢？

如果把網路世界的安全看做是一場攻防戰爭，攻防各方首先都要有強大的軍備。在這個軍備清單裡AI會是關鍵武器。作為新時代的電力，它將發光並照耀整個真實及虛擬的世界。

在網路安全領域，傳統防禦模式的假設是：所有攻擊場景都是已知的，每種攻擊場景和應對策略一一對應，那麼基於規則的系統便可高效地執行。類似於中國武術的散打表演，按照固定套路來。

但現實是殘酷的。

隨著大資料時代的到來，駭客的攻擊手段日趨複雜與多樣，新型病毒和病毒變種層出不窮。例如2017年勒索病毒WannaCry席捲全球，150多個國家遭遇攻擊。WannaCry爆發後，依然不斷有駭客修改該病毒，新型病毒及變種不斷湧現，勒索病毒已成為威脅網際網路安全的一大毒瘤。

AI作為資訊世界的最新技術，也已經被具有創新精神的駭客組織採用來武裝自己。面對這些瘋狂且極具創新顛覆意識的對手，傳統防禦技術已無法跟上快速演進的攻擊和威脅。不要說新型未知威脅，即使對於已有的安全漏洞的攻擊變種，也很難及時發現並有效處置。

同時，國內網路安全市場正在經歷一場場轉變。從注重安全合規，向注重效果轉變；從原來的流於表面的安全裝置購置和部署匹配，向注重實戰的攻防演練、調查問責轉變。網路安全的建設模式，也從被動防禦轉為主動能力建設。整個網路安全行業最終進入基於AI的機器智慧對抗時代：誰擁有更多的AI能力和攻防知識，誰的獲勝面就更大。

AI是一種機器展現的智慧。理想的智慧機器能夠感知周圍環境，並採取行動以最大可能達成特定目標。教科書對AI的經典定義是：

1、象人一樣行動、象人一樣思考；

2、合理地思考、合理地行動。

在網路安全領域的AI應用可以定義為替代安全專家能力的自動化技術

當前，促成AI在網路安全領域應用的要素都已經集齊：

1、高效能計算AI晶片；

2、大量可採集的資料、日誌和安全事件；

3、AI演算法近年來的突飛猛進，聚集這個時代大量最優秀的大腦。無論傳統機器學習、貝葉斯網路、知識圖譜，還是深度學習、圖計算，在各行各業都得到充分的實踐。

即使上述條件成立，人們還是會有疑惑：在極具個人英雄主義色彩的安全攻防領域，面對新型威脅的創新不斷和靈活多變的網路攻擊套路，在攻防雙方成本嚴重不均衡的博弈場景下：

AI是否具備解決網路安全問題的條件並真能成為關鍵武器呢？

首先，判斷待解決問題的背後，解是否存在。

世界是稀疏的，世界萬事萬物背後都會有一定規則在起著作用，包括大自然的作品和人類的所有作品都一樣。物理世界，從量子力學看，微觀上是由不確定性原理和薛定諤方程的機率波統治的；而宏觀上，則是由廣義相對論、麥克斯韋方程組統治的充滿確定性的世界。

理論上，圍棋有超越宇宙中所有原子數量的變化。而實際上，AlphaZero經過450萬盤的強化學習，就已經可以戰勝AlphaGo Lee了，這表明每個局面可選擇的有效下法其實是有限的。所以，在特定場景和具體設計下，事物的存在和發展在可量化描述的維度上是稀疏的，有大機率的趨同性。

網路攻擊也是基於一定的樣本和攻防理論，而非完全孤立和隨機離散，也就內含了某個模式或者規律，是可解的。

其次，探討和提取模式和規律，有很多成熟的科學方法。

在簡單的系統中，透過歸納總結，人類專家就可以提取出規律，用在網路安全領域就是一系列的安全規則、簽名以及情報。在複雜的系統中，模式和定律需要透過大量資料分析才能得到。

AI是超越人工的利器，可以從資料中找到特定的模式並刻畫事物的特徵，總結出定律和定理，並抽象為可以用符號推理表達的知識。比如，引爆此次AI技術浪潮的是基於深度學習的神經網路，它之所以有如此大的作用，正是因為它較好地模擬了人腦這“分層”和“抽象”的認知和思考方式。其實質，是透過構建隱層的神經網路模型和獲取海量的訓練資料，來學習到更有用的本質特徵，從而最終提升資訊分類或預測的準確性。影象識別透過應用深度神經網路，已經擁有超越人的識別能力。現實中，人臉識別應用非常廣泛，也已經顯示出高於人工識別的優越性。在資料中心的AIops中，AI同樣發揮著重要作用。

AI本身擅長的就是，從大量紛繁複雜、但含有有效資訊的資料中尋找本質的模式或規律，對於網路安全領域也一樣。

AI如何有效的應用於網路安全領域？

網路安全AI應用的目標是替代人類安全分析專家在特定場景下的工作，實現自動化。

我們先看看人腦的決策機制：

右腦，感性，非計算模式，從已儲存的模式中啟發式匹配檢索。即通常意義上的直覺，可以快速匹配、快速反應，根據歷史經驗來提取關鍵事物特徵和行為模式，從而第一時間做出決策。

左腦，理性分析，透過一定的邏輯計算，從普世定理和領域知識出發進行演繹推理。從知識概念中來，到現實證據中去，透過推理模型預測和證據對照來判斷真偽，指導做出決策。

理性可避免錯誤，但也可能會受限於舊知識而因循守舊。感性激發創造力和快速反應，但會陷入被設計的陷阱，誤判較大。

人的決策，很多時候是左右腦互博而達到協調統一，才能給出更合理的結論。

AI在網路安全中的應用模式，也大概如此。安全AI右腦需要有類似老刑警“看一眼即懂”的能力，不放過任何一個可疑分子；安全AI左腦需要用攻防知識庫和推理引擎來武裝自己，從多維關聯、攻擊鏈、圖計算到知識圖譜，推導得出一個更合理的最終決策。

AI在網路安全中的應用模式如下：

第一、安全資料的加工中AI的應用。

安全資料加工目的是自動或者半自動產生安全情報、規則或者簽名。一般來講，這個加工過程需要安全專家參與最後的確認與調整。透過利用AI工具，可以過濾掉大部分無用的資料，並給出更精確的情報、規則和簽名的建議，減少安全專家的分析工作量，提高工作效率，減少重複的勞動。

第二、有監督學習的安全AI檢測：

透過對海量黑白樣本的學習，建立分類模型，識別威脅的真實性，是最常見的應用。有別於靜態固定的簽名和規則，AI模型比人類專家更能在海量資料中找到最接近本質的特徵表達，因而有更強的泛化能力，適應於各種變種。變種很多有家族屬性和惡意程式碼的重用度，這些是監督學習演算法最擅於捕捉到的關鍵特徵，但需要注意的前提是大資料量和高質量的黑白樣本，以及場景問題在可以用的安全資料中的資訊含量多少。

構建AI模型的門檻即低又高。低，是因為資料驅動的機器學習和深度學習，無腦擬合，容易過擬合得到高精度得分，可以在區域性資料很到漂亮的結果；高，是因為要替代或者超越人類安全專家，首先需要的資料不僅有量還要有質，同時在演算法上有深入研究。到模型構建的最後時刻，每前進1個百分點都非常困難，需要“煉丹師”般高深的功底才能取得一個實戰環境基本可用的AI模型。而這隻一個開始，AI模型還要根據不同客戶具體環境下的安全資料的分佈差異，不斷的迭代最佳化，反覆打磨才能實戰可用。

第三、無監督學習的安全AI檢測：

無監督學習不需要事先標記好資料，而是可以透過資料本身在時空維度上的內在聯絡，建立行為基線；或者透過聚類演算法，來表達資料本身的分佈屬性，從而獲得安全資料的分佈模型。透過資料空間的分佈模型可以發現異常，分類不同的資料集合，從而自學習、自適應地識別0 Day攻擊或基於已知漏洞變種的攻擊。無監督模式是很好的未知威脅檢測方式。

第四、基於安全AI的認知能力構建

，從安全攻防知識、資產的脆弱性／重要性、情報，透過各種知識推導給出最終結論，可用於最終決策，高階威脅識別，同時給出威脅自動處置指令碼，加快響應速度，減少系統受損程度和增加對APT組織的攻擊預判。

AI在網路安全中的具體實踐舉例：

（1）基於DNN的惡意檔案檢測

惡意檔案資料量巨大，大部分會有有家族性，有較好的AI檢測基礎。

惡意檔案檢測基於深度學習DNN模型，用以識別檔案是否為惡意檔案。其優點是檢測演算法使用了靜態檢測技術，無需惡意檔案的執行時行為，常用於本地檢測。此外，模型小於1MB，執行記憶體小，適合防火牆做輕量化檢測。

惡意檔案的本地檢測流程

惡意檔案檢測建模

（2）C＆C檢測——DGA和DNS隱蔽通道檢測

C＆C是內網防護的重點，同時也積累這大量的流量行為資料，有較好的AI應用基礎。DGA（域名生成演算法）是一種利用隨機字元來生成C＆C域名，從而逃避域名黑名單檢測的技術手段。DGA檢測使用了卷積神經網路（CNN）的模型，識別準確率高達99．9％以上。

DGA檢測惡意域名

DNS隱蔽通道是指駭客利用DNS協議實現諸如遠端控制、檔案傳輸等操作。例如2017年著名的XShell DNS通道攻擊，駭客在XShell中植入惡意程式碼，透過DNS隱蔽通道外發使用者敏感資料。一個典型的DNS隱蔽通道攻擊過程如下圖所示。

DNS隱蔽通道攻擊

①被控端發起包含“資料上傳”的域名請求

②域名請求DNS伺服器進行遞迴查詢

③控制端伺服器返回含C＆C data的DNS應答

④C＆C data到達被控端

使用深度學習卷積神經網路（CNN）識別DNS隱蔽通道。透過batch normalization、word embedding、dropout等技術最佳化CNN模型，使得DNS隱蔽通道識別準確率高達97％以上。

（3）惡意加密流量識別

網際網路上的加密流量呈現增多趨勢。同時，為繞過傳統的流量檢測技術，也有很多惡意軟體透過TLS加密流量進行通訊。如何識別惡意和正常流量，從而有效及時阻斷，需要用到基於AI技術的方法。

加密流量識別過程

整個工作分為3大部分：

1、首先安全研究人員透過獲取的黑白樣本集，結合查詢開源情報，域名、IP、SSL等的情報資訊，進行特徵資訊提取；透過對黑白樣本的客戶端簽名和伺服器證書的簽名進行分析；基於上述分析取證的特徵向量，採用機器學習的方法，利用樣本資料進行訓練，從而生成分類器模型。這就形成CIS安全態勢感知系統最核心的ECA檢測分類模型。

2、流探針提取網路流量中加密流量的特徵資料，包括TLS握手資訊、TCP統計資訊、DNS／HTTP相關資訊以及3／4層協議統計資訊，統一上報給AI分析系統。

3、AI分析系統結合自身的大資料關聯分析能力，對探針上送的各類特徵資料進行處理，利用檢測分類模型識別加密流量中的異常C＆C連線，從而發現殭屍主機或者APT攻擊在命令控制階段的異常行為。

AI在網路安全應用總結

①藉助AI技術的自動化資料加工可提升資料處理效率，讓安全專家更專注於價值資訊，從中提取更有效的規則、簽名、情報。內嵌入靜態規則引擎，簡單高效，是安全防禦的重要手段，實際在廣泛應用。

②在威脅手段不斷變化和漏洞日益增加，常規防禦手段失效的情況下，更能適應變化的AI檢測模型成為最後的兜底、最後的防線。建立成百上千的AI檢測模型的叢集，可以從各個方位形成天羅地網，構築最強力的防線。

③我們還必須從組織的安全管理的視角出發，從網路虛擬空間走向物理實體空間，實現使用者友好的AI安全檢測和威脅閉環，協同業界頂尖的安全專家能力，賦能給單個組織，抵禦外部的持續攻擊，實現威脅的預防和根治。安全能力來自對網路安全空間的認知理解，包括：實體（使用者、主機、系統、應用等），威脅（情報、漏洞），APT組織和其攻擊技術。知識決定命運，安全知識多的一方會獲得更大優勢，構建多層次的AI推理引擎是知識應用的關鍵。

人工智慧技術能夠解決靜態規則引擎的弊端，從而加強威脅檢測能力，並透過知識智慧推理來解決安全運維面臨的挑戰。目前硬體生態的繁榮、AI晶片的湧現為人工智慧技術在網路安全領域的落地提供了堅實保障。此外，AI能夠助力裝置間以及雲間協同，促進安全互動生態的發展，透過多方聯動打造越發牢固的安全平臺，為企業築起安全防護的鋼鐵長城。

別眨眼網

華為安全CTO開講：未來已來，安全有AI

相關推薦