2022年從傳統運維到智慧運維,正確的領跑姿勢是什麼?

在剛剛過去的2021年,全球發生的科技變革有:

中國建成全球最大5G網路,5G基站達70萬個,佔全球比重近七成,連線超過1。8億個終端。

MIT(麻省理工學院)與合作團隊僅用19個類腦神經元就實現了控制自動駕駛汽車,而常規的深度神經網路需要數百萬個神經元。

中國“祝融”號和美國“毅力”號火星車分別在火星成功著陸,它們將尋找火星上可能存在過的生命跡象。

2020年全球電動汽車銷量較2019年上漲39%,達到310萬輛。蘋果、百度、小米等網際網路科技公司紛紛加入造車新勢力,車輛自動駕駛由單車智慧邁向車路協同。

迄今為止,SpaceX已為Starlink發射了1000多顆衛星,預計到2021年年底,Starlink的服務將會覆蓋全球大多數客戶,並有望在2022年完全覆蓋全球。

上面這些事件只是近期大大小小科技事件中很小一部分,而它們中絕大多數都涉及大資料、人工智慧、物聯網等新興技術。這些新技術透過無數軟硬體實現萬物互聯,背後離不開智慧運維的輔助。

智慧運維顧名思義是智慧+運維。智慧運維的概念是全球知名的IT研究與顧問諮詢公司GART-ner 在2016 年提出的。當初提出時的英文全稱為Algorithmic ITOperations,意指基於演算法的IT運維。隨著人工智慧技術的發展,近兩年該英文全稱逐漸演化為Artificial Intelligence for IT operations,突出了人工智慧演算法在IT 運維中的應用,現在,這兩種英文全稱都能在不同文件中見到,同時並存。

1

智慧運維發展的三個階段

在綜合各方觀點的基礎上,筆者認為智慧運維的發展分3個大階段6個小階段。分別是人工運維、自動化運維、智慧運維 3 大階段。其智慧等級參考TM Forum自動駕駛網路從L0-L5逐級遞增,如圖1所示。

2022年從傳統運維到智慧運維,正確的領跑姿勢是什麼?

圖1。運維發展各階段示意圖(以電信運營商為例)

1.人工運維階段

該階段分L0手工操作與維護、L1輔助運維兩個小階段。該階段完全或大部分依靠運維專家的經驗規則進行故障定位、 根因分析和配置下發等管理任務的制定和執行。進入輔助運維的階段,透過對重複性典型事件預先在系統中配置觸發和排程策略,達到提高運維效率和減少人力成本的作用。

2.自動化運維階段

該階段分L2部分自治、L3條件自治兩個小階段。在L2部分自治小階段,業內提出了 ITIL(Information Technology Infrastructure Library)、 Devops 等理念, 強調流程管理質量和打破開發、 運維的邊界。在這個階段業內逐漸達成IT研發和運維一體化的共識,但仍未規模化使用Devops 工具,主要依靠在系統中定製編寫自動化指令碼,實現簡單資料分析、視覺化、引數配置等初始功能,類似早期BI(商業智慧) 系統。到 L3條件自治小階段,企業已經認可自動化運維的價值,開始停止自己開發指令碼,轉而使用市場上開源和付費的 Devops 工具。從OpenStack時代,再到現在的容器時代,借用工具出現了很多自動化運維的高階模式,如網路可用性工程 SRE (Site Reliability Engi-neer)、聊天機器人 ChatOps等。前者是在保證使用者滿意度的前提下,平衡系統功能、服務及效能多方因素,是涵蓋Devops 運維思想、組織架構和具體實踐的完整體系ꎮ 後者透過外掛或指令碼實時執行團隊成員在會話中輸入的每一行命令,將過去成員在各工具輸入的命令前端化、透明化,以進一步提升自動化程度。

3.智慧運維階段

該階段分L4高度自治 (又稱智慧運維前期階段) 和L5完全自治 (即無人運維階段) 兩個階段。當在某個領域自動化程度達到一定極限時,必然會被人們個性化需求推動著往智慧化方向發展。

L3和L4兩個階段從功能定義上來看,兩者必定會在長期共存的狀態下進一步演化, 預估會共存10-15 年,即在此期間內自動化和智慧化程度均會逐漸提高。在智慧運維早期,AI從單點應用著手,如KPI單指標的異常檢測和趨勢預測,逐步實現在單點應用上的自主發現問題、診斷問題、解決問題和效能最佳化。並在各垂直領域中,將專家經驗積累成知識庫,形成可重複利用的結構化知識點。

在各單點應用逐漸智慧化的前提下,將底層各維度資料打通,建立中間通用和專用能力層,靈活應用於上層服務。在每個應用中都能實現從資料自主採集、 自主預處理到自最佳化,模型上實現自主選擇、調參、最佳化及部署。人們的需求將透過語音、 姿態、神情等特徵進行控制和排程,系統也會自主發現、診斷和最佳化問題。

在時間維度上,由於各行業自動化和智慧化發展速度參差不齊,即使自動化運維和 Devops概念已提出多年,但自動化運維工具在企業中的使用依然普及率不高,預計到 2030年超過 50%企業會普及使用Devops工具。同理,即使從2016年開始,已有企業開始嘗試在單點應用上借用AI技術,但要大多數企業能達到高度自治的水平,依然至少需要20-30年時間的探索和發展。而要實現無人運維需要研發和搭建以算力網路、數字孿生、千腦感知網路、邊緣智慧等技術為基礎的 “運維大腦”,在高度自治的智慧運維階段基礎上,至少還需要20-40年時間。

隨著人工智慧技術的不斷深入,運維管理中,人的角色越來越主動,對資料和工具的掌控力越來越靈活。運維人員收集原始資料後,經過數字孿生和視覺化後,再進行打標、模型預訓練、結構化知識的提取,最終將專家的經驗和資料衍生為應用知識,進而實現工具的自動化和智慧化升級,如圖2所示。

2022年從傳統運維到智慧運維,正確的領跑姿勢是什麼?

圖2。 不同運維階段中人、資料、工具

3種角色功能和關係演化圖

2

實現智慧運維的必要條件

無論是從已經進入AIOps階段的企業技術架構圖(如圖3所示)中,還是從Gartner的定義中, 都可以清晰地看出:資料是智慧運維的基礎。準確地說,具備資料能力是一家企業進入智慧運維的必要條件。

根據Gartner的定義,AIOps 產品或平臺主要包括以下5類技術要素。

資料來源: 來自各IT基礎設施的底層記錄資料。

大資料平臺: 用於處理、分析靜態和動態實時資料。

計算與分析: 資料預處理、資料標準化等清洗工作。

演算法: 用於計算和分析,以產生IT運維場景所需的結果。

機器學習: 包括無監督、有監督和半監督學習。

資料是企業的核心資產,隨著資料量、資料維度的爆發式增長,現有的監測分析工具在處理這類資料時壓力很大,且現有的BI或資料分析工具只能滿足簡單的資料分析和視覺化功能,如Tableau 其無法自動化地在企業跨越多種資料型別採集、洞察資料,進而給出決策。

目前所有的AIOps平臺需能夠提取靜態資料 (歷史資料) 和動態資料 (實時、 流式傳輸資料)。這些平臺允許事件資料、使用者資料、日誌資料以及圖形和文件資料的提取、索引和儲存。

資料能力,具體包括資料採集、資料儲存、資料治理、資料服務4項核心能力,即以資料中臺/ 大資料平臺/ 資料湖等形式存在的資料底座,至於這幾種資料底座的名稱之間的細微差別,讀者可暫時理解為同一事物。

2022年從傳統運維到智慧運維,正確的領跑姿勢是什麼?

圖3。某企業AIOps技術架構圖

每天資料量在1TB以上、底層平臺超過5個以上的企業,建立一個可用的資料底座至少需要3年時間。而且這3年中需要一邊建設資料底座一邊將其與運維業務緊密結合,在試錯中建設。構建統一監控平臺,實現IT資源的統一管控。利用大資料的手段,採集、分析基礎設施、網路、日誌等IT監控資料,透過海量IT資料的實時處理分析,消除資料孤島,實現統一的告警,提升運維管理效率。

由於採集的資料集依然是按照業務邏輯從各平臺取出後按表儲存的,與後期各類運維場景使用的資料結構相差甚遠,因此,需要在資料底座上針對每種運維場景 (當然場景的數量是慢慢積累的),建立企業自身運維的資料標準,並透過自動化程式和配置採集程式來採集標準資料。在資料底座上建立一個個標準化的資料模型,每種運維場景需要的資料可以是一個數據模型中的資料,也可以是多個數據模型組合的資料ꎮ 這種資料模型後期將在無人運維階段,透過資料孿生技術從大資料平臺中自動生成。資料將透過統一介面服務於智慧運維。

3

智慧運維未來發展趨勢

智慧運維最終必然會進化為無人運維,類似汽車、飛機的無人駕駛, 只有在人為需求變更條件下主動干預才會影響機器的正常決策。要想實現無人運維,背後一定需要類似人腦的 “運維大腦”的實時支撐。

從圖4所示的基於無人運維技術體系架構來看,首先需要解決資料來源安全、分散式算力整合排程、人機智慧融合、智慧免疫系統、信任體系價值網路和腦機操作介面等重大難題,進而實現主動任務求解、自適應強化學習、虛擬場景重建、認知整合、資料應用閉環統一和價值互動模式。

2022年從傳統運維到智慧運維,正確的領跑姿勢是什麼?

圖4。基於無人運維技術體系架構

要解決上述難題,實現 “運維大腦”,提升其知識泛化能力,很可能是以區塊鏈技術建立分散式可信價值網路生態,加上聯邦學習,實現從資料提取、演算法選擇、算力和儲存資源的使用,到資料在使用方的分析應用和最佳化,在每一次反饋中不斷積累價值,形成知識。基於區塊鏈技術運維大腦資料計算流程示意圖如圖5所示。

2022年從傳統運維到智慧運維,正確的領跑姿勢是什麼?

圖5。基於區塊鏈技術運維大腦資料計算流程示意圖

要實現上述目的,在可預見的未來至少需要以下核心技術

資料聚合和價值交換: 資料多方計算與隱私保護。

資料的關聯與重構: 數字孿生與注意力機制。

千腦感知網路: 算力網路、邊緣智慧、分散式決策。

認知整合

知識圖譜

基於場景的模仿學習

面向任務的自動機器學習

(Auto-ML):

自動超參最佳化編碼學習

大規模圖卷積學習。

認知智慧混合技術

基於自動特徵工程的認知特徵提取

基於深度學習的視覺問答VQA

(Visual Question Answering)

技術。

基於強化學習的決策智慧

基於圖的決策智慧推理。

數字化場景重建

基於

GAN

的影片壓縮和重建。

人機協同與腦機介面。

安全免疫機制。

多方協同智慧

區塊鏈價值網路。

實現 “運維大腦” 涉及的領域和基礎技術如下。

大資料平臺。

AI

賦能平臺。

區塊鏈資料多方計算。

數字孿生技術。

容器雲平臺。

圖資料庫引擎。

大規模圖關聯模型。

算力網路。

混合現實技術。

自動機器學習。

知識圖譜。

價值網路。

自然語言處理

4

智慧運維之道

基於AI技術的應用實踐

這是一本透過十幾個實際運維案例,詳細講解每個運維場景中的痛點、適用的演算法、試驗和最終方案。無論是當前已在該領域的從業人員,或是希望轉型進入該領域的新人,亦或是管理人員,都能從中獲得智慧運維在演算法研發過程中的實戰經驗和實操指南。

2022年從傳統運維到智慧運維,正確的領跑姿勢是什麼?

作者:錢兵 等編著

本書是一本介紹智慧運維的實戰指南,聚焦實際應用場景,透過十餘個實戰案例,詳細講解每個場景中的痛點、適用的演算法、試驗和最終方案,系統介紹了AI技術在運維工作中的應用。本書內容分為3部分,第1部分是智慧運維、人工智慧的概念和發展趨勢,包括第1、2章;第2部分是智慧運維中需要用到的人工智慧技術和演算法,包括第3、4、5章;第3部分是智慧運維實戰案例,包括第6~11章。

-End-