高精準、低成本,九章雲極DataCanvas突破AutoML難題

高精準、低成本,九章雲極DataCanvas突破AutoML難題

供圖:九章雲極DataCanvas

2021 年世界人工智慧大會(WAIC)於 7 月 8 日 在上海世博中心拉開帷幕。九章雲極DataCanvas董事長方磊受邀參加由世界人工智慧大會組委會主辦、機器之心承辦的“2021 WAIC·AI開發者論壇”,並發表“

Hypernets:自動化機器學習的基礎框架

”主題演講。

AutoML框架的本質是空間搜尋

AutoML技術的研發與應用是一個持之以恆的課題,隨著對其研發的深入,很多AutoML工具的各部分高度耦合,只能針對特定問題,難以擴充套件。方磊表示,AutoML框架的本質就是空間搜尋,在這裡面很重要的思想就是抽象性和層級的必要。

AutoML框架是對AutoML領域面對的問題解構和抽象後形成的基礎性支撐,無論是超引數最佳化、Full-Pipeline搜尋還是神經網路架構搜尋(NAS)問題,主要圍繞3個基本部分:

搜尋空間(Search Space)

搜尋策略(Search Strategy)

評估策略(EstimationStrategy)

AutoML框架應對各部分高度解耦以實現各部分自由擴充套件,開發者可以在此之上不斷豐富搜尋演算法,設計多樣搜尋空間,避免共性問題重複開發,針對非共性問題實現靈活擴充套件,加速迭代效率,大幅低於降低自動機器學習的准入門檻,能夠讓開發者快速實現自動機器學習的搜尋。

高精準、低成本,九章雲極DataCanvas突破AutoML難題

九章雲極DataCanvas創始人方磊在世界人工智慧大會現場

Hypernets——開發者的朋友

一款優秀的AutoML框架應當在上述三個部分具有:

富有表現力的搜尋空間描述語言、支援高維空間的高效搜尋演算法和高效能的評估策略

。Hypernets作為一個自動機器學習的底層通用框架,滿足單節點及分散式高效能的模型訓練需求,可以在不同的空間進行搜尋與訓練,結合各種機器學習和深度學習框架開發專用自動機器學習工具,幫助使用者快速開發專用領域的AutoML工具。同時,Hypernets支援最新的神經網路架構搜尋(NAS)演算法,可以實現深度學習的網路架構設計自動化。

方磊表示,Hypernets與目前眾多的機器學習、深度學習框架相結合更快更好的生成自動機器學習工具。用5-10行程式碼完全可以搜尋模型,因此Hyperents一個定位就非常清晰,不管開發一個訓練框架還是開發應用模型,都是開發者的朋友。開發訓練框架可以讓框架使用Hypernets很容易結合出框架本身的自動機器學習能力;如果是開發應用模型,可以組合不同學習訓練框架的同時,在上面使用Hypernets,端到端整個pipeline上進行自動機器學習的引數搜尋,就會得到非常較好的模型。經過大量在行業上的應用,在特徵豐富情況下,Hypernets在搜尋能力包括分散式計算能力體現出來很多優勢,搜尋時間短,算力僅需普通訓練的20-30倍,就能夠得到一個性能大大提升的模型。

簡單快速精準的自動機器學習開發過程

開發者透過Hypernets設計不同的模組空間(Module Space)和相應的引數空間(Parameter Space),透過不同的連線方式(Connection Space)將各個模組空間組合成為一個高維的豐富動態搜尋空間(Search Space)。遺傳演算法作為搜尋策略的一個例子,是一種非常有效的尋找區域性最優的方法,也可以與其他各類演算法組合使用,實現更為強大的策略,例如在空間切分搜尋的時候,使用遺傳演算法加速子空間中的迭代。評估策略的核心在於高效:在評估不精確的情況下,透過

指導搜尋方向

節省預處理時間

防止過擬合

三種方式,減少計算量,高效地利用自動機器學習找到更好的模型。作為Hypernets的一個具體例項,HyperGBM在多個公開資料集上和真實業務場景上,超過或達到了人類專家和其他AutoML工具的水平。

高精準、低成本,九章雲極DataCanvas突破AutoML難題

AutoML 框架的高階特性

強大的自動機器學習開源框架:Hypernets家族

Gartner在2020年十大科技趨勢中,將以AutoML為代表的AI普及化作為資料與分析領域的重要戰略技術之一。作為幫助使用者快速開發專用領域的AutoML工具,Hypernets於2019年在GitHub進行開源,結合各種機器學習和深度學習框架開發專用自動機器學習工具,率先突破了機器學習建模過程中不均衡資料、概念漂移、模型泛化能力和大規模資料等諸多挑戰,提供開放的訓練服務框架,降低了AutoML工具的開發門檻,實現深度學習的網路架構設計自動化。

高精準、低成本,九章雲極DataCanvas突破AutoML難題

AutoML工具開發層級

方磊提到,

AutoML的核心內容是降低門檻構建模型

。基於Hypernets框架,九章雲極DataCanvas自主研發的

HyperGBM

不僅能夠解決生產化困擾,同時實現了資料預處理、特徵衍生、特徵篩選、模型超引數最佳化、模型選擇、模型融合全過程的全自動機器學習,僅需5行程式碼就可以實現高質量的模型,擁有開箱即用、簡單易用等特點,解決企業在結構化資料建模的需求。

為避免共性問題重複開發,其研發的

HyperKeras

支援神經網路架構搜尋和超引數優,專注非共性問題,實現靈活高效擴充套件。此外,九章雲極DataCanvas對AutoML技術不斷探索,開源專案DeepTables榮獲全球知名國際性競賽第一名,全新定義了深度學習技術在結構化資料分析領域的價值。

隨著人工智慧時代對於AutoML需求的增加,九章雲極DataCanvas將運用Hypernets框架融合更多的深度學習框架,推動神經網路架構搜尋的前沿發展,助力實際應用場景中的深度學習模型落地,並且透過在AutoML、AutoDL領域不斷的技術創新,為金融、通訊、政府等眾多行業實現數智化升級提供新動能。