《機器學習導論》:統計學習理論導讀

主要參考書目

周志華。 《機器學習》。 1。3 假設空間、1。4 歸納偏好、第12章 計算學習理論

李航。 《統計學習方法》(第2版)。 第1章 統計學習及監督學習概論

張學工。 《關於統計學習理論與支援向量機》。 自動化學報。 26(1):32-42。 2000。

相關理論的歷史

PAC(Probably Approximately Correct)學習理論

:由Valiant於1984年提出,1989年和Kearns一起提出“弱學習是否等價於強學習”這個重要理論問題的構造性證明(最初的Boosting演算法,僅有理論意義),1997年Freund & Schapire提出AdaBoost。

統計學習理論(VC維)

:Vapnik & Chervonenkis 1968年於蘇聯提出統計學習理論、VC維。Vapnik赴美后,在95年前後同Cortes一起提出SVM,之後引入核技術,使得SVM大流行。同時,使得該理論開始得到重視。但其實被廣為傳頌的是結構風險最小化,具體實現思路同正則化是一致的。

偏差-方差均衡、正則化

:具體提出時間不可考,可看作基本知識,用來描述過擬合、擬合、欠擬合的程度。代表方法:正則化。

統計學習理論與SVM之間的關係

滿足的線性分割面族的VC維的一個上界是相關的。最小化​ 其實是在最小化線性分割面族的VC維的上界。而分割函式族的VC維小的話,意味著對應的方法的泛化能力強。這裡可以這麼認為:結構風險小對應的就是泛化能力強。

目前對於SVM的解釋更多是從最大化間隔這個幾何角度進行解釋。很少有從最小化VC維上界的角度講解。

偏差-方差均衡

過擬合是低偏差高方差。說明模型過於最小化訓練樣本,過於精細;或者訓練樣本代表性不夠導致訓練樣本與測試樣本分佈不一致程度高

欠擬合是高偏差低方差。說明模型與訓練資料和測試資料上效能都太差。原因:一是訓練樣本和測試樣本取樣過少或和實際分佈相符程度差,二是模型太差,或者和訓練資料和測試資料來源的分佈非常不匹配

過擬合和欠擬合的解決手法是從訓練集和模型兩個方面能解決:一是提供更好的樣本集合,二是結合具體情況使用正則化對模型引數進行限制。

假設空間

相比於樣本特徵空間用來度量樣本和樣本分佈,統計機器學習使用假設空間來度量假設(分類器)和假設的分佈(當前模型下的各種可能被學到的分類器)。假設空間是一個抽象概念,在不同的語境會有不同的表示形式,有的是使用判決函式的函式族集合來表示,有的使用隨機事件的分佈來表示,有的使用判決模型的引數的各種可能組合來表示。需要結合學習任務和模型來討論具體的假設空間。