「乾貨」8張腦圖總結8種常用演算法 拿去不謝!

聚類演算法

Cluster

「乾貨」8張腦圖總結8種常用演算法 拿去不謝!

聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法,同時也是資料探勘的一個重要演算法。

聚類(Cluster)分析是由若干模式(Pattern)組成的,通常,模式是一個度量(Measurement)的向量,或者是多維空間中的一個點。

聚類分析以相似性為基礎,在一個聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。

特徵選擇

Feature Selection

「乾貨」8張腦圖總結8種常用演算法 拿去不謝!

此外,需要區分特徵選擇與特徵提取。特徵提取 ( Feature extraction )是指利用已有的特徵計算出一個抽象程度更高的特徵集,也指計算得到某個特徵的演算法。

特徵選擇過程一般包括產生過程,評價函式,停止準則,驗證過程,這4個部分。

PCA

principal components analysis

「乾貨」8張腦圖總結8種常用演算法 拿去不謝!

在統計學中,主成分分析PCA是一種簡化資料集的技術。它是一個線性變換。這個變換把資料變換到一個新的座標系統中,使得任何資料投影的第一大方差在第一個座標(稱為第一主成分)上,第二大方差在第二個座標(第二主成分)上,依次類推。主成分分析經常用減少資料集的維數,同時保持資料集的對方差貢獻最大的特徵。這是透過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住資料的最重要方面。但是,這也不是一定的,要視具體應用而定。

R-square

「乾貨」8張腦圖總結8種常用演算法 拿去不謝!

r^2是可決係數(coefficient of determination)也叫擬合優度,顧名思義,用來描述迴歸直線對觀測值的擬合程度。R範圍是[0,1]。統計學上用迴歸分析來發現一些變數之間隱藏的關係,迴歸分析就是用來表達如何使用一個或多個自變數來預測另一個變數的值,也就是因變數的值。迴歸模型確定了自變數和因變數之間的數學關係,是定量的。而且透過這個模型能確定哪個是無關變數。

LightGBM

「乾貨」8張腦圖總結8種常用演算法 拿去不謝!

在 histogram 演算法之上, LightGBM 進行進一步的最佳化。首先它拋棄了大多數 GBDT 工具使用的按層生長(level-wise) 的決策樹生長策略,而使用了帶有深度限制的按葉子生長 (leaf-wise) 演算法。 level-wise 過一次資料可以同時分裂同一層的葉子,容易進行多執行緒最佳化,不容易過擬合。但實際上level-wise是一種低效的演算法,因為它不加區分的對待同一層的葉子,帶來了很多沒必要的開銷。因為實際上很多葉子的分裂增益較低,沒必要進行搜尋和分裂。leaf-wise則是一種更為高效的策略,每次從當前所有葉子中,找到分裂增益最大(一般也是資料量最大)的一個葉子,然後分裂,如此迴圈。因此同 level-wise 相比,在分裂次數相同的情況下,leaf-wise 可以降低更多的誤差,得到更好的精度。leaf-wise 的缺點是可能會長出比較深的決策樹,產生過擬合。因此 LightGBM 在leaf-wise 之上增加了一個最大深度的限制,在保證高效率的同時防止過擬合。

entropy

「乾貨」8張腦圖總結8種常用演算法 拿去不謝!

熵的概念是由德國物理學家克勞修斯於1865年所提出。最初是用來描述“能量退化”的物質狀態引數之一,在熱力學中有廣泛的應用。但那時熵僅僅是一個可以透過熱量改變來測定的物理量,其本質仍沒有很好的解釋,直到統計物理、資訊理論等一系列科學理論發展,熵的本質才逐漸被解釋清楚,即,熵的本質是一個系統“內在的混亂程度”。它在控制論、機率論、數論、天體物理、生命科學等領域都有重要應用,在不同的學科中也有引申出的更為具體的定義,按照數理思維從本質上說,這些具體的引申定義都是相互統一的,熵在這些領域都是十分重要的參量。

監督學習方法

supervised learning

「乾貨」8張腦圖總結8種常用演算法 拿去不謝!

監督學習是指:利用一組已知類別的樣本調整分類器的引數,使其達到所要求效能的過程,也稱為監督訓練或有教師學習。

監督學習是從標記的訓練資料來推斷一個功能的機器學習任務。訓練資料包括一套訓練示例。在監督學習中,每個例項都是由一個輸入物件(通常為向量)和一個期望的輸出值(也稱為監督訊號)組成。監督學習演算法是分析該訓練資料,併產生一個推斷的功能,其可以用於映射出新的例項。一個最佳的方案將允許該演算法來正確地決定那些看不見的例項的類標籤。這就要求學習演算法是在一種“合理”的方式從一種從訓練資料到看不見的情況下形成。

泛化誤差

Generalization error

「乾貨」8張腦圖總結8種常用演算法 拿去不謝!

即真實情況下模型的誤差。模型訓練出來後,在測試集(抽樣)上測試會得出一個誤差,姑且叫E(in),但這個誤差是否能真實反應這個模型的預測的準確性呢?不一定。如果測試集(抽樣)不能很好地代表真實情況(總體),這個E(in)的值就不能很好地反應模型實際情況下的表現。而模型在真實情況(總體)上所表現出的誤差就稱為泛化誤差,這個誤差才能真正地反映模型的預測的準確性。