智慧財務風險預警方法—K-近鄰演算法「智慧財會」

前言：我國每年都有上市公司因為面臨突如其來的財務問題而使自身蒙受損失，同樣利益相關者的經濟遭到一定的損失以及會產生負面的影響，甚至對整個市場環境也會造成惡劣衝擊。目前的經濟環境中，資訊不對稱是一種普遍現象，因此，智慧財務風險預警模型是必要的，以預測和防範上市公司潛在的財務問題。本文介紹K—近鄰演算法如何在智慧財務風險預警模型中應用。

一、K-近鄰演算法模型介紹

K-近鄰分類方法自 Fix 和 Hodges在二十世紀五十年代首次提出後，它就成為國內外學者研究的熱門課題。隨後有學者提出了一種非引數分類的 KNN 快速搜尋演算法，運用投影向量加快分類過程，減少了 K-近鄰演算法的計算量。並將線性分類器與 k-近鄰演算法相結合，實證準確率超過了 80%，證明了該方法分類效果較好。也有學者介紹了一種 k-近鄰演算法在自然神經網路的擴充套件，將特徵值加權引數作為模型一部分。針對迴歸函式 K-近鄰演算法時研究其近鄰估計的漸近性質，可以得到迴歸函式的 K-近鄰估計的漸近正態性和它的Bootstrap 統計量的相合性，在高階矩存在的條件下，證明利用迴歸函式的 K-近鄰估計的 Bootstrap 逼近比正態逼近更精確。透過對傳統的近鄰文字分類方法技術以及 Web 文字的特點進行了詳細的分析，進而發現一種新的簡單有效針對網頁的分類方法。該方法充分利用了 Web 文字的結構資訊進行特徵詞加權，以類軸向量為核心構建分類器。在考慮到對樣本進行分類時會存在樣本類偏斜的情況，提出了將一種偽 K-近鄰演算法與 CS-LMNN 結合的方法對文字進行分類。首先對訓練資料運用CS-LMNN 演算法進行距離度量學習，再針對訓練結果的情況下，使用改進後的 K近鄰演算法對測試資料進行分類，結果表明該演算法使分類精度得到有效的提高度。不難發現隨著國內外對於 K-近鄰演算法研究的深入，也瞭解到該方法對於解決分類問題具有很好的效果，因此運用此方法進行智慧財務風險預警模型的研究是可行的。K-近鄰演算法是一種對函式形式沒有假設的分類方法，它是模式識別中非引數法中的方法之一。

針對公司智慧財務風險預警的研究，運用 K-近鄰方法建立預測模型時，可以將公司樣本分成兩大類：ST 公司與正常公司，ST 公司的類別為第一類且用“0”表示，同樣正常公司的類別為第二類且用“1”表示。設公司測試樣本集合為：

其中n 為待評估的公司總量，已知的公司訓練樣本集合為：

其中m 為訓練樣本總量，且每一個Y都均已確定其所屬類別，即取值為 0 或 1 都已確定。

定義 1：令代表家公司的第 a 項預警指標；代表第個訓練樣本的第 a 項預警指標，則第家公司與第個訓練樣本之間的距離為：

其中q為評估公司預警指標數總量。令 j=（1，2…。m），計算出 m 個距離，對d（，）進行升序排序，選取排序中前K個d（，），並進行統計，其中p表示前K個d（，）中有則有p個訓練樣本屬於ST公司，q 表示前K個d（，）中有則有q個訓練樣本屬於正常公司，則家公司財務危機分類預測模型可以表示為：

在討論近鄰演算法是往往要考慮誤差率的問題，譬如 Cover 和 Hart已詳細的分析了近鄰分類方法的錯誤率。k-近鄰演算法進行分類時，對於給定測試樣本點 x 時的條件錯誤率為：

其中第一項與第二項分別是與的條件錯誤率。K近鄰演算法使用的模型實際上對應於對特徵空間的劃分。演算法的三個基本要素是指：K 值的選擇，距離度量和分類決策規則。

首先對K值的選擇運用K-近鄰演算法進行分類時，它會對演算法結果造成重大影響，其中的一個重要因素是K值的選擇。當K值較小或較大時都會存在一定的弊端。譬如K值較小的時候，則意味著：需要訓練的樣本只有在它貼近較近的訓練樣本時才會出現分類結果，但這種情況下容易導致過度擬合；但若 K 值太大，儘管此時能夠減少學習估計的誤差率，但卻增大了學習的近似誤差。即這時候發生了預測分類的錯誤，儘管它此時能預測輸入例項較遠的訓練例項。在實際應用中，K值一般都會選擇出一個比較小的數值，此時選用交叉驗證的方法來選擇最有效的的K值。而當訓練例項數目越來越趨向於無窮時，兩倍的貝葉斯誤差率是大於或等於實驗的誤差率。若當 K值也趨向於無窮時，則此時的錯誤率也會趨向於貝葉斯錯誤率。經過反覆多次實驗發現，採用K-近鄰演算法建立財務預警模型時，當K值取1時（此時 K-近鄰演算法成為最近鄰演算法）實驗結果最好。

距離度量的本質屬性是一個函式，它一般用來衡量個體在空間上存在的距離，個體間的差異越大表明距離越遠。一個距離必須滿足4個性質：對於任意的向量 a，b和c，需要滿足非負性、自反性、對稱性和三角不等式。

而常見的距離為歐幾里得距離（Euclidean Distance），衡量的是多維空間中各個點之間的絕對距離如下：

K-近鄰分類方法它屬於一種非引數的分類技術，在對未知和非正態分佈的資料進行分類時能夠獲得更高的分類準確率，它的諸多優點中包涵了概念清晰、易於實現等等。但同時發現其在分類過程中計算量過大、太依賴樣本庫和距離函式的度量相似性不適用等問題。

二、K-近鄰演算法模型與支援向量機模型效能比較

透過上篇推文中對SVM的介紹，總結出K-近鄰演算法與SVM方法的特點：

第一，SVM 理論降低了高維空間問題的求解難度。它是利用線性可分情況下的求解方法並結合高維空間的內積函式（也稱為核函式）的特徵，解決對應的高維空間的決策問題，從而避開了高維空間的複雜性。但是此方法中核函式的求解存在一定的困難性，這也是該方法的不足所在。同時 SVM 是基於小樣本統計理論的基礎上提出的，以統計理論中的 VC 維理論與風險結構最小理論為基礎從而建立的，尋求具有複雜性的模型和學習能力兩者間的最佳狀態，從而得到最佳的能力。

第二，K-近鄰演算法中對於周邊的樣本已經進行了正確的分類，該方法進行分類決策時是透過周邊最鄰近的一個（或者幾個）樣本的類別來判別待分樣本的類別。

第三，相對於 SVM 方法來說，採用 K-近鄰演算法更加簡單、有效。由於主要靠周圍有限的鄰近的樣本的 K-近鄰演算法，而確定所屬類別不是靠判別類域的方法得來的，因此對於類域的交叉或重疊較多的待分樣本集來說，K-近鄰演算法較其他方法更為適合，同時該方法也比較適用於樣本容量比較大的類域的自動分類。在選擇智慧財務風險預警方法時，要考慮其適用性。

三、K-近鄰演算法模型應用

智慧財務風險預警研究是多學科交叉的，它是管理學、經濟學和統計學等諸多學科背景知識的融合。自 1932 年以來，繼 Fitzpatrick 後國內外學者進行了許多相關的研究。但隨著金融市場與社會經濟的發展進步，該領域的研究往往會有新的發現和突破。目前存在以下侷限：（1）指標選擇的侷限性。企業的經營狀況、財務狀況和管理水平透過許多指標反映，但研究畢竟有限不能涵蓋到各個方面。有些指標或許對財務預警意義重大但仍未被入選。（2）資料的可靠性。財務資料的可靠性和真實性本身具有一定的爭議性，因為公司可以對其進行操作，從而使其不能真實的反映公司經營與財務狀況，同時這些資料具有一定的滯後性，反映的僅僅是公司過去的經營狀況和財務成果。

企業的發展受到各方利益相關者的密切關注，但目前經濟環境下仍然存在資訊不對稱等問題。在研究智慧財務風險預警模型時，可以發現運用 K-近鄰演算法進行分類決策時，周邊的樣本已被正確的分類。此方法分類決策的原則是：測試集樣本（待分類樣本）的類別是透過與其最鄰近的一個（或幾個）樣本的具體是屬於哪個類別來判別的。因為有限的鄰近的樣本是K-近鄰演算法判別的依據，它在判別的過程中不需要依賴類域的的判別，因此待分樣本集具有類域的交叉或重疊較多的特點時，此時用 K-近鄰演算法進行分類較其他方法更為合適。研究智慧財務風險預警是在前人研究的基礎上，從償債能力、發展能力、經營能力、每股指標、盈利能力五個方面構建財務風險預警指標，並採用 K-近鄰演算法構建模型。一方面，財務指標的選取對財務預警有著至關重要的影響。另一方面，不僅要考慮到預警的準確率，而且需要重點分析預警的兩類錯誤，綜合分K-近鄰演算法的效能，K-近鄰演算法在對我國所有上市公司樣本進行財務危機預警時，既能保證不會預警過度，同時也能使第二類錯誤率控制在可接受的水平內。k-最近鄰法是一種效能較高的智慧財務風險預警方法，為投資者、企業經營者和監管層的決策分析提供了一種合理的技術手段。

有效的智慧財務風險預警系統建立之後，公司應該利用媒體的影響理力進行宣傳。將公司的風控文化對外宣傳，樹立了良好的企業形象：勢必對員工、投資者和債權人的利益負責到底。上市公司後期的經營發展、再融資也會因為良好的社會形象得到“綠卡”，得到種種便利條件。

宣告：此文目的在於傳遞更多資訊，並不代表贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題，請後臺留言聯絡我們。