“大資料與人工智慧環境下的智慧財務風險預警方法”系列推文七:

“大資料與人工智慧環境下的智慧財務風險預警方法”系列推文七:

前言:風險是指未來發生不確定性事件的機率,它指向於未來可能發生的事情,而非過去和現在。隨著大資料時代的到來,資訊的重要性越來越受到決策者的重視,精準把控財務風險是重中之重。企業陷入財務風險是一個循序漸進的過程,不同程度的財務風險,其症狀和表現不一。知識圖譜的出現進一步敲開了風險管控大門,本文介紹智慧財務風險預警方法——知識圖譜。

知識圖譜分析

知識圖譜,通俗地講,是一種結構化、語義化的知識庫,它以符號的形式來描述客觀世界中的概念、屬性及其相互關係。知識圖譜以結構化、語義化的方式描述了客觀世界中的概念、實體和關係,將來自網際網路中的海量繁雜的資訊表達成對人類更友好的、更接近人類思維方式的資訊形式,並提供一種更好地組織、管理和檢索海量資料的能力。其基本組成單元是實體、關係以及它們的關聯屬性,實體之間透過關係互相連結形成一張知識網路。知識圖譜目前在很多領域已經得到應用,比如人工智慧和商業智慧方面,包括聊天機器人、智慧問答、使用者推薦、臨床決策支援等。隨著雲計算與大資料時代的到來,大量的資料唾手可得,但是人們依然難以全面地瞭解和掌握一個企業的全息畫像,因為一個企業與周圍的環境以及夥伴存在著大量的關係和屬性,而且這些關係和屬性處在不斷變化之中,牽一髮而動全身。因此也無法準確清晰地對財務風險進行預警。如何更有效、快捷、及時地挖掘出這些關係,做到及時預警,是亟待解決的問題。

“大資料與人工智慧環境下的智慧財務風險預警方法”系列推文七:

① 知識圖譜原理

知識圖譜是對客觀物理世界的一種結構化的符號表達,也是一個網狀知識庫,它由具有屬性的實體透過關係連結而成,關係也包含自身的屬性。從圖論的角度理解,知識圖譜其在本質上是一種概念網路,其節點表示客觀物理世界中的實體,而邊則表示實體之間存在的各種語義關係。知識圖譜的表示是指用語言對知識圖譜進行建模,從而達到方便知識計算的目的。從圖的角度來看,知識圖譜就是一個語義網路,即用互聯的節點和弧表示知識結構。知識圖譜的表示是一種符合計算機高效計算要求的資料結構。知識圖譜是一種新的資訊組織方式,能夠基於 Web 網頁建立語義化的連結網路,以最小的代價組織分散在網際網路中的海量資訊,使其成為結構化、關係化的有價值的知識。在應用價值方面,知識圖譜帶來了一種新的資訊檢索方式:一方面可以透過知識推理和語義對映實現概念檢索;另一方面可以用圖形化的方式把結構化的知識反饋給使用者,並引導使用者進一步的探索,從而讓人們更專注於內容而不是低效的人工篩選過濾網頁尋找答案。

② 知識圖譜的架構

知識圖譜的架構分為邏輯結構和技術實現架構兩部分。其中邏輯結構描述了知識圖譜的組成和構造;技術實現架構描述的是構建知識圖譜過程中採用的技術和方法。

可以把知識圖譜的邏輯結構分成兩個層次:一個是資料圖,另一個是模式圖。在資料圖,知識通常以客觀事實為單位組織並存儲在圖資料庫中,例如微軟的 Trinity、谷歌的 Graphd 以及開源的 Neo4j 圖資料庫。如果以 RDF 三元組作為事實組織的基本形式,那麼這些存放在圖資料庫中的事實資料將會互相關聯構成一個龐大的關係網路,最後形成一個知識圖譜。

知識圖譜的核心是模式圖,它在資料圖之上。模式圖儲存的是經過提煉的比較可靠的事實,一般採用概念本體庫來管理,同時藉助於本體庫中對約束、規則以及公理的支援能力來對實體、實體型別、關係以及屬性等進行規範和約束。本體庫是知識庫的模具,定義了知識庫的“骨骼”,是知識圖譜的結構化的概念模板。通常採用定義本體庫來構造的知識圖譜知識庫冗餘度小、概念清晰、層次結構也比較強。

“大資料與人工智慧環境下的智慧財務風險預警方法”系列推文七:

③ 知識圖譜的構建

基於構造方式的不同,知識圖譜主要有兩種構建方式:自頂向下構建和自底向上構建。自頂向下方式主要是從高質量結構化資料中提取本體和模式資訊構建模式圖;自底向上方式是採用技術手段從公開或私有的結構化、半結構化和非結構化資料中提取資源模式,然後選擇裡面置信度高的部分知識新增到知識庫形成資料圖。一般來講,知識圖譜的構建不是一個一步到位的事情,而是一個不斷迭代更新的過程,其中每一輪的迭代更新都會涉及三個步驟:知識獲取、知識融合以及知識加工,其中可能還會包括知識推理和知識質量檢查。

知識獲取指的是採取一定的技術手段從各種不同型別的資料來源中獲取、提煉出實體、實體屬性以及各種實體之間的關係和屬性,經過整理後形成本體的事實知識表達。知識獲取實現的主要技術包括網路爬蟲、機器學習、知識挖掘、自然語言處理、基於內在機理的知識發現技術等。在大資料環境下,智慧化的資料抽取、提煉和挖掘技術顯得尤為重要,大量的知識資源為後續的知識推理、融合奠定了堅實的基礎。知識融合是在透過知識獲取獲得新的知識後,還需要對其進行整合,消除其中的歧義和矛盾,實現實體同義詞的唯一引用,知識融合主要分為資料模式層融合和資料層融合。由於行業知識圖譜的資料模式通常採用自頂向下和自底向上結合的方式,在模式層基本都經過人工的校驗,保證了可靠性,因此,知識融合的關鍵任務在資料層的融合。知識加工則是透過前期的知識獲取,實現了從原始語料中提取出實體、關係與屬性等知識要素,再經過知識融合便可以消除實體項與實體物件之間的歧義,得到一系列基本的事實表達。但是,事實本身並不是等於知識,要經過知識加工後才能最終獲得結構化、關係化、連結化的清晰知識體系。知識加工主要包括本體構建、知識推理以及質量評估三個方面的內容。

隨著科學技術的發展,在知識圖譜的構建方面已經積累了大量的通用知識圖譜的構建方法和技術。早期,主要是透過人工構建的方式完成工作,形成了 ResearchCyc、WordNet 等通用的知識圖譜。隨後出現大量基於維基百科構建的知識圖譜,比如 YAGO、DBpedia 等。在構建中文知識圖譜方面,也出現了兩個比較重要的產品:Zhishi。me 和SSCO,他們除了中文維基百科外,還結合了互動百合和百度百科這兩個比較流行的中文百科站點的資料。基於開放領域知識獲取的知識圖譜構建技術近年來也受到越來越多的關注,它們採用增量迭代的方式從互聯語義網路中抽取出 RDF 三元組來不斷構建和補充知識圖譜。但是面向行業的垂直知識圖譜與通用知識圖譜在範圍和深度上並不相同,因此他們在構建方法上也有所區別。

④ 知識圖譜應用於財務風險預警可行性

基於知識圖譜的企業智慧財務風險預警,其特殊之處在於融合了所有的學科,不同來源、不同結構、不同型別的知識單元都融合在圖譜中,知識體系不斷拓寬和深化,把知識領域的資料體系化和關係化,最終以圖的方式視覺化。也就是說,知識圖譜技術是一種知識體系,根據資訊系統,運用資料採集、資料探勘、資訊處理、知識計量和圖形繪製等技術把複雜的知識領域以關聯成圖的樣式展現出來,從而發現知識領域的動態發展規律。對於企業而言,這意味著可以提取非結構化資訊,非結構化的資訊來源非常廣泛。在資訊爆炸的時代,對於企業而言,需要提取個人與企業的非結構化資訊來豐富資料維度,尋求更為準確的智慧財務風險預警模型。知識抽取技術的物件是開放的連結資料,使用專業的自動化技術從半結構化、非結構化的資料中抽取實體,進而形成高質量的事實表達,是上層模式層的構建的基礎。透過知識抽取技術,從海量的資料庫中提取出與個人和企業所有的非結構化資訊資訊,為之後的知識融合提供了資料的來源。

知識圖譜中的知識有很多不同的來源,因而在無法保證知識的質量,知識的質量高低不一,由於知識來自於不同的渠道,大量重複的知識可能存在於知識庫中,並且知識的之間的關聯度不夠,這些些問題會影響知識的使用,因而需要首先對知識進行融合。不同來源的知識在規定好的規則下透過異構資料的整合,消除知識歧義,並且對過濾之後的知識進行加工、驗證推理和更新,達到資料、資訊、方法、經驗以及人的思想的融合,形成高質量的知識庫。透過知識提取的步驟,非結構化的資訊只是知識的基本單位,只有經過知識的融合,才不會為後續的步驟帶來後續的麻煩,將資訊混亂防止在源頭,避免資訊的歧義。在提取的只是的基本單位中,存在的大量資料會干擾處理過程,降低資料整合的效果。因而必須透過知識加工的過程,將大量的干擾資料除去,過濾乾淨的資訊,從而組建一個大規模的知識體系,統一進行知識管理。

透過知識圖譜技術,從大量非結構化的資訊中提取出來與主體相關的資訊,融合了主體線上、線下的大量資料,將非實名制資料進行實名制轉化,將使用者社交關係人群的信用情況引入評價體系,使原本大量沉澱的網際網路行為資料發揮作用,可有效提高風險管理水平。

⑤ 基於知識圖譜的財務風險評價思路

以人工智慧和大資料為代表的新一代資訊科技正在改變著企業的運營模式和交易方式,企業財務風險評價也湧現出一些新特徵,主要表現為傳統的靜態評價為主向全過程的動態評價為主、主觀評價為主向資料驅動的客觀評價為主、區域性評價為主向多維的全景式評價為主、以及封閉評價為主向多主體的協同評價為主的轉變。

新一代資訊科技的發展,使得企業財務活動過程的細節資訊以及與外部相關主體交易過程資訊等都被實時記錄在各類系統中,如何透過對這些細節資訊的深度挖掘分析,解析財務風險的成因、過程和影響,企業與外部相關主體複雜的互動關係會對其財務風險產生何種影響?企業財務風險會受到微觀、中觀、宏觀多層次因素的影響,如何有效融合海量動態、多源異構的財務風險大資料,集結成對企業財務風險整體的客觀評價?這些均是傳統財務風險評價理論和方法難以應對的挑戰。而知識圖譜可以系統分析多模態資料之間的內在聯絡更為有效地識別隱秘的關聯規則和深度知識發現,勾勒出企業財務風險評價“動因——行為——結果”的全過程,而不是資料表面的勾稽關係和影響企業財務風險評價的表徵特性,可以得到單一資料來源無法準確刻畫的知識,比如企業的社會關係網路、創新網路等。

“大資料與人工智慧環境下的智慧財務風險預警方法”系列推文七:

企業社會關係網路知識圖譜舉例

以企業社會關係網路知識圖譜構建為例,我們可以從社交媒體、企查查、天眼查等多來源獲取關聯企業、競爭企業、供應商、客戶、銀行、工商、稅務、法院等多主體多模態資料資訊,透過路徑分析、關聯探索等操作進行企業間在擔保、訴訟、投資與控股、合作與競爭、供應鏈等方面的異常關聯挖掘,挖掘目標企業譜系中的異常關聯,從多維度構建資料模型,是單一實體資料中所無法揭示的資訊。企業社會關係網路知識圖的譜構建是全方位企業風險評估中的一環,可以有效規避潛在擔保風險、違約風險、訴訟風險以及資金風險等,這些都可以作為企業財務風險評價的有效證據。

安徽經邦致力於新一代資訊科技與財務分析與融合的理論及系統開發應用,擁有一支專業的建模團隊和專家團隊,本推文中關於“知識圖譜與財務風險評價”融合思路與論述來自於專家團隊最新的研究。