知識就是力量:馬爾可夫模型

知識就是力量:馬爾可夫模型

知識就是力量

我非常確切地知道,我的智力不屬於人類前20%的那種。所以,餘生努力的方向,顯然不能放在學術前沿的研究上。更能做出成果的方向,是“六經注我”,然後“我注六經”。也就是集中在這樣一個經典問題上:

這個模型、這個方法、這個知識在我的實際生活和工作中可以如何落地運用?如何嵌入到我的知識體系當中,融入到我的血液當中?

比如說,今天接觸到了一個模型——馬爾可夫模型和隱馬爾可夫模型。

馬爾可夫(1856~1922),蘇聯數學家。切比雪夫的學生。在機率論、數論、函式逼近論和微分方程等方面卓有成就。

簡單地查了資料,這個模型

主要應用於

語音識別、音字轉換、詞性標註。

隱馬爾可夫模型最早的成功應用是語音識別。20世紀70年代,當時IBM華生實驗室的賈里尼克領導的科學家,主要是剛剛從卡內基–梅隆大學畢業的貝克夫婦(Jamesand Janet Baker),他們提出用隱馬爾可夫模型來識別語音,語音識別的錯誤率相比人工智慧和模式匹配等方法降低了2/3(從30%到10%)。20世紀80年代末李開復博士堅持採用隱馬爾可夫模型的框架,成功研發出了世界上第一個大詞彙量連續語音識別系統Sphinx。接下來,隱馬爾可夫模型陸續成功地應用於機器翻譯、拼寫糾錯、手寫體識別、影象處理、基因序列分析等很多IT領域,近20年來,它還廣泛應用於股票預測和投資。

這個和我有什麼關係呢?第一個關係是,可以使用根據這個模型做出來的產品和工具,比如說IPhone的siri,小米的人工智慧音箱“小愛同學”,吉利汽車搭載的語音助手等等。這些產品和工具,給我提供了更豐富的與手機、汽車互動的方式和手段。給生活帶來了很大的便利性,同時增添了很多趣味。比如說,開車的時候,想聽音樂了,直接說一句:“博越,播放王力宏的音樂”,不到5秒鐘,車載音樂播放器就開始播放王力宏的歌。在整個過程中,手不用離開方向盤,眼睛的視線一秒鐘都不用離開前方道路。駕駛的安全性就提升了很多,並且非常的方便和流暢。再比如,晚上和寶寶在床上做遊戲,二歲的寶寶拿著手機和siri說話,完全不用幹預,對話過程極其有趣。寶寶:“siri,你睡了嗎?” Siri:“睡覺真是說起來容易,睡起來難啊。”這樣一番對話,直接把我們給笑得人仰馬翻,頓時整個房間就被我們哈哈哈的笑聲給填滿了,久久迴盪。

除此以外呢?還有什麼關係呢?於是進一步找資料,探索,看有沒有什麼是我能弄明白的,並且弄明白了可以用在生活和工作中的。在探索的過程中,就接觸到了這樣一些概念:

狀態;隱藏狀態;可觀察的狀態;狀態轉移矩陣;時間序列資料;通用的統計工具;統計模型;機率估計;機率模型;鏈的大數定律;馬爾可夫過程;馬爾可夫性質;馬爾可夫鏈;隨機過程理論

等等。有了一些基本的理解和認識。

馬爾可夫模型可以歸類到《機率論與數理統計》這一學科中,是一個用來做機率估算的模型。這個模型有一個基本的假設,也是馬爾可夫為了簡化問題,提出的一種簡化的假設:

隨機過程中各個狀態Xt的機率分佈,只與它的前一個狀態Xt-1有關P(Xn+1=x∣X0,X1,X2,…,Xn)=P(Xn+1=x∣Xn)

。具體的模型此處不贅述,對於這個模型感興趣的可自行去找資料,很多。我感興趣的是這個模型如何用。

舉個例子,我今天的健康狀態和昨天的健康狀態有關係,也和從我出生的那一天開始的每一天的健康狀態有關係,這個好理解吧。比如說我犯有某一種先天性的疾病,那那個初始健康狀態就會影響我今天的健康狀態。如果昨天我感冒了,那麼今天感冒的機率也很大。為了簡化這個問題,依據馬爾可夫假設,就是我今天的健康狀態,只和昨天的健康狀態有關。同樣的,關於工作狀態、學習狀態、心情狀態,也可以以此類推。

知識就是力量:馬爾可夫模型

馬爾可夫鏈

以上面馬爾可夫鏈舉例,如果m1代表星期一的健康狀態,m2代表星期二的健康狀態,m3代表星期三的健康狀態,m4代表星期四的健康狀態,連線線上的數字代表機率或權重。透過這個模型我們就可以完成預測和反推。如果有大資料的餵養,經過一段時間的訓練(調參),這個模型的預測能力就會越來越強。比如說預測你明天的健康狀態。

隱馬爾可夫模型,就是在這個模型裡,有一個可見狀態,一個不可見狀態,且可見狀態與不可見狀態之間唯一相關。

參考書籍

吳軍:《數學之美(第三版)》