5分鐘,人人都懂人工智慧(下)

5分鐘,人人都懂人工智慧(下)

你我相遇 即刻未來

5分鐘,人人都懂人工智慧(下)

語音技術&自然語言理解技術&計算機視覺

之前極課君介紹的人工智慧背景可能會偏原理,那麼接下來,極課君介紹一下人工智慧技術在我們的生活中的應用。想想我們人類智慧還有哪些屬性呢?首先要有外部器官輔助我們來收集資訊,眼睛看世界、耳朵聽世界、鼻子聞世界、手指觸控世界,然後大腦處理資訊、再用嘴巴說出來,肢體表現出來。人工智慧也就希望用機器來模擬人類的這些屬性,讓機器幫助我們,甚至代替人類的勞動。

5分鐘,人人都懂人工智慧(下)

主題圖示意,來源:endroid。com

語音技術

語音技術包括了聲學訊號處理、語音識別、自然語言處理、語音合成等。

5分鐘,人人都懂人工智慧(下)

雞尾酒效應示意,來源:Diane Dempsey

聲學訊號處理(acoustics signal processing)

旨在把語音訊號中的噪音去除乾淨,把我們想聽的語音訊號提取出來。最典型的身邊的例子就是“雞尾酒效應”——人的一種聽力選擇能力,在這種情況下,注意力集中在某一個人的談話之中而忽略背景中其他的對話或噪音。

語音識別(Automatic Speech Recognition,ASR,Speech-to-Text,STT)

是要機器聽得懂人話,這其實並非像我們想象的這麼不容易。在計算機中,語音訊號只是一堆資料,我們要做的是要把這堆資料轉成文字,再交給計算機對文字的意義進一步識別。極課君會在近期邀請一些業界大師給大家普及一下語音識別技術,同時我們的課程團隊也在籌備課程,帶大家一步步動手製作一套語音識別系統。

自然語言處理(Nature Language Processing,NLP)

在語音識別中也扮演重要作用,要機器完全聽懂人說話,則需要自然語言處理技術對文字組成的片語意圖進行猜測。例如一個帥哥對一個美女說了一句:“我喜歡你”,如果沒有自然語言處理,機器可能會識別成“窩戲還尼”,自然語言處理的作用就是把識別出來的字組合成最可能出現的片語。當然現在的神經網路的訓練中會自動在資料中完成這一操作。

語音合成(Speech Synthesis,Text-to-Speech,TTS)

可以看作是語音識別的反過程,就是把文字用合成的語音念出來,讓機器有講話的能力。我們的蘋果手機中Siri、偉大的物理學家霍金的聲音都是用這種方式合成出來的。

5分鐘,人人都懂人工智慧(下)

霍金,來源:Wicked Facts

自然語言理解技術

極課君認為人工智慧技術要發揮作用最終都會迴歸到自然語言理解(Nature Language Understanding,NLU)技術,其實我們要做的就是告訴機器一個規則,然後讓他明白。

在過去,人們定義了一套編譯器,給機器創造了一種語言,人類要用機器的語言讓機器做事情。而現在,人們希望讓機器能理解人類的語言,這樣能讓機器做更多的事情。

5分鐘,人人都懂人工智慧(下)

自然語言理解說得直白一些,就是把世上所有的資料都用自然語言描述出來,讓機器去執行類似人類的操作。當然,目前比較高效的自然語言理解技術都還是以深度學習的方式,聰明的科學家們把單詞用向量來表示,把文章用矩陣來表示,再透過數理統計等技術,讓我們能把過去看似只能用邏輯符號解決的問題,能夠用漂亮的公式解決。太神奇了!

5分鐘,人人都懂人工智慧(下)

詞向量示意圖,來源:Macro Bonzanini

計算機視覺

計算機視覺(Computer Vision,CV)顧名思義,就是想做計算機的眼睛,從原理上來說其實很好理解,幾乎所有的計算機視覺的目標任務都是分類,給定一個影象,讓計算機能告訴你這個影象中包含的東西有哪些。很多人可能不理解,明明我們自己可以透過眼睛辨識事物,為什麼要讓計算機告訴我們。

一方面,因為我們人類辨識物體是要耗費精力的,而且速度有限,機器如果可以辨識物體,那它們可以全天不間斷的高速察看物體。這在安防監控中很常用,現在的攝像頭可以在瞬間從錄影當中辨識出犯罪分子,真的可以做到“天網恢恢,疏而不漏”。還有大家經常聽到的無人駕駛技術,計算機視覺也發揮了非常重要的作用。另外,計算機有了視覺能力以後,它就擁有了感覺器官,可以更加自主得幫助我們人類勞動啦。下圖展示的就是計算機擁有了視覺能力以後它看到的世界。

5分鐘,人人都懂人工智慧(下)

智慧攝像機視角,來源:tumblr。com

好啦,到目前為止,極課君基本上把人工智慧當中的知識點做了一遍梳理,未來極課君還會講更多有關人工智慧的知識。關注我們,不要離開哦~