5分鐘，人人都懂人工智慧（下）

你我相遇即刻未來

語音技術&自然語言理解技術&計算機視覺

之前極課君介紹的人工智慧背景可能會偏原理，那麼接下來，極課君介紹一下人工智慧技術在我們的生活中的應用。想想我們人類智慧還有哪些屬性呢？首先要有外部器官輔助我們來收集資訊，眼睛看世界、耳朵聽世界、鼻子聞世界、手指觸控世界，然後大腦處理資訊、再用嘴巴說出來，肢體表現出來。人工智慧也就希望用機器來模擬人類的這些屬性，讓機器幫助我們，甚至代替人類的勞動。

主題圖示意，來源：endroid。com

語音技術

語音技術包括了聲學訊號處理、語音識別、自然語言處理、語音合成等。

雞尾酒效應示意，來源：Diane Dempsey

聲學訊號處理（acoustics signal processing）

旨在把語音訊號中的噪音去除乾淨，把我們想聽的語音訊號提取出來。最典型的身邊的例子就是“雞尾酒效應”——人的一種聽力選擇能力，在這種情況下，注意力集中在某一個人的談話之中而忽略背景中其他的對話或噪音。

語音識別（Automatic Speech Recognition，ASR，Speech-to-Text，STT）

是要機器聽得懂人話，這其實並非像我們想象的這麼不容易。在計算機中，語音訊號只是一堆資料，我們要做的是要把這堆資料轉成文字，再交給計算機對文字的意義進一步識別。極課君會在近期邀請一些業界大師給大家普及一下語音識別技術，同時我們的課程團隊也在籌備課程，帶大家一步步動手製作一套語音識別系統。

自然語言處理（Nature Language Processing，NLP）

在語音識別中也扮演重要作用，要機器完全聽懂人說話，則需要自然語言處理技術對文字組成的片語意圖進行猜測。例如一個帥哥對一個美女說了一句：“我喜歡你”，如果沒有自然語言處理，機器可能會識別成“窩戲還尼”，自然語言處理的作用就是把識別出來的字組合成最可能出現的片語。當然現在的神經網路的訓練中會自動在資料中完成這一操作。

語音合成（Speech Synthesis，Text-to-Speech，TTS）

可以看作是語音識別的反過程，就是把文字用合成的語音念出來，讓機器有講話的能力。我們的蘋果手機中Siri、偉大的物理學家霍金的聲音都是用這種方式合成出來的。

霍金，來源：Wicked Facts

自然語言理解技術

極課君認為人工智慧技術要發揮作用最終都會迴歸到自然語言理解（Nature Language Understanding，NLU）技術，其實我們要做的就是告訴機器一個規則，然後讓他明白。

在過去，人們定義了一套編譯器，給機器創造了一種語言，人類要用機器的語言讓機器做事情。而現在，人們希望讓機器能理解人類的語言，這樣能讓機器做更多的事情。

自然語言理解說得直白一些，就是把世上所有的資料都用自然語言描述出來，讓機器去執行類似人類的操作。當然，目前比較高效的自然語言理解技術都還是以深度學習的方式，聰明的科學家們把單詞用向量來表示，把文章用矩陣來表示，再透過數理統計等技術，讓我們能把過去看似只能用邏輯符號解決的問題，能夠用漂亮的公式解決。太神奇了！

詞向量示意圖，來源：Macro Bonzanini

計算機視覺

計算機視覺（Computer Vision，CV）顧名思義，就是想做計算機的眼睛，從原理上來說其實很好理解，幾乎所有的計算機視覺的目標任務都是分類，給定一個影象，讓計算機能告訴你這個影象中包含的東西有哪些。很多人可能不理解，明明我們自己可以透過眼睛辨識事物，為什麼要讓計算機告訴我們。

一方面，因為我們人類辨識物體是要耗費精力的，而且速度有限，機器如果可以辨識物體，那它們可以全天不間斷的高速察看物體。這在安防監控中很常用，現在的攝像頭可以在瞬間從錄影當中辨識出犯罪分子，真的可以做到“天網恢恢，疏而不漏”。還有大家經常聽到的無人駕駛技術，計算機視覺也發揮了非常重要的作用。另外，計算機有了視覺能力以後，它就擁有了感覺器官，可以更加自主得幫助我們人類勞動啦。下圖展示的就是計算機擁有了視覺能力以後它看到的世界。