人工智慧重要的一部分:智慧語音識別技術

一、技術篇:語音識別和NLP技術仍不成熟

智慧語音語義包含語音合成、語音識別和自然語言處理(NLP)三項主要技術。

語音合成技術發展最早,應用已較為普遍,除了合成音仍偏機械之外,基本不存在太大技術問題;語音識別在2012年卷積神經網路(CNN)應用之後,準確率大幅提升,已經在C端、B端得到了廣泛應用,但效果和體驗還不夠理想;NLP技術雖然在搜尋引擎中早有應用,但在人機互動領域仍屬於淺層處理。

語音識別“魯棒性“問題顯著

在生物學中,有個術語叫做“魯棒性”,是指系統在擾動或不確定的情況下,仍能保持它的特徵行為。這一問題在語音識別領域也存在。

語音識別整個過程包含語音訊號處理、靜音切除、聲學特徵提取、模式匹配等多個環節。由於語音訊號的多樣性和複雜性,系統只能在一定限制條件下才能獲得滿意效果。在真實使用場景中,考慮到遠場、方言、噪音、斷句等問題,準確率會大打折扣。目前業內普遍宣稱的97%識別準確率,更多的是人工測評結果,只在安靜室內的進場識別中才能實現。

要解決語音識別魯棒性問題,需要在技術和產品兩方面進行最佳化。一方面,在語音增強、麥克風陣列以及說話人分離等多項技術領域持續投入,並結合後端語義,促進對上下文的理解,從而提升識別效果;另一方面,需要從產品設計上進行最佳化,比如透過進一步互動,使語音識別變得更為準確。

語義分析仍是淺層處理

NLP技術大致包含三個層面:

詞法分析、句法分析、語義分析

,三者之間既遞進又相互包含。

人工智慧重要的一部分:智慧語音識別技術

圖:NLP分析技術

詞義消歧是NLP技術的最大瓶頸。機器在切詞、標註詞性、並識別完後,需要對各個詞語進行理解。由於語言中往往一詞多義,人在理解時會基於已有知識儲備和上下文環境,但機器很難做到。雖然系統會對句子做句法分析,可以在一定程度上幫助機器理解詞義和語義,但實際情況並不理想。

目前,機器對句子的理解還只能做到語義角色標註層面,即標出句中的句子成分和主被動關係等,它屬於比較成熟的淺層語義分析技術。未來要讓機器更好地理解人類語言,並實現自然互動,還是需要依賴深度學習技術,透過大規模的資料訓練,讓機器不斷學習。當然,在實際應用領域中,也可以透過產品設計來減少較為模糊的問答內容,以提升使用者體驗。

由於人工智慧技術對資料依賴性極高,因此,這一領域的技術進步和產業化推進是一種協同關係——透過工程化的方法提升技術效果和體驗,從而促進產業化應用,再根據實際應用中的資料和反饋,反過來推動技術實現突破。那麼,智慧語音語義在產業化方面都有哪些應用領域,又存在哪些問題?

二、應用篇:C端提升體驗,B端提升效率

以問答和聊天為服務形式,智慧語音語義在多個使用場景和行業領域都有廣泛應用,我們可以簡單從C端和B端兩個方向分別來看。

人工智慧重要的一部分:智慧語音識別技術

圖:語音識別/NLP技術應用領域

C端應用方面,主要用於移動裝置、汽車、家居三大場景,用來變革原有人機互動方式;B端則針對垂直行業需求,提升人工效率,比如幫助醫生做電子病歷錄入,或代替部分人力工作,比如回答大部分簡單重複的客服問題。由於兩大領域解決的問題不同,因此遇到的挑戰也各不相同。

C端應用:變革互動方式,需求和體驗是關鍵

智慧語音為C端提供了一種全新的互動方式,但應用和普及又跟具體場景和需求掛鉤。目前,三大場景中,移動裝置中的智慧手機,以及車內語音互動應用最為廣泛。家居領域中,雖然各種家電企業也在廣泛佈局,但實際使用情況並不理想。

移動裝置

智慧語音語義在智慧手機和可穿戴裝置中的應用不盡相同。可穿戴裝置雖然沒有螢幕或螢幕較小,更適合語音互動,但大多(比如智慧手錶)都是非生活必需品,本身銷量就很有限,再加上一些可穿戴裝置並沒有太多互動需求,因此實際應用量較少。

智慧手機中的各類應用軟體大多都配備了語音功能,但相比觸控和文字互動,使用率也不算高。很多人仍然沒有經常使用語音的習慣,或者還沒有使用語音的意識。究其原因,主要由於語音互動在效果和效率上都不夠理想。

從效果上看,語音在開放場景下識別準確率並不高。對於使用者來講,結果不可預期,產生錯誤後糾錯成本很高,所以寧願打字。再者,使用者在手機端對於打字和觸控已經非常習慣,因此缺乏改變習慣的動力。

從效率上看,語音在智慧手機和各類軟體上的應用主要以輸入、搜尋和調取服務為主,輸入資訊量並不大,而且大多移動應用都是基於觸控和文字做的互動設計,有文字推薦、按鍵選擇等友好設定,因此原有互動方式本身已經非常便捷,語音互動效果不好,容易出錯,並不能很好地提升效率。

目前,除了重度文字使用者,比如作家、記者、編輯等,對語音輸入和轉化有著剛性需求,其他人使用語音更多還是在無法打字或不方便觸控時,比如走路、開車等情況下。不過,隨著語音識別和互動體驗不斷提升,會有越來越多的人在移動端使用語音。

汽車

由於人在車內雙手和雙眼被佔用,而需求又十分明確,因此智慧語音成了這一場景下最合適的互動方式。

智慧語音在車內的應用主要以車載導航為主,輔以查詢和用車。對於業界熱炒的“以語音為入口連線各種服務,從而構建車聯網生態”的暢想,目前看來還距離較遠。核心困難在於,整個行業尚未找到車內場景下使用者的剛性、高頻需求。或許等到自動駕駛汽車普及之後,人的雙手雙眼以及大腦解放出來,才有條件搭建包含各種服務的車內生態。

對於涉足汽車領域的語音企業來說,當前最重要的是,把導航等剛性需求的體驗做到位,再去考慮如何延伸服務。

家居

在家居場景下,智慧語音應用主要圍繞智慧電視、音箱、家用機器人展開,解決的需求包括搜片、聽歌、提醒、簡單互動、應用調取等。

亞馬遜Echo面世,帶動了語音互動在家居領域應用的熱潮。從2014年下半年至今,Alexa平臺應用數從最初20多個增加到7000多個,並在過去半年內以每月1000個左右的速度增加。據CIRP報告估計,截止2016年11月,Echo累計銷量超過510萬臺,2016年Q1-Q3共銷售約200萬臺,較前三季度增長18%(2015Q2-Q4資料來源於Mary Meeker《2016網際網路趨勢報告》)。

人工智慧重要的一部分:智慧語音識別技術

圖:亞馬遜Echo銷量估計

家居環境的天然特性使得語音成為最合適的互動方式,類似於Echo Alexa這樣的平臺將吸引越來越多的應用,不斷豐富其產品功能,完整智慧家居生態環境。隨著使用者習慣不斷養成,這樣的“智慧家居控制中心”和“流量入口”有望快速普及,成為iPhone級爆款。不過,由於語音是一種全新的互動方式,除了技術所需的提升,各類應用在開發設計時還將面臨使用者體驗和價值考量等全新挑戰。

除了音箱、檯燈等小家電智慧產品,家用機器人也成了創業者爭相押注的物件。擬生物形態智慧產品的火熱某種程度上承載著人類對於機器人的美好願望,但創業者還是要從價值和實用性角度考量其產品形態的設計邏輯。最終哪種形態的智慧產品會“笑到最後”,還得市場說了算,但語音會成為家居互動主流這一點,已經毋庸置疑。

值得一提的是,一些傳統家電,如空調、冰箱、洗衣機、抽油煙機等,也開始配備語音互動功能,事實上並不理性。無論是控制開關、調節設定,還是對話溝通,從現有技術水平所能解決的需求和效率來看,都價值有限,或許等到語音互動成本下降,效率提升,才有可能在各種家電終端上普及。不過更多行業人士傾向於認為,智慧家電的語音控制要麼透過一箇中樞裝置來進行,要麼透過房屋前裝分體式設計來實現。

除了以上三大領域,商用服務機器人的逐漸成熟,有望為語音語義在商場、醫院等各類服務場所開闢新的應用領地,點餐機、訂票機等傳統形態服務裝置也將會以語音這種全新的互動方式服務大眾,市場之廣闊,可想而知。

B端應用:提升效率、解放人力,深耕垂直行業是根本

智慧語音語義在B端的應用主要集中於客服、教育、醫療、旅遊等領域。

客服

客服作為勞動密集型行業,對於一些大公司來說,成本依然很高。智慧機器人客服的出現可以在很大程度上解決簡單、重複性工作,幫助企業節省人工和坐席成本,提升運營效率。

由於客服問題主要聚焦在特定產品或單一垂直領域,因此需要企業擁有完整的結構化知識庫,幫助機器人更好地查詢和匹配問答內容。目前,按照行業平均水平,機器人客服可以解決70%左右問題,其餘由人工處理。

機器人客服是主要戰場。從成立較早的智臻智慧(小i機器人)、捷通華聲,到後來的圖靈機器人、智齒科技、驀然認知,以及從雲客服轉型智慧客服的UDesk等,都希望在智慧客服市場分得一杯羹。

由於業務量大、付費能力強,且知識庫完整,金融、電信、航空公司等大型客戶成了智慧客服的主要應用群體。要更好地滿足這些群體的需求,各家公司需要針對不同行業對演算法和技術做相應的改進和最佳化,在實際應用中,用更大的資料量去提升產品體驗和效果。

教育

教育領域,包括中英文口語評測,以及部分教育機器人的互動功能。科大訊飛作為智慧語音和教育市場的龍頭企業,透過為一些全國性考試提供技術支援,已經成為中英文口語測評方面的主要玩家。2016年底,科大訊飛與新東方聯合成立東方訊飛,用新東方的資料+訊飛的技術,推動教育、培訓、學習的智慧化程序,智慧語音測評技術有望在其中發揮重要作用。

在訊飛的廣泛佈局之下,脫胎於老牌語音公司思必馳,後被網龍(HK 00777)全資收購的馳聲科技,也透過2B2C的模式,在培訓、出版、考試服務、教育軟硬體等領域持續發力,欲透過中高考口語考試解決方案、人機英語對話模擬考輔系統打入學校市場。

體制之外,以英語流利說為代表的口語評測應用也廣受C端使用者好評。依靠四年時間積累的3000萬用戶資料、500萬小時練習錄音,流利說於2016年推出可替代口語老師的自適應移動英語課堂“懂你英語”,加上輔助線上答疑及外教上課,有望領先一步實現自適應口語學習的商業化落地。

智慧語音在教育領域的價值,一方面在於提高教師工作效率,另一方面在於幫助學生提升學習效果。透過大量語音資料的積累,並和後端大資料分析、機器學習相結合,智慧語音有望在機器輔助學習和自適應學習方面發揮重大作用,為教育行業帶來顛覆性變革。

醫療

醫療領域的應用目前主要是電子病歷錄入。醫生在臨床診斷時使用專業麥克風,可將診斷資訊實時轉化成文字,錄入醫院HIS(Hospital Information System)系統,方便後續查詢和問答,提高醫生工作效率。

由於專業性強、識別難度高,國外語音巨頭Nuance最早主要是通過後臺人工轉寫,而隨著語音識別技術有了突破性進展,國內智慧語音在國內醫療領域的應用也開始起步,訊飛和雲知聲是該領域典型代表。

訊飛正在和安徽省立醫院、上交大附屬第六醫院南院以及北大口腔醫院等合作,讓醫生使用定製麥克風,透過定向和降噪,先將語音轉成文字,再用NLP技術對文字進行結構化處理(比如分段),醫生只需再做簡單修改即可形成電子病歷。此外,訊飛還在醫療影像翻譯、醫療大資料分析方面展開佈局,欲將AI技術廣泛用於智慧醫療領域。

雲知聲的智慧醫療語音錄入系統也已經在協和醫院、西京醫院試點使用。同時,其醫療語音技術還上線了“平安好醫生”20多個科室,讓醫生透過語音方式,更便捷地與患者進行線上溝通。

當前,語音在醫療領域的應用還處於語音轉文字的初級階段,在實際使用中的部分識別錯誤還需要醫生手動修改。不過,以語音為入口所積累的大量醫療資料會在未來產生巨大價值。此外,隨著醫療技術和語音分析技術的進步,透過聲音診斷病情也將成為可能。南加州大學已經開發出一套新的機器學習工具,可以透過患者的特定語音特徵,輔助醫生診斷抑鬱症等心理疾病。

金融

由於金融行業帶有明顯的客戶服務屬性,加上完整而龐大的業務及資料積累,因此成為智慧語音語義的重要應用陣地。當前,一些商業銀行已經透過使用語音識別技術,實現了語音導航、語音交易、業務辦理等基礎服務。

除了線上客服和呼叫中心,智慧語音技術還被應用於語音/語義分析、大資料探勘、身份認證等領域。捷通華聲的智慧語音分析系統就透過將語音資料轉化為文字,而後建立語義索引、自動提取特徵關鍵詞,再對文字資料進行自動分類,生成結構化的客服大資料,為銀行等金融機構提供客服質檢、大資料探勘與分析服務。

此外,隨著聲紋識別技術的進步,智慧語音也將被應用於金融領域的身份認證,透過語音認證實現業務辦理、支付等功能,未來有望和指紋、虹膜、人臉等其他生物特徵識別方式一起使用。

除了上述四大領域,智慧語音語義技術也逐漸滲透到安防、旅遊、法律等行業,在效率效果提升、解放人力等方面發揮越來越重要的作用。

三、業務模式及行業格局篇:巨頭優勢明顯,創業公司垂直突圍

從業務和規模來看,語音語義類公司大致可分為三類:

大型網際網路公司、行業技術巨頭、創業公司。

人工智慧重要的一部分:智慧語音識別技術

圖:智慧語音語義行業業務模式對比

大型網際網路公司

由於NLP是搜尋引擎的關鍵技術之一,因此百度、搜狗自然而然地成為頭號玩家。兩家公司依託其強大的搜尋引擎和輸入法應用,不僅將語音技術用於自身產品,還透過與行業其他技術和產品提供方合作,推出面向C端的產品和應用。比如,搜狗聯合四維圖新、飛歌等,推出全語音互動的車載導航產品,百度度秘攜手小魚在家,推出Duer OS以及家用影片對講機器人。

由於網際網路公司擅長直接服務使用者,因此不會輕易涉足教育、金融等傳統垂直行業,而是會把重心放在消費類產品和應用上,其模式主要包括2C和2B2C兩種,最終都會落地到消費領域。

技術巨頭

技術類公司中,科大訊飛一直以來都是做2B業務,向教育、電信、客服、政府等垂直行業輸出語音合成和識別技術,經過十多年積累,訊飛已經積累了相當大的市場份額。近兩年,訊飛一方面在智慧車載、智慧家居、智慧機器人等新興市場加大布局,另一方面也在努力向消費端傾斜,透過訊飛語音輸入法、錄音寶等產品打入C端市場,逐漸加強品牌認知度。因此,其商業模式既有2B、2C,也有2B2C。

技術類創業公司

其他技術類創業公司大多以2B或2B2C為主。比如,雲知聲的智慧醫療業務完全2B,而智慧車載和智慧家居則是2B2C。值得注意的是,出門問問作為一家擁有智慧語音語義技術的公司,獨樹一幟地選擇了2C模式,透過智慧手錶、智慧後視鏡以及智慧語音助手等產品和應用,直接切入消費級市場。

NLP技術公司也包括2C和2B兩種模式。語音助手和聊天機器人等2C產品,無論是技術還是產品都不成熟,因此並不適合創業公司做。圖靈機器人從最早的蟲洞語音助手,轉型到2B的語義平臺和作業系統,也說明了這一問題。聊天機器人由於使用場景和需求尚不明確,目前仍是微軟等大公司在探索和嘗試。相較2C,2B對於創業公司來說是一條更現實的路,可以在技術發展早期段彌補產業薄弱環節。

整體格局

截止當前,在智慧語音語義領域,除了訊飛擁有多年技術積累,在某些前沿技術上處於領先水平,其他網際網路公司和創業公司在技術上並沒有本質差別,技術本身已經不足以成為其核心競爭力,大多公司很難單純依賴技術建立成熟可靠的商業模式。

要想更好地實現商業化,這些公司只能透過往上下游延伸來創造價值。上游可以把語音和搜尋引擎結合起來,為垂直行業提供內容和服務,下游可以把語音和硬體產品相結合,依靠產品銷售實現營收。哪怕是訊飛這樣擁有前沿技術的大公司,也在向垂直行業和產品延伸,來挖掘新的利潤增長點。

教育、金融、客服等領域需要和行業進行高度定製,大型網際網路公司不會輕易涉足,因此會成為技術類公司的主要陣地。但是在智慧車載、智慧家居、智慧機器人等2B2C甚至2C的領域,技術類創業公司則要面對網際網路公司的直接競爭。因為,網際網路企業具有天然的C端優勢。

首先,

無論是透過自有2C產品,還是藉助合作,大型網際網路公司依靠其龐大的使用者量、大量真實場景下的資料積累、以及背後強大的搜尋引擎和完整的知識庫,可以極大提高語音識別在真實環境下的識別準確率,以及語義分析和理解能力。

其次,

網際網路公司擁有豐富的C端產品經驗,加上對使用者消費資料的迭代,能夠更好地提升產品體驗。對於體驗至關重要的消費端,一旦產品或應用形成良好的行業口碑,快速的走量也會水到渠成。

當然,巨頭的優勢並不能阻擋創業公司的成長機會,透過深耕垂直領域和細分賽道,實現自我造血和快速成長,創業公司也有機會在這一新興產業中逐漸做大。接下來,隨著語音識別和NLP技術的逐步成熟,智慧汽車、智慧家居、智慧機器人產業的日漸完善,定會有一批優秀的技術類公司在智慧語音產業的浪潮中順勢而起。