小鵬汽車的全場景語音互動系統,真的不可複製嗎?

“前擋風玻璃起霧了!”、“已開啟吹前擋模式。”這是鎂佳科技向我們展示的駕駛者與車載語音互動系統的典型對話。

進入人工智慧時代,語音這種最自然、最簡單的人類交流方式也很自然地成為人機互動的核心。實際上,人車互動對語音系統的需求更迫切,要求也更高。

行車安全始終是在第一位的,在人工智慧時代來臨之前,車輛設計者會充分考慮物理按鍵及儀表的位置、大小和排布方式,以確保使用者能最大限度地專注於駕駛和路況,規避安全隱患。

差不多十年前,以特斯拉為代表的造車新勢力將大螢幕與觸控技術引入純電動汽車,全新的操控體驗令人耳目一新,傳統車企也紛紛跟進這一趨勢。

在語音互動技術發展的早期,語音助手類的車內應用更多的只是噱頭。

首先,使用者必須牢記語音互動的規則,用錯詞或者過度口語化都會導致互動失敗;其次,由於語音助手無法實現對車控的全覆蓋,使用者還必須記住哪些操作可以用語音、哪些不能。

在新鮮感消退之後,語音助手常常淪為使用者偶爾拿來向朋友或家中長輩展示的“高科技新玩意兒”,再無他用。

2020年成為汽車語音互動的重要拐點。小鵬汽車在10月下旬推送了車載系統Xmart OS 2。1。0版,這個看起來似乎只是一次常規小升級的版本號,卻蘊含著一次大變革:搭載“全場景語音互動系統”。

小鵬汽車據此宣告了全場景語音互動元年的到來,並且在介紹這套系統時,用了很多個“全球第一”和“全球首創”,引起了從業者和消費者的高度關注。

按照鎂佳科技的說法,小鵬汽車並不是唯一深耕這一領域的企業,早在此次新系統推送之前,該公司就已經發布了SmartMega OS+整車分散式智慧作業系統。

其中一個重要的元件就是SmartMega Voice OS全場景語音互動系統,並且鎂佳科技具備從硬體到應用軟體的全棧開發能力,小鵬汽車相應系統的底層技術則是由思必馳提供的。

小鵬汽車在之前的採訪中曾經提出“全場景語音是智慧汽車的最佳互動方式”,這其實是業內的共識,但能做到這一點並非易事。

那麼,究竟什麼是全場景語音互動呢?首先要做到的必須是“全”,如前文所述,如果不全,使用者就需要記憶,那麼語音互動的體驗就大打折扣,難以培育使用者習慣。

除此之外,鎂佳科技與小鵬汽車的同類產品相比,又有哪些異同之處呢?接下來,我們就從四個方面進行分析。

一、音區鎖定功能。

車內空間狹小,聲音環境複雜,包括車內外的環境噪聲、司乘人員的對話干擾,播放音樂或影片的聲音干擾等。小鵬和鎂佳科技都可以透過鎖定喚醒者音區的方式來排除這些干擾,不同的是,小鵬只支援主副駕駛雙音區鎖定,後排使用者如果要使用語音互動需要通過後排按鈕開啟。

二、可見即可說。

這意味著,只要在圖形介面中可以找到的功能,無論它隱藏得多麼深,一句話便可直達,互動扁平化,簡單高效。小鵬和鎂佳科技在這方面旗鼓相當。

三、細粒度語義理解與多指令併發。

粒度是語言文字單位,漢語的基礎單位是字,但字的多少並不能代表資訊量的大小。

例如“籃球”只有兩個字,但它即是球類名稱,又是韓劇名字,還是代表了多部書籍,“籃”和“球”又可拆開代表不同的意思,因此這個詞的文字粒度較大,如果轉換成語音還要考慮到同音字、詞的問題,粒度的判定就變得更加複雜。

因此,優秀的細粒度語義分析,是正確理解口語化長句的基礎。這一點,小鵬和鎂佳科技也同樣支援。

在理解長句的基礎上,如果長句中包含多個指令,也要求系統能一一執行。

值得注意的是,鎂佳科技可以很好地拆分長句中的多個相反含義的任務及多個任務中的多個物件,並且對方位詞也能準確識別。

比如,使用者可以直接說:“把左前車窗關上,然後右後車窗開啟三分之一。”這句話裡包含了關上和開啟兩個相反的任務,還包含了左前和右後兩個方位詞,以及兩個不同的車窗物件。

四、一次喚醒、連續對話。

多輪連續對話能力一直被視為智慧語音互動能力的重要指標,這項能力的挑戰在於,語音系統必須能正確判斷語句中的停頓甚至改口,能區分指令和閒聊內容,能遮蔽他人插話的干擾,以及聯絡上下文進行語義分析,這就要求互動系統具備完善的邊聽、邊想、邊調整的智慧預測模型。

在這方面,小鵬和鎂佳科技都有很好的表現,不過在對上下文的分析上,稍有差別。

小鵬主要透過省略主語和禮貌用語的方式來增加多輪對話的流暢度,也就是不會重複做“主人,你好。”“主人,在呢。”之類的無意義響應。

而鎂佳科技可以更進一步,透過上下文聯絡很好地執行連續的,缺少主語或者賓語,甚至缺少明確談話物件的任務語句。

我們可以假設這樣一個場景,使用者問:“今天天氣怎麼樣?”鎂佳科技播報時,使用者與朋友閒聊,然後又問:“明天呢?”這次,使用者會在自言自語後打斷播報,追問:“那上海呢?”這種情況下,鎂佳科技也可以正確無誤地執行任務。

除了上述四個方面,鎂佳科技還有一個優勢,就是具備非常完善的離線互動能力,這一點在使用者駕車出遊時特別有用,就算遠離市區,開進大山,在弱網甚至斷網的情況下,也可以無縫切換至離線狀態,而使用者完全不知道這個切換過程,也感受不到使用差別。

談了這麼多全場景語音互動的能力,也只是冰山一角。

鎂佳科技介紹,公司作為Tier1供應商,其SmartMega Voice OS系統可以為客戶提供完全個性化的定製服務,不僅勝任被動執行使用者指令,甚至還可以依據溫度、油量(電量)、空氣質量等感測器資料主動建議使用者該做什麼。

從使用者角度出發,可以簡單地將該系統的能力概括為:沒有規則,和真人怎麼說話,就和它怎麼說話,只要是車內可見的功能,它都能幫你實現,甚至是主動實現。就這麼簡單。

使用者端簡單的背後是車企的“不簡單”,很多新勢力造車企業不具備這方面的全棧開發能力,即便是小鵬汽車,也會在底層技術上依靠思必馳。更多的傳統車企同樣不具備這個能力,雖然他們經驗豐富,資金力量相對雄厚,但根深蒂固的傳統組織架構和思維模式很難改變。

當年,特斯拉橫空出世時,有人揶揄特斯拉不是在造車,而是在造帶輪子的手機。現在看來,特斯拉的思路是正確的,消費者需要這樣的產品。

未來,汽車行業的發展可能會位元斯拉更為激進。這是傳統車企非常不適應的地方。

比如,要實現最最佳化的語音互動,麥克風和揚聲器的佈局很重要;為了達到車控的100%覆蓋及優秀的互動效果,CPU、GPU、DSP等計算力配置也很重要;更不要說適配不同車型的設計需求及作業系統。

無論對傳統車企還是造車新勢力,這都是一個龐大的系統工程。不僅如此,車企自研還要經歷漫長的驗證過程,考察系統的安全性、可靠性,最後還要進行調教和最佳化。那麼,新老車企有沒有必要全部親歷親為?

當然沒必要,拋開巨大的成本和人力物力投入不談,單看時間成本就消耗不起。智慧汽車市場的變化日新月異,一步趕不上,步步趕不上,堅持自研反而容易處於被動局面。

近些年圍繞智慧汽車的新供應鏈生態正在逐漸形成,新老汽車企業將語音互動系統完全外包或部分外包給Tier 1供應商的做法將成為主流。

實際上,從小鵬汽車與思必馳的合作上也可以看出這一點。

車企將資源聚焦在自己最擅長的產品體驗上,剩下的交付給鎂佳科技這樣的Tier 1,可以更快獲得具有自己品牌基因的、優秀的使用者體驗,並且在開發週期、開發成本以及水準上,都有可能超越同類產品。

回顧網際網路發展初期,網際網路公司都傾向於投巨資自建資料中心。時至今日,如B站或頭條這樣的網際網路巨頭也會大量採用公有云服務。在智慧汽車領域,也存在類似的趨勢。

當言及鎂佳科技對自己的定位時,他們常常會把自己類比為公有云供應商——致力於為所有新老車企提供系統級的語音互動定製化服務,在後臺默默支援車企的發展。