號稱“單晶片執行L4級自動駕駛”,安霸如何做到?

宣告:

本文轉自焉知新能源汽車。轉載僅是為了分享資訊,不代表《九章智駕》贊同其觀點。

近日,安霸釋出了一款最新的AI 域控制器晶片 CV3,這是一款針對自動駕駛專用的 SoC,

「5nm、500 eTOPS、單晶片執行 L4」則是這款晶片的特點。

這裡面有幾個問題可以解答一下:

安霸是誰?

500 eTOPS 是什麼意思?

單晶片和多晶片的區別是什麼?

安霸的晶片優勢在哪?

01 認識「安霸」

安霸(Ambarella) 2004 年成立於美國矽谷,是一家半導體晶片設計公司,安霸主要為行業提供低功耗、高畫質影片壓縮與影象處理的解決方案,生產用於運動相機、行動式穿戴相機、安防攝像機、無人機攝像機和其他裝置的影象處理SoC(片上系統)。

比如,GoPro 運動相機、小蟻運動相機、大疆無人機都有安霸的身影。

正因為有這樣的優勢,安霸也在積極佈局汽車市場的業務,在2015 年收購的義大利自動駕駛研發企業 VisLab,該公司從事雙目立體視覺感知系統開發。

號稱“單晶片執行L4級自動駕駛”,安霸如何做到?

透過在技術上結合雙方的長處,安霸後續研發出了全新的計算機視覺晶片架構CVflow。

這一架構不同於CPU、GPU 以及 FPGA,其對執行神經網路進行了特殊的最佳化,能夠實現多種多樣的計算機視覺功能。

基於CVflow 架構打造的視覺晶片:

2018 年 CES 展推出視覺晶片 CV1:採用三星 14nm CMOS 製程工藝,滿足包括 ADAS、電子後視鏡和環視影像在內的功能需求。

2018 年第一季度推出 CV2 和 CV22:這是兩顆集成了 CNN、DNN 技術和 10nm 製程的晶片,面向 ADAS 和自動駕駛市場。

2020 年 CES 展推出全新的 CV2FS 和 CV22FS:晶片採用 10nm 製程,能以每秒 30 幀對 800 萬畫素或更高解析度的影片進行計算機視覺處理,實現遠距離和精準的目標識別。

安霸中國區總經理馮羽濤總向我們表達了,安霸依然是AI 晶片公司,演算法上的優勢可以更好的服務客戶,不過,安霸不會做演算法的生意。

02 對標英偉達 Orin 的 CV3

CV 系列是安霸針對智慧應用及智慧駕駛推出的產品,其中 CV2 已經實現了汽車前裝量產,但隨著智慧駕駛向高階能力進化,高效能晶片的需求也在加大,因此,在英偉達、華為、高通等公司紛紛推出高效能產品之後,安霸在 2022 年的開端也帶來了一款「芯」產品 —— CV3。

號稱“單晶片執行L4級自動駕駛”,安霸如何做到?

看看CV3 的引數資訊:

採用5nm 低功耗製程工藝;

AI 處理效能算力高達 500 eTOPS;

CV3 搭載 16 個 Arm Cortex-A78AE CPU 核心,16 個核心分為 4 個叢集,每個叢集有 4 個核心;

支援攝像頭、毫米波雷達、鐳射雷達,多感測器融合;

可執行ADAS 和 L2+ 至 L4 級自動駕駛系統。

注意,CV3 域控制器晶片是一個系列,不是一顆晶片。上面所公佈的引數是首發的高階旗艦晶片。安霸表示,在後續會陸續推出整個系列,從高到低推出。

現推出這個系列裡的旗艦版,然後根據客戶的具體需求進行裁剪,裁剪後可以有效降低成本,而且最高效能版往往技術要求也高,先推出則意味著技術和測試流程的跑通。

這裡面可以看到一個問題,那就是CV3 的算力,CV3 的神經網路向量處理器(NVP)等效算力能夠達到 500 eTOPS。

號稱“單晶片執行L4級自動駕駛”,安霸如何做到?

怎麼實現的呢?有幾點:

第一,在旗艦版CV3 - HIGH的晶片框圖裡可看到,CV3 和 CV2 系列有很多共通的地方,區別在於,CV2 系列的 CPU 使用的是 4個 A53核心,A53 屬於低功耗的 Arm 核,但算力就沒有那麼高;

而CV3使用了16個A78AE核心,A78AE是Arm 新推出的核心,並且是針對汽車領域專門設計的帶有功能安全、高效能的核。這16 個核心分為 4 個叢集,每個叢集有 4 個核心,採用這樣的核心設計,是為了分類計算滿足車企的不同需求。

第二,最佳化後的神經網路加速引擎,從效能角度來講,其實就是多少個T 的算力用多少瓦的功耗來實現,這個能效比是非常重要的。只要你的攝像頭輸入是完全一樣的,最終就看他跑多快,也就是看每秒跑多少幀的演算法。

CV3 的等效算力可以做到 500 T,這個核心是安霸的演算法能力,這在下面我們會詳細講。

號稱“單晶片執行L4級自動駕駛”,安霸如何做到?

在CV3 的架構中還集成了其他單元:

通用向量處理器(GVP),其效能能夠達到 920 GOPS;

GPU 單元,用於處理車輛環視攝像頭3D渲染;

CV3晶片中還集成了 ISP、影片編碼、硬體安全單元以及豐富的介面管理。

在CV3 中,NVP 主要用於神經網路計算,GVP 適用於浮點運算,並用於處理傳統計算機視覺和毫米波雷達資料,二者在自動駕駛中會發揮不同的作用。

CV3 的框架有了,怎麼樣用 CV3 這顆單晶片來搭建整個自動駕駛系統呢?

馮羽濤表示,這套硬體非常利於使用者拓展:

一、豐富的感測器架構

這顆CV3 單晶片可以接入多達 20 個攝像頭,同時可以接鐳射雷達、毫米波雷達、超聲波雷達等感測器,只需單顆晶片即可處理全套感測器,

如典型的L2+ 自動駕駛感測器配置(例如 10 路攝像頭、5 路毫米波雷達及大量超聲波雷達)。

此外,CV3 晶片帶有雙目立體視覺引擎和稠密光流引擎可提供範圍更廣的深度檢測和運動感知。

二、感知資料的融合

多種感測器在感知層面的深度融合,包括物體的檢測、物體的分類、畫面的分割等,所有這些自動駕駛經過感測器感知之後,深度融合的計算也完全可以在這顆晶片上完成。

在這之後是規劃和控制,包括輔助駕駛、自動駕駛很多功能也可以完全在這顆晶片上完成。

這個圖是示意圖,搭建從L2+ 到 L4,取決於每一家公司的研發路徑、落地的場景,還有它對效能以及成本的需求。可以靈活地使用 CV3 這顆晶片,但是單一晶片已經完全可以處理所有的運算,如果說要做到嚴格的冗餘的要求,可以用兩顆,做完全一樣的處理。

號稱“單晶片執行L4級自動駕駛”,安霸如何做到?

總結一下,新款中央域控制器晶片CV3 系列關鍵特徵:

內建GPU 用於 3D 環視渲染;

支援不同域安全隔離和軟體資訊保安部署的HSM(硬體級安全);

超高頻寬低延遲的PCIe 介面;

為OTA 軟體線上升級和影子模式資料採集預留效能冗餘。

其實核心就是,安霸透過對CV3 架構上的新一代 CVflow 實現了基於單晶片就可以實現大算力的能力,並且單晶片就可以執行 L4 級別自動駕駛。安霸在硬體層面實現高效能,同時用演算法能力來達到感知能力的提升。

03 CV3 隱藏的技能是「演算法優先」

安霸釋出了CV3 後,焉知汽車有幸採訪到了「安霸中國區總經理馮羽濤」以及「安霸中國區市場營銷副總裁郄建軍」,他們從市場、效能、感知融合、演算法能力等多個角度來解答了 CV3 的細節。

以下是採訪實錄

1. 提問:

1)安霸如何看待 4D 毫米波雷達當下的發展態勢?

CV3 如何幫助毫米波雷達訊號、鐳射雷達、攝像頭之間的感知融合?

2)安霸對自動駕駛的發展有怎樣的判斷?

在產品設計上,又是如何去匹配這樣的發展趨勢,這次用了 16 個 Arm Cortex-A78AE CPU 核心,大概是目前最強配置的智慧車晶片,是出於怎樣的設計需求呢?

郄建軍:

4D 成像毫米波雷達這兩年成為市場熱點。車載的普通毫米波雷達逐步升級到 4D 成像雷達,趨勢非常明顯。

對傲酷來說,我們主要用非常獨特的演算法方式,只需要用和普通毫米波雷達類似的簡單硬體,就可以做成非常高效能的4D 成像雷達。

傲酷加盟了安霸,4D 成像雷達演算法植入安霸晶片,雷達效能有大幅提升,和視覺也可以做深度前融合。

做4D 成像雷達,如果純靠硬體的方式,增加更多天線,有很多侷限。而我們這種用演算法的方式做,想象空間就非常大。

比如,我們用一個普通角雷達的硬體可以做到高解析度的4D 成像角雷達,實現在 120 度 FOV 下達到 1 度角解析度等這些高效能指標。在晶片層面上,4D 成像演算法加上 CV3 很高的處理能力,可以把 4D 成像雷達效能做得非常高。

在視覺和雷達的融合方面,一般做法都是後融合或者目標級的融合。而在CV3 晶片裡就可以做前融合,也就是視覺的畫素和雷達的點雲做原始資料級的融合。這種融合會使感知的整體效能包括置信度大幅度提升,誤檢率、漏檢率大幅度下降等等。所以我們在 CV3 裡,把 4D 雷達演算法做進去以後,會讓 4D 雷達效能大幅度提升。

4D 雷達和視覺前融合以後,整體效能可以做到類似低線束鐳射雷達的效果。在某種程度上可以取代低線束鐳射雷達。傲酷併入安霸後,雙方又在晶片層面做資料前融合。

馮羽濤:

很多家公司因為它落地場景不一樣,對成本要求不一樣,會採取非常不一樣的路徑。

安霸作為晶片供應商,是希望能夠服務於所有的這些自動駕駛廠商。所以我們對自動駕駛的判斷就會有多種發展路徑,多感測器感知融合,這也是CV3 的設計思路。

為什麼我們放16 個 Arm Cortex-A78AE,到底出於什麼樣的考量和設計需求呢?

第一個CV2 系列裡,都是放的 4核 A53,我們在做客戶專案過程中,經常會遇到說Arm效能不太夠的,因為這是發展路徑問題,有很多的做自動駕駛的公司,它的演算法裡是有神經網路的 AI 演算法加上傳統演算法。

並不是所有的廠家都這樣,有很多廠家是全面擁抱神經網路,那它就沒有這個問題,但也會有不少廠家他還需要一定的傳統演算法和算力,所以我們決定增加Arm 的 CPU 的效能,但是為什麼一下子加 16 個呢?

還有一點,

這16 個 Arm 的 A78 分成四個叢集,每一個叢集是四個核,這 16 個 是 4×4 的配置,

我們第一顆推出的叫 CV3 – HIGH 旗艦版,這裡邊我們認為當 4 個叢集一共 16 個核,Arm 效能肯定是夠的,但是將來也許真正落地的時候,並不需要這麼多,所以對我們來講其實很簡單,我們在第一款 HIGH 旗艦產品,我們把最高的全都驗證好,把軟體各種方面工具全都做好。

在後面我們將會推出的偏低端一些的CV3 系列的時候,很簡單我們可以拿掉兩個或者拿掉三個。

從設計的考量來說還有一點,我們放四個叢集,是針對像L4級別的自動駕駛,可以很簡單地把不同的 Arm 核叢集用在不同的專注方向上,比如說用一個四核叢集來做安全域,拿一個叢集來負責神經網路以及視覺感知,還可以再跑一個叢集用在融合方面。

這樣的佈局可以使得軟體的開發相對獨立,從整個系統來講,可以用不同核的叢集來控制不同的功能,也可以作為冗餘來考慮。這是我們第一顆CV3 用 16 顆 Arm 核的原因。

提問:「演算法優先」和軟體定義硬體,或者軟體定義汽車理念有哪些共通性?又有哪些不同?安霸如何看軟體定義汽車的後續發展?會如何應對?

馮羽濤:

這裡就看演算法和軟體的定義是什麼?我們經常在跟客戶溝通的時候說,演算法和軟體可以統稱為軟體,演算法轉換成軟體是一行一行的程式碼。不同的人寫軟體,同樣的演算法寫出來軟體程式碼會不同。

所以我覺得軟體和演算法深摳的話還是有很大不同的。但是本質上來講,演算法最重要是跑在一個晶片上,跑在一個系統上,它最終要變成一個軟體去跑,從這個角度來講,實際上大家都在講同一件事情。

但安霸是因為更注重背後的演算法是什麼,然後再去考慮怎樣用軟體去實現它。所以我們的說法可能是更加根本性一點,有點像去做一件產品,但是在工程落地之前,要先把它最根本的物理原理理解清楚,再去尋找最合適的工程方法,把它變成產品落地。

「演算法優先」

更多的是強調它背後的原理,軟體是把演算法變成具體實現的程式碼,軟體定義還是演算法定義本質上還是說得同樣一件事。

郄建軍:

大家都知道人工智慧的演算法更新的非常快。最新的Transformer 最近很流行,未來會有更多的演算法陸續會出來。我們做晶片過程中,要充分考慮到各種各樣的演算法,包括未來新的演算法出來後今天的晶片如何支援。

不能說今天的演算法好用,明天的演算法就不能用了,或者不好用了。我們CV3 晶片上跑過幾百種、上千種市場上通用的開源演算法,也包括我們自己的 VisLab 演算法,也包括我們一些客戶的演算法,在這個基礎上,再最佳化晶片設計。

整個晶片是圍著演算法去最佳化的,而且都是通用型演算法。不是某一個演算法行,剩下演算法就不行。這也是「演算法優先」的重要理念或者說內涵,就是為演算法去最佳化晶片,晶片為演算法服務。

馮羽濤:

是的,因為一顆晶片的研發週期是非常長的,我們做CV3,很早就開始考慮架構,中間就包括分析各種外界演算法,同時還要想辦法儘量地去預測後面幾年會不會有新的演算法出來,我的晶片還能不能適應?這點是非常重要,對任何的晶片公司,都得提前很多進行規劃,不要等新的晶片設計週期完成、晶片推出的時候,外面的演算法已經更新了,你的晶片已經不適應了。

提問:當前,多感測器融合已經成為了高階自動駕駛感知系統的主要趨勢,在這個背景之下,您認為晶片廠商面臨著哪些機遇?作為AI視覺晶片技術公司,安霸的核心競爭是什麼?

馮羽濤:

我們對自動駕駛的分析雖然是多感測器融合感知都必須有,但視覺是最重要的,視覺首先它的資訊量最密,其次它是人類駕駛汽車最重要的感測器,因為人主要是靠視覺來開車,還有很小一部分用的聽覺。

因為所有的道路標誌都是為了人的視覺感知,可見光這個波段能看到的東西設定的,包括路標、所有的交通標誌都是針對人的視覺(來設計),必須讓人能夠看得清。

在這個前提下,換成機器來開車,視覺是最最重要的一個感知手段,這是現在沒有任何做自動駕駛的公司會否認,雖然有些公司說以後建立V2X,透過車聯網,物聯網,但是那個還要花很多年,還要進行大量的建設以及人開的車佔的比例非常少才能實現。

在現在這個階段視覺是最主要的,而視覺處理這方面的技術和晶片又是安霸從成立開始就專注的,這是安霸核心競爭力。

作為晶片公司最大的挑戰是,如何透過一個新平臺適應這麼多不同的需求,同時又要兼顧功耗和成本。

做一顆超高算力的晶片,只要拼很多的核放進去,理論上一樣可以出很高算力的晶片。但是很難落地,因為真正應用的時候,當你把所有算力、核跑起來,會遇到很多其它瓶頸,不光是有多少核,每個核可以處理多少次運算,不是這麼簡單。

安霸從17 年前成立,就一直做 SoC,我們 SoC 裡一直會有多個計算單元,做不同的處理,兼顧所有的效能、成本、功耗,這個都是我們的優勢。同時我們對自動駕駛系統趨勢的判斷,只要我們一直延續我們「演算法優先」的理念,做最適合落地的綜合性的 SoC 的話,我們還是有競爭力的。

郄建軍:

剛才說多感測器融合在往高階的方向走,本質上來說以後的感測器融合可能都會向原始資料集的前融合去發展。

視覺方面,比如業界知名的公司提出來用每個畫素點的原始資料來做深度學習,並重寫底層的神經網路,效能又得到很大提升。從這裡已經可以看出來一個重要趨勢,就是每個感測器都在往原始資料集的分析、學習和融合這個方向走。

我們在CV3 晶片裡做了 4D 成像雷達和視覺的原始資料集的融合。

具體來說,4D 成像雷達的大量原始點雲,和高畫質影片大量畫素點去做前融合。融合不僅是目標級融合,而是在原始資料集裡的點雲集和畫素集的融合。

這樣做的話,第一個處理的資料量非常大,第二要算得非常快,第三要點雲和畫素對得非常準,時空同步要同步得非常好。這些做起來都有非常大的挑戰,你能做到這個的話,效能就會非常好。我們希望CV3 把這些一次都做到位。

除了雷視前融合外,還會有鐳射雷達的前融合,也會在原始資料集層面做融合,這是CV3 很大的特點。

提問:能給我們介紹一下安霸CV3 系列域控制器 SoC 的架構嗎,它可以同時做訓練和推理嗎?

馮羽濤:

CV3 的設計跟 CV2 系列一樣,我們是瞄準推理,設計目標沒有去做訓練。但實際上你如果硬要把晶片拿來做訓練,不是不能用,但這個晶片有很多其它東西你可能用不上,如果用它的高算力來做訓練,可能從成本考量不是最優了,它不是不能,只是我們的設計目標是做推理。

提問:剛剛提到的首發高效能、高算力的晶片後,後續大概會在什麼時間節點推出面向中低端的產品?

馮羽濤:

因為在旗艦版推出以後,我們尋找最合適的合作伙伴進行開發,開發過程中,同時會了解市場需求,現在這顆500T,16 核 Arm 高算力晶片,如果想切割一下,做一顆小一些的,其實做到哪個級別都很容易,技術上不是非常難,因為我們已經把第一顆做好了。

目前是500T 的算力,下一顆出 200T,還是出 100T 還是出 50T,我們目前並沒有完全確定的答案,我們需要跟市場、跟客戶進行溝通和合作。

郄建軍:

一般公司的晶片算力都是從下逐步往上做,我們的做法是一開始推出目前技術條件下最高算力的,然後根據市場需求,再裁剪出來較低算力的晶片系列組合。這也是為最好地去滿足市場需求的。

不是算力越高越好,算力要正好滿足應用需求。比如你是做L2 行泊一體,還是說自動駕駛的 L4,大家的應用需求都不太一樣。我們希望透過超大算力 500T 的晶片及其系列產品,去滿足那個市場的需求。技術上首先讓指標達到最高,但真的落地的時候,後續系列產品組合要正好跟各應用層級要求非常匹配。

我們會不斷了解中國市場客戶的多樣化需求,需要什麼樣的效能指標,反饋給產品部,再推出具體的系列產品計劃。

提問:如何看待目前感測器融合中的痛點,目前很多感測器在節點端就已經提供了強大的算力,以減少對於域控制計算的壓力。CV3 的算力這麼高,是不是可以直接 Raw Data?還有 eTOPS 中的 e 是什麼意思?

馮羽濤:

從技術探討角度,今天這個時間我沒法深入到非常細的技術細節,特斯拉就是把RAW data 直接輸入給神經網路做處理。

從CV3 角度看這個事還是回到前面講過的,我們希望能適應所有不同客戶的需求,如果客戶想把 Raw data 直接喂進神經網路進行處理,CV3 完全可以支援這種方法。

如果說(客戶)還想在前端攝像頭用傳統ISP,它的區別在於 Raw data 是人眼沒法看的,那個圖象不好看,或者說用人來看 Raw data 的圖象,基本上很難區分很多東西。

這才是為什麼傳統ISP 給人看的系統要有很好的 ISP,它會把它轉換成人眼可見的圖象 RGB 或者 YUV,這是典型的格式。然後再用它,包括神經網路訓練也用 RGB 或者 YUV 圖象來訓練神經網路,這樣人去檢測智慧的東西跑出來的結果和人眼看到的,可以做一個比較好的對比。CV3 同樣也能很好地支援。

如果直接喂Raw data 進神經網路,當你想用人去檢查的時候,人不能直接看 Raw data,所以還得用傳統的處理再轉成 YUV 或者 RGB,但是從 CV3 角度來說,都是完全可以支援的。

現在回答eTOPS,這個問題是在我們推出 CV2 系列的時候,在市場上,我們花了很長的時間跟客戶溝通什麼是 eTOPS?這個 e 代表什麼意思呢?

e 的英文意思是指 Equivalent,意思是等效的,等效的 TOPS,為什麼要有這個概念呢?

是因為我們的架構是特殊的架構,CVflow 不等同於任何 GPU,它裡邊有特殊的架構專門針對卷積神經網路以及常見的神經網路的運算做了最佳化,比如說矩陣的點積,點積這種乘法、加法跟矩陣的或者向量的運算是神經網路裡用得最多的一種演算法,在 CVflow 會有我們自己專門的設計。

裡邊不光是運轉處理,從資料儲存器裡拿,如果是外面DRAM 進來,其實代價是比較大。所以我們在 CVflow 裡,還有特殊的技術,我們會取有效用得到的,部分資料放到CVflow內部快速的儲存空間裡,這只是我們特有技術之一,CVflow 裡有很多我們專門做的有專利的技術。

透過這些,我們可以把某些神經網路相關運算做到非常地有效率,外面大家常說的TOPS 是非常簡單的,透過簡單的加法、乘法運算(MAC),就是乘法、加法器,GPU、DSP 基本都以這個來衡量,你的時鐘跑多快,一乘就能知道你是多少個 T。

但是用我們架構很難這樣去做對比,我們說eTOPS 就是我們把兩個不同的晶片,一個是 CVflow,一個是另外大家常用的 GPU,GPU 有一個標準的TOPS,我們跑起來跟它對比,我如果能把同樣的神經網路演算法跑到等效這麼快,就可以說這個就是 Equivalent TOPS。

當然在媒體溝通角度,eTOPS 就是 Equivalent,也就是說跟通用的晶片架構有一個標準的 TOPS 的數量比,我可以跑到等效的效能,就這個定義。

提問:關於CVFlow 的工作邏輯,如果後續車載演算法升級後,NVP 的算力不夠時是否可以用 GVP 來做?GVP 如果全部用來補充 NVP 的算力,整體的 eTOPS 可以達到多少?

馮羽濤:

NVP 和 GVP這兩個計算不是100% 可以互換的,它有不同的側重點,NVP 主要是針對神經網路運算,而且它專門的最佳化主要是針對定點運算,比如說 8bit 定點,4bit 定點,當然也可以跑 16bit 定點。

之前的CV2 系列裡,主要支援的是 16bit 和 8bit 定點運算,在 CV3 又支援 4bit 定點,如果演算法全部量化成 4bit 定點,可以跑到 1000 eTOPS。

GVP 是幹什麼的呢?G 代表 general,意思就是通用性,GVP 主要支援浮點運算比較好,16bit,32bit 的浮點運算。

設計思路也是來自於之前跟很多客戶需求的溝通,很多客戶目前的演算法裡是混合的,有傳統演算法,也有神經網路演算法。神經網路演算法跑起來最優的是用8bit 和 16bit 的定點,當然也有人用 4bit 定點或者也有混合的方式。

如果是這樣的演算法,最好跑到NVP,如果用 GVP 跑這種演算法,可能效率發揮不夠好。如果演算法裡包含有很多浮點運算,比如說有人用 OpenCV,他想直接現成搬過來就跑,當然你可以跑到 Arm CPU 上,但 GVP 專門為這樣需求設計的,所以 GVP 跑浮點運算,一些傳統演算法,非神經網路,效率會比較好。這兩個核在 CVflow 裡是有比較專門特定設計思路的東西。

如果補充GVP 多少 eTOPS,GVP 不太用 eTOPS 來(衡量),因為 eTOPS 主要是 CNN 神經網路運算的衡量標準,GVP 到底等效於多少 eTOPS,至少我們目前沒有以這個角度來衡量它。

郄建軍:

GVP 擅長浮點運算和非神經網路計算。雷達訊號處理,點雲處理等等,主要都在 GVP 上跑。NVP 和 GVP 分開以後,相當於 NVP 是神經網路專用的,GVP 是其他專用,分工協作效率更高。

馮羽濤:

對的,其中我們會加入專有的模組在這裡支援傲酷高精度雷達的演算法。NVP、GVP 也是我們自有的核心,在這顆 CV3 旗艦版可能有多個 NVP 核和多個 GVP 核,這也是我們將來推出其它低成本版的時候,考慮取捨的地方,我們放幾個 NVP,放幾個 GVP,都是很靈活的。

另外一點,Transformer 是最近比較流行的網路,Transformer 它需要的運算不是類似卷積或者矩陣的點積,而是直接的矩陣乘法,很多維的向量直接的矩陣乘法,我們在新一代 NVP 裡也專門加入了硬體支援。

提問:汽車廠商很關注域控制器晶片的算力和視覺圖象處理的協同,在儘量短的時間內識別出目標,在實踐中,在複雜的路況下,精確識別目標反而是更難的,比如說高速收費站的欄杆,比如說紅綠燈等等,安霸的CV3 系列如何做到兼顧目標識別的精度和速度呢?

馮羽濤:

用於中央處理器,中央域控制和相對傳統做法有很多個都是不同的ECU 或者運算處理單元去處理不同功能,就會造成延遲,這個延遲在自動駕駛裡還是蠻重要的,會直接造成駕駛安全問題。

如果延遲比較大,會出大問題。這個延遲怎麼來控制?從最初的感測器輸入,到最後做出決策之間,花的時間是非常關鍵的。當你如果這段時間分好幾個級別,用不同的ECU 或者不同的計算單元來做,一級傳給下一級再傳導過來的,這中間的延遲加起來可能是個大問題。

這也是傳統的域控制器和現代AI 中央域控制器的區別,這也是原因之一。因為傳統的做法,前面要經過一個 ISP 處理,如果是分開的單元,ISP 本身會帶來一定的延遲,等它出來 YUV 或者 RGB 要再給到後面的神經網路,去做感知演算法,再去做邏輯上的決策,再去做路徑規劃。

中間每一步都會帶來延遲效應。我覺得這就是看每一家自動駕駛廠商的研發團隊的思路,決定要怎麼做。

提問:CV3 SoC單晶片即可執行ADAS和自動駕駛演算法,相比於採用多個分散的ADAS SoC晶片組合,主要可帶來哪些方面的提升和改進?這種單晶片的支援能力,是否是行業未來的發展方向?

馮羽濤:

一個是從延遲的角度來說,單個晶片所有都在這裡處理,如果軟體做得比較好的話,是可以降低整體的延遲效應,如果用多個晶片組合,那晶片之間的通訊,延遲是一方面要考慮的,還有更多是安全性方面的考量,如果做多晶片冗餘,雖然增強安全性,但晶片和晶片之間的通訊從資訊保安的角度(非功能性角度)來講也是有可能帶來一定複雜性。

從整車OTA 系統架構一致性的角度來說,長期來講可能更多是朝單晶片域控制器方向發展,但過程中不可避免會有很多短期落地專案還是會採用多個晶片。

比如說智慧座艙至少是一個域,安全域有的人會採用幾顆不同的小一些的控制器,還是用一顆單晶片把所有安全域的功能能都解決掉,在技術發展落地的難度也是有區別的。像CV3 單晶片做整個自動駕駛,它在技術的難度上,從安霸角度和安霸的客戶角度都會有蠻大的挑戰。

它的開發和驗證的過程,因為從功能安全到資訊保安,到全系統開發週期會稍微長一些,但是做出來的話會是技術蠻超前的系統,會是高階的系統,至少在最近幾年內,這種做法是相對比較高階的一種做法。

從我們客戶群體來講,我們認為未來幾年會是混合的發展路徑,我們要適應市場的需求去支援。

郄建軍:

剛才馮總講的多路徑的晶片組合,在中國市場現在很明顯。中高階的新能源汽車競爭激烈,大家都在PK 算力,大家都想達到 1000T,就四個級聯或者八個級聯去做。

如果用單晶片能做到,當然不用那麼多級聯了。其實大家爭核心是高算力,如果一個晶片能做到最高的算力當然最好。單晶片做到高算力非常難,比如說製程規程要做不到5 奈米,就很難做到 500T 這麼高的算力。所以大家在多少奈米上面PK。

在使用過程中,ADAS 用的算力需求不一樣,L4 自動駕駛不一樣。這個時候我們再有不同效能級別的 CV3 系列產品去滿足大家要求,再加上已經大量使用的 CV2,組合起來,可能滿足大家不同的能效比要求。

提問:如何看待安霸目前在智慧駕駛晶片領域的市場定位,面對強手如林的市場,接下來安霸在中國市場的策略是如何呢?

馮羽濤:

首先,我們的起點是很不錯的,因為我們在視覺方面已經耕耘了這麼多年,我們積累了很多自有的IP,我們不像有一些其他家的晶片公司,他們的IP核不一定是自己從頭研發的,我們裡邊的 IP 核從 ISP 到編碼器,都是經過多年的發展,在業界從效能到功耗,到成本都是非常優的。CVflow 也是經過 CV2x 的 10 奈米系列很多晶片的量產驗證,再推出的高算力新一代 CVflow。

安霸對中國市場的判斷,多種發展路徑,中國市場有個特點,不光是汽車,中國做手機,做其他電子產品也好,都是非常明顯的快速迭代,我們和歐美相比,迭代速度非常快。

汽車行業更明顯,因為歐美日韓他們汽車行業相對更保守,他們在傳統燃油車領域畢竟比國內發展要早很多年,咱們國內彎道超車是深入人心的一件事。

我們除了快速迭代,還在不同的場景落地。仔細去看,我們在機場、物流、大卡車、大巴,或者園區內各種落地場景真的是百花齊放。

面對這些,我們還是持樂觀態度,儘管也有挑戰,因為這個系統非常複雜,我們要面對這麼多種應用以及快速變化的人工智慧演算法。經常過一段時間就有人說又有一個新的神經網路出來了,這對晶片也是個挑戰,我希望我們現在的架構很好地進行了平衡,既對將來可能出現新的演算法,也能夠適應,而對現有可以落地的產品又能做得比較快地去交付。

我們現在能夠推出最高算力的CV3 系列,因為當前有好多主機廠也有一個概念叫「硬體預埋」,意思是可能目前用不到那麼多算力的晶片,將來會一步步地在此硬體平臺上疊加更多的演算法上去。

CV3 現在可以最多帶 20 個攝像頭,現在沒有看到哪一家需要 20 個攝像頭。還有算力,方方面面會先超前地把硬體做好,將來透過 OTA 升級,可以帶來新的功能。所有這些以我們目前的晶片佈局。

包括毫米波雷達和視覺的融合,因為視覺的感知和毫米波雷達的感知它的互補性非常強。我們用普通雷達硬體就可以做到高精度成像,這時你在考慮到毫米波雷達在全天候的好處,視覺感知看不清的時候,還可以透過雷達成像來做很好的感知,所以我覺得我們的晶片佈局以及非常看好中國汽車市場發展的前景這一結合,我覺得還是蠻激動的。

郄建軍:

大家都看到我們的指標,很明顯不管是算力還是能效比、功耗、奈米,都可以說是業界領先的。再加上植入4D 成像雷達演算法,傲酷的雷達 4D 成像演算法也是世界最領先的。

硬體預埋,中國市場很多公司都是這個思路,硬體一上來就做成L4 的。但是軟體和演算法慢慢迭代,L2+ ,L3 慢慢突破,但是透過 OTA 慢慢達到 L4。這個市場需求恰恰跟我們剛才提供的產品非常相符,你看我們的產品出來以後,就是為中國市場定做的,算力最高,甚至有很多人一上來說你 500T 正好我們用四個一級聯就是 2000T,肯定是市場算力最高的域控制器。

我想強調我們這東西不是拍胸脯喊出來的,安霸是影片晶片做了十幾、二十年,一直是最強的。傲酷雷達在市場上4D 成像雷達可以說演算法最強。影片最強,雷達演算法最強的兩家公司合到一塊又做了一個最強的高階域控制器晶片,我們可以說是一個非常厲害的組合,可以滿足中國市場廣泛的要求。

我們在高算力晶片市場上面,憑藉技術領先,憑藉最新的產品組合,我們認為在中國市場將來肯定有很好的市場地位,也希望產品落地生根在中國市場發展壯大。

提問:相比上一代晶片,CV3 多個方面的效能提升數十倍,請問是如何做到的呢?

馮羽濤:

大概講有幾個方面,第一,上一代的晶片推出以後,我們跟很多客戶做產品落地的過程中,我們當然會研究當初CV2 這代的 CVflow 硬體架構有什麼地方需要提升,怎麼提升,主要是提升效率。

第二,我們也會研究很多開源演算法以及我們關注在純科研方面關於人工智慧的發展趨勢,也去做一些判斷。

第三,結合高效能製程,比如從10奈米進化到5奈米,這種摩爾定律的進化,主要說可以在比較小的面積上實現把時鐘跑得更快,可以整合更多的電晶體,這種角度我們在看也在做。還有一個非常重要的一點,大家都希望往更先進的製程這種角度發展,也去看外面有什麼神經網路來適應。

安霸獨特的地方在於,比如說NVP、GVP 這種架構體現出來是什麼,從第一代 CVflow,裡邊已經融入了很多隻有我們自有的特殊的微架構的考慮,我們一開始推出ISP 晶片裡邊就是自研,有很多特殊的微架構在裡面,現在做 CVflow 也是一樣的思路。

簡單來說,我們一貫的設計思路就是,通用程式設計適應性和提升它的功耗成本比例這之間取得一個平衡點,你如果想要做到最小功耗的硬體單元,實現某種邏輯,最省功耗的方法是統統硬體化,誇張一點說,一行程式碼不用寫,我這叫ASIC,ASIC 就是我專門為特殊應用專門設計一個晶片,它全是硬體邏輯實現。這樣的話你應該可以做到晶片的面積最小,功耗最低,實現那個功能,但可程式設計性、通用性就非常差,你會非常侷限於某一種應用。

與它相對應的另一端就是CPU、GPU 這種通用化的,可程式設計的系統,它是什麼都可以幹,你拿 CPU 跑神經網路,跑浮點運算,做網頁瀏覽,做伺服器,什麼都可以幹。

安霸從一開始,我們就希望在最核心的功能上,用自有的架構,透過自己的分析判斷做取捨,設計出我們認為最合適的平衡點。我們ISP、之前所有 SoC 到 CVflow,NVP、GVP,指導思想是一致的,我們希望在通用性、可程式設計性和最好的效能、功耗、成本之間取得好的平衡點。

提問:對於自動駕駛晶片,現在都在比拼更高的算力水平和更先進的製程,這是否意味著算力無限的膨脹以及製程的持續提升,是未來自動駕駛晶片的主要發展方向呢?在安霸看來,對一款先進的智慧駕駛晶片究竟該從哪些維度去評判?

馮羽濤:

現在確實大家都在算力上競爭,大家也會突出數字,比如我們這次的500eTOPS。但這個有沒有頭?我覺得如果從廣義的人工智慧發展角度來講,還真的看不到頭。

比如,伺服器端及其它特殊應用,如果咱們聚焦在自動駕駛,至少在幾年之內,大致這樣,因為我一顆晶片500T,如果想多的話,多放兩顆做到一個板子上或者做四顆晶片,一個板子上或者兩個板子上,把它集聯起來,做到幾千個 T。

歸根到底,做一輛汽車還是要考慮成本,還是要考慮功耗,什麼時候是最好的平衡點?它有一個範圍,但不能無限地擴張,因為以目前的晶片製程,摩爾定律還能實現多久?這也是很巨大的問號,我不能代表晶片製造業以及材料科學,那都是不同的科學,到了3 奈米或者 1 奈米的時候,量子效應出來之後,說不定要換材料了,以傳統的方法來做晶片,說不定面臨著很難突破的瓶頸,這都有可能。

在可預見的未來五到十年,這個的競爭應該來說不至於以再翻N 倍的方式發展,之前這幾年翻的倍數真的很多,我們剛剛推出 CV2 的時候,十幾個 T,已經覺得非常高了,但沒有幾年的時間,現在我再跟大家講我的 CV2 系列,十來個T或者幾個 T,人家覺得你這叫低算力,3 年多之前我們這還是高算力,但是我覺得這個方向慢慢會達到一個點,因為大家要找到平衡,要成本,要功耗,不要水冷,又要做到多感測器融合。

這個發展我不覺得在車上是無限的膨脹,在訓練端、伺服器端,我覺得可能還會膨脹一段時間。車上的推理晶片達到CV3 這樣的程度,再去翻倍的話,意義不是特別大,伺服器那邊肯定還需要,這是我的一個看法。

郄建軍:

算力之間還是會競爭,這是肯定的,大家還在PK 算力,當然不是沒極限的,可能到了幾千個 T,我估計就會慢下來。

因為1000 個 T 以上做 L4 已經接近了,我估計怎麼到一萬 T 以前,L4 肯定能做了,估計在這個範圍內。

另外,製程5 奈米,後面有 4 奈米、3 奈米,還會往前走,所以這個 PK 還會有,當然我們 5 奈米現在是非常領先,還有一個非常重要的指標就是算力能效比,算力比功耗。這點上安霸特別特殊,安霸晶片一貫是功耗很低,在以前所有晶片裡,基本同等算力,功耗都非常低。現在 1 瓦能做個 10 個 TOPS,市場上基本沒有,安霸 CV3 是唯一的,非常獨特。

晶片還有很多指標,但是算力、製程、功耗,這三個指標可以說是最核心的三個指標。

調查問卷

寫在最後

關於投稿

如果您有興趣給《九章智駕》投稿(“知識積累整理”型別文章),請掃描右方二維碼,新增工作人員微信。

注:加微信時務必備註您的真實姓名、公司、現崗位

以及投稿意向等資訊,謝謝!

“知識積累”類稿件質量要求:

A:資訊密度高於絕大多數券商的絕大多數報告,不低於《九章智駕》的平均水平;

B:資訊要高度稀缺,需要80%以上的資訊是在其他媒體上看不到的,如果基於公開資訊,需要有特別牛逼的獨家觀點才行。多謝理解與支援。