毫米波、鐳射雷達統統不要，特斯拉堅持純視覺的底氣何在？

Vision Transformer 的典型網路結構

Transformer 模型

在近兩年橫掃

NLP 領域

，並隨著技術發展開始征戰影象視覺。在中美兩地，最近有兩家自動駕駛頭部公司分別同時宣佈將 Transformer 引入到自動駕駛系統中，來實現系統感知智慧與認知智慧的大幅最佳化。

其中一家是特斯拉。6 月 20 日，在計算機視覺領域的

頂級峰會 CVPR 2021

上，特斯拉 AI 高階總監 Andrej Karpathy 首次對外闡釋了特斯拉全新自研的超級計算機 Dojo，Dojo 幾乎一出道就成功卡位了全球第五大（算力規模）的超級計算機。

而 Dojo 出道身後，Karpathy 還在軟體演算法領域釋放了一個重要的資訊：引入 Transformer 進行大規模的

無監督學習

。

無獨有偶，中國自動駕駛公司毫末智行也在同一個月內公佈正利用 Transformer 進行超大規模的感知訓練，並且後期有可能將 Transformer 引入到規劃和控制中。毫末智行是國內少有的「車企 + 技術公司」的自動駕駛研發樣板，也有人稱它是

中國的 Cruise

。

毫末智行 CEO 顧維灝近期講到，「據 6 月最新公開論文資料顯示，Vision Transformer 的引數量已經達到 20 億之多，經過在

30 億規模資料集

上的訓練，其效能達到了

業界最高水準

。Vision Transformer 是

最適合超大資料集

的技術，也是非常適合毫末智行的技術。在自動駕駛領域，特斯拉有這麼多資料，未來毫末智行也會有。

這是毫末智行突破重圍的關鍵，也是未來堅實的技術壁壘

。」

Transformer 最早是由 Google 提出用於機器翻譯的神經網路模型。因為其透過一維卷積+注意力機制的設計，拋棄了 NLP 中常用的 RNN 或者 CNN，取得了非常不錯的效果。並且 Transformer 因為出色的演算法並行性，十分適合 GPU 的運算環境，因此這一技術快速流行起來。

隨著 2020 年

Vision Transformer

（ ViT ）橫空出世，目前其已經成功涉足分類、檢測和分割三大影象問題，並迅速刷遍了業界的各大榜單。

當下中美兩大自動駕駛玩家，忽然在同一時間為同一種技術趨勢站臺，也充分表明了 Transformer 非凡的潛力。

Transformer 來襲，CNN 的地位尷尬！

自 2012 年以來，CNN 已成為視覺任務的首選模型。

CNN 透過卷積層，構造了一個強大的廣義過濾器，不斷對影象中的元素篩選壓縮形成通用結果。對於常規分類任務的效果很強大，但它通常過於依賴某個區域性資訊，從而導致一定程度的不可靠性。

然而，Transformer 拋棄了傳統的 CNN 和 RNN 建模路線，整個網路結構完全是由

Attention 機制

組成，核心就是多頭注意力機制（Multi-Head Self-Attention）。

這種多頭注意力機制能夠抽象地理解整個影象不同區域語義元素之間的關係。

這就像被打亂的拼圖遊戲，Transformer 透過圖片畫素之間關係，依然能夠記住它們的組合順序。

這種機制，讓 Transformer 在兩種場景下，具備比 CNN 更明顯的優勢：

（1）大規模資料訓練

隨著訓練資料量的增長，CNN 效能所帶來的收益會逐漸呈現過飽和趨勢。而 Transformer 的飽和區間很大。

有研究發現，當預訓練資料集增大到 1 億張影象時，訓練後的效能 Transformer 開始優於 CNN，而資料增大到

10 億張

，兩者的效能差距變得更大了，這就意味著 Transformer 在利用大資料的優勢上面，是要明顯優於 CNN。

而自動駕駛是典型的需要海量資料進行超大規模訓練的系統。搭載自動駕駛系統的車輛上路之後，幾乎可以獲得無限量的資料。

目前，特斯拉有數百萬輛搭載 Autopilot 的車輛在路上行駛，而毫末智行透過與長城的合作也可以獲取到大量的

真實路測資料

。

因此，自動駕駛這樣的應用場景，恰恰是完全釋放了 Transformer 的實力。

（2）高魯棒性、強泛化能力

Transformer 對於影象中的擾動以及遮擋等情況下，具備很強的魯棒性和泛化性。

在自動駕駛感知識別中，經常會因雨雪天氣、視覺遮擋以及重疊等原因，CNN 模型會出現錯誤的判斷，Transformer 針對這類問題的處理則具有更好的效能。

基於 Transformer 的特斯拉神經網路架構

在今年 CVPR 的 workshop 上，Andrej Karpathy 兩次提到了 Transformer：

特斯拉從安裝在汽車周圍的八個攝像頭的影片中用傳統的 ResNet 提取影象特徵，並使用 Transformer 演算法將它們融合在一起。

Transformer 所具有的對畫素位置關係的理解，順理成章地被應用在影象的拼接上，形成全面的場景認知。

同時，特斯拉應用

Transformer

、

CNN

、

卷積中的一種或者多種組合，去做跨時間的融合，基於 2D 影象形成具有景深的 3D 資訊輸出。

Transformer 可以很好地在空間-時序維度上進行建模。

Transformer 需要依託於大規模的資料集，同時大規模訓練自然也需要巨大的算力。特斯拉為此專門構建了超級計算機 Dojo。

資料量的質變+算力的質變+Transformer ≈ 感知的一次飛躍

Transformer 不僅能處理各類視覺檢測任務（車輛檢測、VRU 檢測、車道線檢測、交通標誌檢測、紅綠燈檢測等），各類分割任務（可行駛區域檢測、全景分析等），3D 點雲的檢測任務和分割（障礙物的檢測等），還有潛力提升後續的規劃和控制的相關技術。

更重要的是，Transformer 可以有效利用海量資料進行無監督的預訓練。無監督學習，對演算法提升至關重要。畢竟在海量的資料規模之下，資料標註等預處理的成本是非常高昂的。

特斯拉目前擁有 200 萬輛級的量產車車隊。毫末智行的前身是長城汽車的智慧駕駛前瞻分部。脫胎於車企，毫末智行天生離量產更近。

從近期公開資料看，毫末智行 HWA 高速駕駛輔助系統已經批次裝配長城汽車摩卡車型

5000 輛

，預計 3 年內搭載

100 萬輛

長城汽車。

百萬級的自動駕駛車輛，意味著每年數百億級別的里程，一旦 Transformer 在如此大規模的資料中進行應用，對自動駕駛演算法帶來的突破可能會是顛覆性的。

新模型的使用甚至有可能推翻此前一些企業投入較早的「先發優勢」，改變自動駕駛行業的秩序。

與特斯拉純視覺方案不同的是，毫末智行包含

鐳射雷達

、

毫米波雷達

以及

攝像頭

等

異源感測器

融合方案，目前該公司正在研究 Transformer 用於多種感測器訊號輸入的感知處理能力。

毫末智行相關負責人表示，「從視覺到雷達，甚至到下一輪的預測和規劃，都可以用 Transformer 這個結構，Transformer 對於不同模態的資料具備優秀的適應能力，Transformer 之前做 NLP 的，現在都可以做視覺，它前端對於資料訊號輸入的模式，可以適應很多模式。」

「終極狀態就是 Transformer 可以直接做到多模組的融合，也就是前端把視覺的輸入，雷達的輸入，都可以作為 Transformer 的輸入，作為多模態的融合的模型，就是相當於直接從原訊號到輸出結果，中間是 Transformer，Transformer 在用它們的時候，它們就在早期的網路階段就可以開始逐步融合。」

Transformer 技術的進一步應用，不僅為毫末智行在各條自動駕駛產品線上的視覺演算法落地帶來成倍的效率提升，還能夠讓各項視覺效能指標快速達到業內領先水平。

毫末智行憑藉其「

中國 Cruise

」的發展模式優勢，能夠在短期內積累下大量的資料資源。

Transformer 的出現和資料的積累，讓這家行業內的「後發企業」具備了彎道超車的機會。

資料量質變 + 算力質變 + Transformer = 感知智慧上質的飛躍。

有新技術開道，中美自動駕駛也正進入全新的一輪較量。

「汽車之心 · 行家說」預告

7 月 8 日週四晚 20：00 - 21：00，斯年智駕 CEO 何貝將做客汽車之心·行家說，聊聊物流重卡自動駕駛市場格局與應用場景。