科大訊飛再獲第一，汽車自動駕駛領域技術實現新突破

近期，科大訊飛AI研究院在目前最權威的nuScenes自動駕駛評測比賽上，取得

純視覺3D目標檢測任務的冠軍。

該技術的突破，為訊飛在自動駕駛領域產品佈局打下堅實的技術基礎，讓自動駕駛行業往“更安全、更智慧”的目標更近一步。

（比賽排行榜）

（比賽結果）

nuScenes資料集

是由知名無人駕駛技術公司Motional公司建立的大規模自動駕駛資料集。它擁有目前最完善的感測器配置，包含一個鐳射雷達，五個毫米波雷達，六個相機，IMU和GPS。nuScenes資料採集於多個城市1000 個場景，並提供了二維、三維物體標註、點雲分割、高精地圖等豐富的標註資訊、總共多達140 萬幀影象、39 萬幀鐳射雷達點雲資料、23 個物體類別、140 萬個三維標註框。

完善的感測器資料和充足的資料量使得nuScenes資料整合為自動駕駛領域中使用最廣泛的公開資料集之一，也是目前最權威的自動駕駛3D目標檢測評測集。

此次，

科大訊飛參加的nuScenes純視覺3D目標檢測賽道（vision track），與其他僅提供部分視角的自動駕駛資料集 KITTI 和 Waymo不同。它提供了 360 度的環視相機視野，可以

對周圍環

境進行全方位的感知。

因此自公開以來吸引了來自全球各地的研究團隊，不僅有百度、華為、商湯、曠視等知名企業，還涵蓋了MIT、清華大學、香港科技大學、上海交通大學、中國科學技術大學等國內外重點高校，可謂百舸爭流。

什麼是純視覺？

鐳射雷達和毫米波雷達等都是現如今自動駕駛領域最常用的感知裝置。但鐳射雷達體積大、費用不菲，毫米波雷達縱向測高能力不足，都存在一定的短板。

所謂純視覺，就是在不使用鐳射雷達、毫米波雷達等額外的感測器資訊條件下，僅使用6個攝像頭完成車外360度的3D目標檢測任務。

什麼是3D目標檢測？

3D目標檢測，即不僅需要檢測到汽車360度的所有汽車、行人等若干類物件，還要精確感知到他們在真實物理世界中的位置、大小、偏航角、速度等資訊。

伴隨著深度學習浪潮從 2D 影象席捲至更高維度、更為廣泛的資料模態，3D物體檢測作為現實應用場景（無人駕駛、機器人、虛擬現實）感知任務中極其重要的一環，已被越來越多的研究人員所關注。在這一波浪潮中，最早取得成功和廣泛現實影響力的當屬基於LiDAR點雲的檢測方案。與此同時，也有一批學者正在研究一個更為困難的任務——基於2D影象去做更高維度（2D3D）的感知任務，如基於單目、雙目和多視角的視覺解決方案，實現對空間內各物體的更精準感知。

3D檢測任務的難點在哪裡？

“真實”是純視覺3D檢測任務需要完成的最重要目標！如上圖所示，

3D目標檢測主要難點不僅是需要輸出更多的物體正常物理屬性（三維中心點、長寬高、偏航角、速度等），更重要的是其感知迴歸的是3D場景下物體的真實尺度，而非在2D影象中的拍攝尺度。

我們習慣於透過2D影象去感知3D世界，我們其實就是這樣來感知環境的，眼睛裡看到的每一幀2D影象，透過遠近、高低和陰影等資訊，構建了我們對三維立體世界的基礎認知。但這一做法從科學上來說，是反常理的，二維資訊終究是二維資訊，當提取出來的深度資訊不準確時，一切的三維感知任務都會變得異常困難。

基於“深度敏感注意力機制”的

“九頭蛇”Transformer模型（DA-HydraFormer）

針對以上難點問題，科大訊飛AI研究院創新提出了基於“深度敏感注意力機制”的“九頭蛇”Transformer模型（Depth Aware Hydra Transformer, DA-HydraFormer）。

在多視角視覺輸入統一轉換到BEV（Bird Eye View）特徵空間這一技術框架的基礎上，我們發現現有方案在使用注意力機制聚合特徵時，沒有直接考慮場景中物體相互遮擋的影響，提出了深度敏感注意力機制，得到了更魯棒更精確的BEV特徵。

方案整體上有四大核心技術突破：

一、更有效的點雲資訊蒸餾：

針對現有方案深度資訊難以學習和建模的問題，提出了稀疏點雲資訊指導

深度敏感注意力機制訓練

，巧妙地將點雲的深度資訊蒸餾至BEV Encoder中；

二、更魯棒的BEV特徵聚合：

針對多視角2D視覺輸入與3D物理空間對齊較難的問題，在現有

BEV特徵聚合

方案的基礎上，提出3D目標檢測與

2D目標檢測融合

的建模框架，使得模型能夠結合視覺語義得到更魯棒的BEV表徵；

三、更精細的時序特徵對齊：

針對駕駛場景中自車運動所帶來的

時空資訊錯位

問題，提出使用融合自車運動和

位姿變化的動力學方程

抵消資訊錯位，使得模型能夠端到端學習到更精細的時序特徵；

四、更強大的統一建模形式：

針對駕駛場景的視角輸入多、尺度跨越大、任務型別廣的特點，我們設計了前端CNN結合

中後端Transformer的統一建模方案

，結構簡單、訓練高效、場景通用。

先放幾張結果圖

左：雷達BEV視角（鳥瞰圖）右：360°環視相機視角下的檢測結果。

（普通城市場景）

（十字路口複雜道路場景）

動態來看更清楚

window。DATA。videoArr。push（{“title”：“科大訊飛再獲第一，汽車自動駕駛領域技術實現新突破”，“vid”：“n3348hpvbok”，“img”：“http：//inews。gtimg。com/newsapp_ls/0/15104119718_640480/0”，“desc”：“”}）

（普通城市環境中行駛狀態下的場景）

window。DATA。videoArr。push（{“title”：“科大訊飛再獲第一，汽車自動駕駛領域技術實現新突破”，“vid”：“f3348lc2fgq”，“img”：“http：//inews。gtimg。com/newsapp_ls/0/15104118404_640480/0”，“desc”：“”}）

（複雜十字路口環境中自動駕駛車輛周邊交通場景）

科大訊飛AI研究院透過基於“深度敏感注意力機制”的“九頭蛇”Transformer模型，實現了自動駕駛汽車對周圍物體的動態3D深度感知，讓車輛對周圍環境的敏感度提升，有助於提高自動駕駛車輛和人員的安全性，為訊飛在自動駕駛領域產品佈局打下堅實的技術基礎。

科大訊飛深耕智慧汽車行業19年，目前已形成近1000人的專業團隊，實現在汽車智慧化和數字化領域的全面產品佈局，產品涵蓋智慧互動、智慧座艙、智慧音效、自動駕駛、AI銷服等。

截至2022年3月底，訊飛汽車智慧化產品合作已覆蓋90%以上的中國主流自主品牌和合資品牌車廠，車型專案交付超過1200個，累計前裝搭載量突破3900萬。

憑藉與眾多車企的密切合作關係，強大的研發及交付實力，以及相關人工智慧技術優勢可與自動駕駛產品研發無縫銜接，科大訊飛現已形成智慧汽車方面較全面的品牌、技術和產品體驗完整生態，在自動駕駛和智慧汽車領域，佔領一席之地。“用人工智慧建設美好世界”的品牌願景也正在一步步實現。

科大訊飛AI研究院更多前沿技術突破，請關注科大訊飛AI研究院公眾號。