PanoNet3D:一個基於鐳射雷達點雲語義和幾何理解的3D目標檢測方法

重磅乾貨,第一時間送達

作者丨黃浴@知乎

轉載自:計算機視覺life

ArXiv論文 “PanoNet3D: Combining Semantic and Geometric Understanding for LiDAR Point Cloud Detection“,作者來自CMU RI 研究所。

作者覺得大多數鐳射雷達檢測方法只是利用目標幾何結構,所以提出在一個多視角框架下學習目標的語義和結構特徵,其利用鐳射雷達的特性,2D距離影象,以此提取語義特徵。該方法PanoNet3D結構如圖:

上面分支,LiDAR點雲作為輸入,用幾個簡單的區域性幾何特徵修飾原始點特徵,包括全域性位置、區域性相對所在體素中心的位移。

體素化有兩種:1)3D正常體素化;2)pillarization,類似PointPillars。

下面分支,點雲轉換為偽距影象,類似LaserNet,得到結果如下圖:5個通道,range r, height h, elevation angle theta, reflectance i, occupancy mask m。

饋入2D Semantic FPN (SFPN),獲取每個畫素的深度語義特徵。將兩個分支輸出特徵彙總並傳遞到主檢測器。最終的框頭部在BEV平面生成檢測建議。單步檢測器,基於anchor,預測朝向框以及置信度得分。

文中提出了時域多幀融合和空域多幀融合,前者簡單,後者需要選擇關鍵幀,如圖是一個例子

這裡取兩幀n=2做實驗。

檢測頭設計如圖:初始特徵128維,整個場景大小限制為[-51。2, 51。2] [-51。2, 51。2] [-3, 3]米,分別在x-y-z方向。網路由ResNet基本塊幾層組成。S表示每層步幅,N表示塊數。生成的SFPN特徵圖具有和該層同樣解析度的,標記為紅色。可以是,3D voxelize輸入或者pillarize再輸入。

資料增強類似SECOND,cropped線下儲存,做隨機全域性變換,如translation、scaling、rotation等。

該文實現是基於Det3D:CBGS開源庫:https://link。zhihu。com/?target=https%3A//github。com/poodarchu/Det3D

結果:

本文僅做學術分享,如有侵權,請聯絡刪文。

下載1:OpenCV-Contrib擴充套件模組中文版教程

下載2:Python視覺實戰專案52講

下載3:OpenCV實戰專案20講

交流群