PanoNet3D：一個基於鐳射雷達點雲語義和幾何理解的3D目標檢測方法

重磅乾貨，第一時間送達

作者丨黃浴@知乎

轉載自：計算機視覺life

ArXiv論文 “PanoNet3D： Combining Semantic and Geometric Understanding for LiDAR Point Cloud Detection“，作者來自CMU RI 研究所。

作者覺得大多數鐳射雷達檢測方法只是利用目標幾何結構，所以提出在一個多視角框架下學習目標的語義和結構特徵，其利用鐳射雷達的特性，2D距離影象，以此提取語義特徵。該方法PanoNet3D結構如圖：

上面分支，LiDAR點雲作為輸入，用幾個簡單的區域性幾何特徵修飾原始點特徵，包括全域性位置、區域性相對所在體素中心的位移。

體素化有兩種：1）3D正常體素化；2）pillarization，類似PointPillars。

下面分支，點雲轉換為偽距影象，類似LaserNet，得到結果如下圖：5個通道，range r， height h， elevation angle theta， reflectance i， occupancy mask m。

饋入2D Semantic FPN （SFPN），獲取每個畫素的深度語義特徵。將兩個分支輸出特徵彙總並傳遞到主檢測器。最終的框頭部在BEV平面生成檢測建議。單步檢測器，基於anchor，預測朝向框以及置信度得分。

文中提出了時域多幀融合和空域多幀融合，前者簡單，後者需要選擇關鍵幀，如圖是一個例子

這裡取兩幀n=2做實驗。

檢測頭設計如圖：初始特徵128維，整個場景大小限制為［-51。2， 51。2］［-51。2， 51。2］［-3， 3］米，分別在x-y-z方向。網路由ResNet基本塊幾層組成。S表示每層步幅，N表示塊數。生成的SFPN特徵圖具有和該層同樣解析度的，標記為紅色。可以是，3D voxelize輸入或者pillarize再輸入。

資料增強類似SECOND，cropped線下儲存，做隨機全域性變換，如translation、scaling、rotation等。

該文實現是基於Det3D：CBGS開源庫：https：//link。zhihu。com/？target=https%3A//github。com/poodarchu/Det3D

結果：

本文僅做學術分享，如有侵權，請聯絡刪文。

下載1：OpenCV-Contrib擴充套件模組中文版教程

下載2：Python視覺實戰專案52講

下載3：OpenCV實戰專案20講

交流群