重磅乾貨,第一時間送達
作者丨黃浴@知乎
轉載自:計算機視覺life
ArXiv論文 “PanoNet3D: Combining Semantic and Geometric Understanding for LiDAR Point Cloud Detection“,作者來自CMU RI 研究所。
作者覺得大多數鐳射雷達檢測方法只是利用目標幾何結構,所以提出在一個多視角框架下學習目標的語義和結構特徵,其利用鐳射雷達的特性,2D距離影象,以此提取語義特徵。該方法PanoNet3D結構如圖:
上面分支,LiDAR點雲作為輸入,用幾個簡單的區域性幾何特徵修飾原始點特徵,包括全域性位置、區域性相對所在體素中心的位移。
體素化有兩種:1)3D正常體素化;2)pillarization,類似PointPillars。
下面分支,點雲轉換為偽距影象,類似LaserNet,得到結果如下圖:5個通道,range r, height h, elevation angle theta, reflectance i, occupancy mask m。
饋入2D Semantic FPN (SFPN),獲取每個畫素的深度語義特徵。將兩個分支輸出特徵彙總並傳遞到主檢測器。最終的框頭部在BEV平面生成檢測建議。單步檢測器,基於anchor,預測朝向框以及置信度得分。
文中提出了時域多幀融合和空域多幀融合,前者簡單,後者需要選擇關鍵幀,如圖是一個例子
這裡取兩幀n=2做實驗。
檢測頭設計如圖:初始特徵128維,整個場景大小限制為[-51。2, 51。2] [-51。2, 51。2] [-3, 3]米,分別在x-y-z方向。網路由ResNet基本塊幾層組成。S表示每層步幅,N表示塊數。生成的SFPN特徵圖具有和該層同樣解析度的,標記為紅色。可以是,3D voxelize輸入或者pillarize再輸入。
資料增強類似SECOND,cropped線下儲存,做隨機全域性變換,如translation、scaling、rotation等。
該文實現是基於Det3D:CBGS開源庫:https://link。zhihu。com/?target=https%3A//github。com/poodarchu/Det3D
結果:
本文僅做學術分享,如有侵權,請聯絡刪文。
下載1:OpenCV-Contrib擴充套件模組中文版教程
下載2:Python視覺實戰專案52講
下載3:OpenCV實戰專案20講
交流群