CVPR 2021輕量化目標檢測模型MobileDets

導讀

正則卷積是一個強有力的元件，以提高延遲-準確性權衡目標檢測的加速器，只要他們被放置在網路透過神經結構搜尋。透過在搜尋空間中合併Regular CNN並直接最佳化目標檢測的網路架構，作者獲得了一系列目標檢測模型，MobileDets，並在移動加速器中實現了最先進的結果。

簡介

構建在深度卷積上的Inverted bottleneck layers已經成為移動裝置上最先進目標檢測模型的主要構建模組。在這項工作中，作者透過回顧常規卷積的實用性，研究了這種設計模式在廣泛的移動加速器上的最優性。作者研究發現，正則卷積是一個強有力的元件，以提高延遲-準確性權衡目標檢測的加速器，只要他們被放置在網路透過神經結構搜尋。透過在搜尋空間中合併Regular CNN並直接最佳化目標檢測的網路架構，作者獲得了一系列目標檢測模型，MobileDets，並在移動加速器中實現了最先進的結果。在COCO檢測任務上，在移動CPU上MobileDets比MobileNetV3+SSDLite提升了1。7 mAP。MobileDets比MobileNetV2+SSDLite提升了1。9mAP，在不增加延遲的情況下，在谷歌EdgeTPU上提升了3。7 mAP，在Qualcomm Hexagon DSP上提升了3。4 mAP，在Nvidia Jetson GPU上提升了2。7 mAP。此外，MobileDets即使不使用金字塔也可以在移動cpu上媲美最先進的MnasFPN，並在EdgeTPUs和dsp上實現更好的mAP分數以及高達2倍的加速。

本文主要貢獻

不像許多現有的專門針對移動應用的IBN層的工作，本文提出了一種基於正則卷積構建塊的增強搜尋空間系列。證明了NAS方法可以從這種擴大的搜尋空間中獲得很大的收益，從而在各種移動裝置上實現更好的延遲-準確性權衡。

提供了MobileDets，一組在多個硬體平臺（包括手機）上具有最先進的Mobile目標檢測模型。

相關工作

Mobile Object Detection

物體檢測是一個經典的計算機視覺任務，其目標是學習識別影象中感興趣的物體。現有的目標檢測器可分為2類：

Two-Stage檢測器

One-Stage檢測器

對於Two-Stage檢測器，包括Faster RCNN， R-FCN和ThunderNet，在檢測器做出任何後續預測之前，必須首先生成區域建議。由於這種多階段的特性，Two-Stage檢測器在推理時間方面並不高效。另一方面，One-Stage檢測器，如SSD、SSDLite、YOLO、SqueezeDet和Pelee，只需要透過一次網路就可以預測所有的邊界框，使其成為邊緣裝置高效推斷的理想候選。因此，在這項工作中將重點放在One-Stage檢測器上。SSDLite是SSD的一個有效變體，它已經成為最流行的輕量級檢測器之一。它非常適合移動裝置上的應用。高效的backbone，如MobileNetV2、MobileNetV3，與SSDLite配對，以實現最先進的移動檢測結果。這兩個模型將被用作baseline，以證明所提出的搜尋空間在不同移動加速器上的有效性。

Mobile Neural Architecture Search （NAS）

NetAdapt和AMC是第一批嘗試利用延遲感知搜尋來微調預訓練模型的通道數量的公司。MnasNet和MobileNetV3擴充套件了這一想法，以便在NAS框架中找到資源效率高的架構。透過技術的組合，MobileNetV3在移動CPU上提供了最先進的架構。作為一個互補的方向，最近有許多致力於提高NAS的搜尋效率的工作。

NAS for Mobile Object Detection

大部分NAS文獻主要集中於分類，只將學習到的特徵提取器作為目標檢測的backbone，而沒有進一步的搜尋。最近，多篇論文表明，透過直接搜尋目標檢測模型可以獲得更好的延遲-精度權衡。MnasFPN是移動檢測模型的一個強大的檢測NAS Baseline，它使用對移動友好的搜尋空間搜尋特徵金字塔，極大地利用了深度可分離卷積。但是一九八存在幾個因素限制了它在移動加速器上的推廣：

到目前為止，深度卷積和特徵金字塔在這些平臺上都沒有得到很好的最佳化，

MnasFPN不搜尋backbone，這是延遲的瓶頸。

相比之下，本文的工作依賴於SSD Heads，並提出了基於全卷積Backbone的搜尋空間，更易於接受移動加速。

重新回顧全卷積移動搜尋空間

Are IBNs all we need ？

Inverted Bottleneck（IBN）的佈局如圖2所示。IBN的設計目的是減少引數和FLOPS的數量，並利用depthwise和pointwise（1x1）卷積在移動cpu上實現高效率。

然而，並非所有的FLOPS都是一樣的，特別是對於EdgeTPU和dsp這樣的現代移動加速器來說。例如，一個常規的卷積在EdgeTPUs上的執行速度可能比它的深度變化快3倍，即使它有7倍的FLOPS。觀察結果表明，目前廣泛使用的IBN-only搜尋空間對於現代移動加速器來說可能是次優的。這促使本文透過重新訪問規則（完全）卷積來提出新的構建塊，以豐富移動加速器的IBN-only搜尋空間。具體來說，提出了2個靈活的層分別進行通道擴充套件和壓縮，具體如下。

融合IBN層（擴充套件）

深度可分離卷積是IBN的關鍵（圖2）。深度可分離卷積背後的想法是將深度卷積（用於空間維度）和點卷積（用於通道維度）的組合代替複雜的全卷積。

然而，複雜的概念在很大程度上是基於FLOPS或引數的數量來定義的，這與現代移動加速器的推理效率不一定相關。為了整合卷積，作者提出對IBN層進行修改，將其前卷積和隨後的深度卷積融合為單個正則卷積（圖3）。融合IBN的初始卷積使Kernel的數量增加了一個因子；這一層的擴充套件比例由NAS演算法決定。

Tucker卷積層（壓縮）

在ResNet中引入瓶頸層，降低了在高維特徵圖上進行大卷積的消耗。壓縮比s<1的瓶頸層有：

輸入通道為輸出通道為的1×1卷積；

輸入通道為輸出通道為的K×K卷積；

輸入通道為輸出通道為的1×1卷積；

作者概括了這些瓶頸（圖4）透過允許初始1×1卷積比K×K卷積有不同數量的輸出卷積核，並讓NAS演算法決定最終的最佳配置。

作者將這些新的構建塊

稱為Tucker卷積層，因為它們與Tucker分解有關。

架構搜尋方法

本文提出的搜尋空間是互補的任何神經結構搜尋演算法。在實驗中使用

了TuNAS，因為它的可伸縮性和相對於隨機baseline的可靠改進。TuNAS構建了一個one-shot模型，該模型包含給定搜尋空間中的所有架構選擇，以及一個控制器，其目標是選擇最佳化平臺感知的獎勵功能的架構。

在搜尋過程中，one-shot模型和控制器一起訓練。在每一步中，控制器從跨越選擇的多項分佈中抽樣一個隨機體系結構，然後更新與抽樣體系結構相關的one-shot模型權值的部分，最後計算抽樣體系結構的獎勵，用於更新控制器。更新內容是透過對以下獎勵功能應用強化演算法來實現的：

Cost Models

作者訓練了一個Cost Model，——一個線性迴歸模型，它的特徵是，對於每一層，輸入/輸出通道規模和層型別之間的交叉乘積的指標。該模型跨平臺高保真度。線性代價模型與之前提出的基於查詢表的方法有關，但只要求在搜尋空間內對隨機選取的模型的延遲進行基準測試，而不要求度量卷積等單個網路操作的cost。因為R（M）是在每次更新步驟時計算的，所以效率是關鍵。在搜尋過程中，本文基於一個小型的小批處理估計了

mAP（M）的效率，並使用迴歸模型作為裝置上延遲c（M）的替代。為了收整合本模型的訓練資料，本文從搜尋空間隨機抽取數千個網路架構，並在裝置上對每個架構進行基準測試。這在每個硬體和搜尋之前只執行一次，消除了伺服器類ML硬體和移動裝置之間直接通訊的需要。對於最終的評估，所找到的體系結構將基於實際硬體測試而不是成本模型進行基準測試。

實驗

不同硬體的實驗

CPU

圖5顯示了pixel-1 cpu的NAS結果。正如預期的那樣，MobileNetV3+SSDLite是一個強大的baseline，因為它的backbone的效率已經在相同的硬體平臺上對ImageNet上的分類任務進行了大量最佳化。作者還注意到，在這種特殊情況下，常規卷積並沒有提供明顯的優勢，因為IBN-only在FLOPS/CPU延遲下已經很強大了。然而，w。r。t。進行特定領域的體系結構搜尋，目標檢測任務在COCO上提供了不小的收益（150-200ms範圍內的+1mAP）。

EdgeTPU

圖6顯示了以Pixel-4 EdgeTPUs為目標時的NAS結果。使用這3種搜尋空間中的任何一種進行硬體感知的體系結構搜尋，都能顯著提高整體質量。這很大程度上是由於baseline架構（MobileNetV2）1對CPU延遲進行了大量最佳化，這與FLOPS/MAdds密切相關，但與EdgeTPU延遲沒有很好地校準。值得注意的是，雖然IBN-only仍然提供了最好的準確性-madds權衡（中間圖），但在搜尋空間中使用常規卷積（IBN+Fused或IBN+Fused+Tucker）在準確性-延遲權衡方面提供了明顯的進一步優勢。實驗結果證明了完全卷積在EdgeTPUs上的有效性。

DSP