ICCV2021 | SMCA:即插即用的共同注意力模型,可使DETR收斂加速10倍

ICCV2021 | SMCA:即插即用的共同注意力模型,可使DETR收斂加速10倍

計算機視覺領域頂級會議 ICCV(國際計算機視覺大會)於10月11日至17日正式召開。據大會官方統計,ICCV 2021共收到6236篇投稿,其中1617篇論文被接收,接收率為25。9%。上海人工智慧實驗室多篇論文入選ICCV 2021,本期與讀者分享論文解讀:

《Fast Convergence of DETR with Spatially Modulated Co-Attention》

。該論文提出了SMCA,一種即插即用的簡單的共同注意力模型,透過在共同注意力機制中引入待檢測物體的高斯分佈權重,SMCA可使DETR的解碼器能更快地在全域性特徵中定位待檢測的物體特徵,從而加速DETR收斂。

SMCA-DETR在物體檢測和全景分割中可以快速收斂,並且取得優秀的檢測和分割結果。

ICCV2021 | SMCA:即插即用的共同注意力模型,可使DETR收斂加速10倍

論文連結:https://openaccess。thecvf。com/content/ICCV2021/papers/Gao_Fast_Convergence_of_DETR_With_Spatially_Modulated_Co-Attention_ICCV_2021_paper。pdf

程式碼連結:https://github。com/gaopengcuhk/SMCA-DETR

ICCV2021 | SMCA:即插即用的共同注意力模型,可使DETR收斂加速10倍

圖1 SMCA和DETR收斂速度的對比

1. Motivation

最近提出的DETR

[1]

將Transformer結構引入了目標檢測任務,並實現了與Faster-RCNN

[2]

等兩階段目標檢測演算法相當的效能。同時,DETR去除了以往目標檢測演算法中需要人工設計的Anchor和NMS等操作,大大簡化了目標檢測演算法的流程。然而,DETR的收斂速度十分緩慢,需要訓練500epochs才能取得比較好的檢測精度,為開展進一步的研究造成了一定的困難。

論文認為DETR收斂速度較慢的原因之一,來自於其中的共同注意力(Co-Attention)機制。不同於以往基於區域性特徵的目標檢測演算法,DETR使用了一系列物體查詢向量(Object Queries)與影象的全域性特徵進行互動,基於共同注意力機制自適應地從影象的不同位置獲取物體特徵,從而預測物體的邊界框座標及其類別。然而在這一過程中,與每個物體查詢向量進行互動的特徵區域可能包含大範圍的背景,或其他無關的物體。因此,DETR的解碼器(Decoder)需要更長的訓練時間來使物體查詢向量能較為準確地定位物體。

為了解決上述問題,論文提出了一種即插即用的空間調製共同注意力模組(Spatially Modulated Co-attention, SMCA),透過在共同注意力機制中引入物體的高斯分佈模型,將每個物體查詢向量在共同注意力機制中的搜尋範圍調整到物體中心附近的一定距離內,從而加速了DETR的收斂。另一方面,受到特徵金字塔網路(FPN)

[3]

等工作在多尺度特徵上研究的啟發,在編碼器(Encoder)中引入了對多尺度特徵的編碼。透過層內Intra-Scale Self-Attention)和層間(Multi-Scale Self-Attention)自注意力機制以及尺度選擇注意力機制,SMCA可以高效地編碼影象的多尺度資訊,並在解碼器中自適應地選擇合適尺度的特徵,從而提高檢測精度。

ICCV2021 | SMCA:即插即用的共同注意力模型,可使DETR收斂加速10倍

2 SMCA的結構示意圖

2. SMCA

1)空間調製的共同注意力模型

論文首先對DETR中解碼器的共同注意力機制進行回顧。對於給定的物體查詢向量

和編碼器輸出的全域性影象特徵

,DETR根據變換後兩者的注意力矩陣對全域性特徵進行聚合,從而更新物體查詢向量。在這一過程中,共同注意力機制中的特徵聚合範圍可以直接透過調整注意力矩陣的權重來改變。

ICCV2021 | SMCA:即插即用的共同注意力模型,可使DETR收斂加速10倍

因此,SMCA的核心就是透過將可學習的共同注意力權重與預先設定的物體查詢向量的空間先驗相結合,將特徵聚合的範圍限制在查詢向量估計的物體位置周圍,從而加快特徵的聚合過程。

SMCA的共同注意力模型如圖2中橙色部分所示,對於每一個給定的物體查詢向量

,SMCA首先對物體的中心位置

以及尺度

進行預測;

ICCV2021 | SMCA:即插即用的共同注意力模型,可使DETR收斂加速10倍

並使用預測值生成物體的二維高斯分佈

,其中,

用以調節高斯分佈的頻寬;

ICCV2021 | SMCA:即插即用的共同注意力模型,可使DETR收斂加速10倍

最後,將物體的二維高斯分佈與共同注意力模型中的注意力矩陣結合,得到空間調製的多頭注意力矩陣如下:

ICCV2021 | SMCA:即插即用的共同注意力模型,可使DETR收斂加速10倍

ICCV2021 | SMCA:即插即用的共同注意力模型,可使DETR收斂加速10倍

值得注意的是,SMCA在多頭注意力模型中的每一分支使用了不同的空間位置估計,分別聚焦於物體上的不同位置,從而更全面地提取物體特徵。

2)多尺度融合的共同注意力模型

受到特徵金字塔網路的啟發,論文進一步在SMCA中引入了多尺度特徵的融合機制。如圖2下半部分所示,SMCA首先從Backbone網路中獲得下采樣16倍、32倍和64倍的三個不同尺度的特徵圖作為解碼器的輸入。然後在解碼器中交替使用層內和層間的自注意力機制(不同尺度的特徵分別進行編碼/多層特徵統一進行編碼)編碼特徵,在這一過程中不同尺度的引數進行了共享。

在解碼器中,SMCA引入了相對應的尺度選擇機制。對於編碼器輸出的三種不同尺度的特徵,SMCA首先根據物體查詢向量預測尺度選擇的權重:

ICCV2021 | SMCA:即插即用的共同注意力模型,可使DETR收斂加速10倍

隨後在不同尺度的特徵上分別進行特徵聚合,最後加權求和得到輸出的物體特徵。

ICCV2021 | SMCA:即插即用的共同注意力模型,可使DETR收斂加速10倍

3. Performance

首先,論文將SMCA與基礎的DETR模型進行了比較。實驗結果如表1所示,透過簡單地替換DETR中現有的共同注意力機制並使用多尺度特徵,SMCA將DETR的收斂速度提升了接近10倍,並取得了更高的效能。

ICCV2021 | SMCA:即插即用的共同注意力模型,可使DETR收斂加速10倍

表1 與DETR的對比

其次,論文在下游任務,如全景分割上也對SMCA機制進行了測試。基於MaskFormer

[4]

ResNet50模型,在將網路中的共同注意力機制替換為SMCA後(未使用多尺度特徵融合),論文中的方法僅使用1/6的訓練時間即取得了和原模型相當的結果。

ICCV2021 | SMCA:即插即用的共同注意力模型,可使DETR收斂加速10倍

表2 SMCA在Panoptic Segmentation任務上的結果

此外,為了進一步驗證本文所提出的共同注意力機制的有效性,論文對解碼器中的注意力權重以及預測的物體位置進行了視覺化。如圖3所示,相較於原始的DETR,透過在多頭注意力模型的每一分支中對位置和尺寸分別進行預測,SMCA可以產生更加準確和緊湊的注意力權重分佈,加速了對於物體特徵的提取過程。

ICCV2021 | SMCA:即插即用的共同注意力模型,可使DETR收斂加速10倍

3 SMCA中共同注意力機制的視覺化

最後,如表3所示,與其他同類方法相比,SMCA可以使用類似或更少的訓練時間取得相當的檢測結果,證明了本文所提出方法的有效性。

ICCV2021 | SMCA:即插即用的共同注意力模型,可使DETR收斂加速10倍

表3 與其他模型的比較

ICCV2021 | SMCA:即插即用的共同注意力模型,可使DETR收斂加速10倍

圖4 視覺化結果

[1] N。 Carion, F。 Massa, G。 Synnaeve, N。Usunier, A。 Kirillov, and S。 Zagoruyko, “End-to-End Object Detection withTransformers,” in

In European Conference on Computer Vision

, 2020, pp。213–229。

[2] S。Ren, K。 He, R。 Girshick, and J。 Sun, “Faster R-CNN: Towards real-time objectdetection with region proposal networks,” in

Advances in Neural InformationProcessing Systems

, 2015, vol。 2015-January。

[3] T。Y。 Lin, P。 Dollár, R。 Girshick, K。 He, B。 Hariharan, and S。 Belongie, “Featurepyramid networks for object detection,” in

Proceedings of the IEEEConference on Computer Vision and Pattern Recognition (CVPR)

, 2017, vol。2017-Janua, pp。 936–944。

[4] B。Cheng, A。 G。 Schwing, and A。 Kirillov, “Per-Pixel Classification is Not All YouNeed for Semantic Segmentation,” arXiv, 2021。