TOOD:任務對齊的一階段目標檢測

TOOD:任務對齊的一階段目標檢測

論文為ICCV2021 oral,整體看起來有點像ATSS+VFNET+GFL的組合版,不過提升比較大,yolo系列中也在使用,比如pp-yolo中

論文題目:

TOOD: Task-aligned One-stage Object Detection

論文地址:

https://arxiv。org/pdf/2108。07755。pdf

摘要

一階段目標檢測通常透過使用具有兩個並行分支的頭方式實現最佳化兩個子任務:物件分類和定位,這可能導致兩個任務之間的預測存在一定程度的空間錯位。在這項工作中,我們提出了一個任務對齊的單階段目標檢測 (TOOD),以基於學習的方式明確對齊兩個任務。首先,我們設計了一種新穎的任務對齊頭(T-Head),它在學習任務互動之間提供更好的平衡和特定於任務的功能,以及更大的靈活性透過任務對齊的預測器學習對齊;第二,我們提出任務對齊學習(TAL)明確地拉近(甚至統一)兩個任務的最佳錨點,在訓練期間透過設計的樣本分配方案和任務對齊的損失。

在 MS-COCO 上進行了廣泛的實驗,其中 TOOD 在單模型單尺度測試超過了最近一級檢測器,例如 ATSS(47。7 AP)、GFL(48。2 AP) 和 PAA (49。0 AP),具有更少的引數和 FLOP,定性結果也證明 TOOD 的有效性以更好地對齊物件分類和定位任務。

一 簡介

目標檢測旨在定位和識別目標,是一個基本的但是計算機視覺中的挑戰性任務,它通常被表述為一個多工學習問題,透過聯合最佳化物件分類和定位 ,分類任務旨在學習判別專注於物件的關鍵或顯著部分的特徵,而定位任務則致力於精確定位整個物件及其邊界,由於分類和定位的學習機制分歧,當使用兩個單獨的分支進行預測時兩個任務學習到的特徵的空間分佈可能不同,導致一定程度的錯位。

最近的一級目標檢測器試圖預測兩個獨立任務的一致輸出物件 的中心,他們假設錨點(無錨點檢測器的錨點,或用於基於錨的檢測器的框)在物件的中心可能會給出用於分類和定位更準確的預測,例如,最近的 FCOS 和 ATSS都使用中心分支提高靠近物件的中心錨點預測的分類分數,並分配更大的權重給相應錨點的定位損失,FoveaBox 將物件預定義中心區域內的錨點視為正樣本,這種啟發式設計取得了很好的效果,但這些方法可能會受到兩個限制:

(1) 分類和定位的獨立性

最近的一級檢測器執行物件分類和透過使用兩個獨立的分支並行,這樣的雙分支設計可能導致兩個任務之間缺乏互動,導致執行時的預測不一致,如圖 1 中的“結果”列所示,ATSS 檢測器識別“Dining table”的物件(由帶有紅色的anchor指示),但定位另一個物件更準確地表示“披薩”(紅色邊界框)。

TOOD:任務對齊的一階段目標檢測

(2) 與任務無關的樣本分配

大多數無錨檢測器使用基於幾何的分配方案來選擇物件中心附近的錨點以進行分類和定位 ,而基於錨點的檢測器通常透過計算錨框和真實框之間的 IoU 來分配錨框 ,然而,分類和定位的最佳錨點通常是不一致的,並且可能會因物體的形狀和特性而有很大差異,這廣泛使用的樣本分配方案與任務無關,因此可能很難對這兩個任務做出準確而一致的預測。

為了解決這些限制,我們提出了一個任務對齊的旨在對齊目標的一階段目標檢測 (TOOD)透過使用面向對齊的學習方法設計新的頭部結構來更準確地完成兩項任務:

任務對齊的頭部

傳統的一階段目標檢測中使用兩個分支分別實現分類和定位,我們設計了一個任務對齊頭(T-head)來增強兩個任務之間的互動,這允許兩個任務可以更協作地工作,這反過來又會保持一致使他們的預測更準確,T-head設計簡單:它計算任務互動特徵,並生成透過一種新穎的任務對齊預測器 (TAP) 進行預測,然後它根據任務對齊提供的學習訊號對齊兩個預測的空間分佈學習,如下所述。

任務對齊學習

為了進一步克服錯誤對齊問題,我們提出了任務對齊學習(TAL)顯式拉近兩個任務的最佳錨點,它是透過設計一個樣本分配方案和一個任務對齊的損失來執行的,樣本分配收集訓練樣本(即正樣本或負樣本)透過計算每個錨點的任務對齊程度,而 task-aligned loss 在訓練期間逐漸統一了預測分類和定位的最佳 anchors,因此,在推理時,邊界框具有最高的分類分數並共同擁有可以保留最精確的定位。

提出的 T-head 和學習策略可以協同工作,以做出高質量的預測在分類和定位方面,這項工作的主要貢獻可以總結如下:(1)我們設計了一個新的 T-head 來增強分類和本地化之間的互動,同時保持它們的特性,並將這兩個任務進一步對齊預測;(2) 我們建議 TAL 明確地對齊兩個任務的錨點,併為提出的預測器提供學習訊號;(3) 我們在 MSCOCO上進行了廣泛的實驗,其中我們的 TOOD達到了 51。1 AP,超過了最近的一級檢測器,例如 ATSS、GFL 和 PAA,定性結果進一步驗證了我們的任務對齊方法。

二 相關工作

一級探測器

OverFeat是最早的基於 CNN 的一級檢測器之一。隨後,YOLO 被開發來直接預測邊界框和分類分數,而不需要額外的階段來生成區域建議,SSD引入了具有來自多層卷積特徵的多尺度預測的錨點,RetinaNet提出了 Focal loss來解決一級檢測器的類不平衡問題,基於關鍵點的檢測方法,透過識別和分組邊界框的多個關鍵點來解決檢測問題,最近,FCOS和 FoveaBox 被開發透過錨點定位和點對邊界感興趣的物件,大多數主流的一級檢測器由兩個基於 FCN 的分支組成,用於分類和定位,在本文中,我們透過新的頭部結構和麵向對齊的學習方法來完成這兩項任務。

訓練樣本分配

大多數基於錨的檢測器,透過計算收集訓練樣本提議和真實框之間的 IoU,而無錨檢測器關注中心區域內的錨將物件作為正樣本,最近的研究試圖透過使用輸出結果收集更多資訊的訓練樣本來更有效地訓練檢測器。

例如,FSAF選擇有意義的樣本來自基於計算損失的特徵金字塔,類似地,SAPD 提供了 FSAF 的軟選擇透過設計一個元選擇網路,free anchor 和 MAL 透過計算識別最佳錨盒努力改善組合和物件之間的匹配的損失,PAA 自適應地分離錨點透過擬合機率分為正樣本和負樣本分佈分數,Mutual Guidance 透過考慮其他任務的預測質量,與正/負樣本分配不同,PISA根據輸出的精度等級 重新加權訓練樣本,Noisy Anchor為訓練分配軟標籤樣本,並使用清潔度分數重新加權錨框,以減輕二進位制標籤產生的噪聲,GFL 將二進位制分類標籤替換為IoU 得分將定位質量整合到分類中,這些出色的方法啟發了當前努力從任務協調的角度開發一種新的分配機制。

3 任務對齊的一階段目標檢測

概述

類似於最近的一級檢測器,提議的 TOOD 有一個整體管道‘backbone-FPN-head’,此外,考慮效率和簡單性,TOOD 每個位置使用單個錨點(與 ATSS相同),其中“錨點”表示無錨檢測器或錨盒的錨點用於基於錨的檢測器,現有的一級檢測器通常使用兩個單獨的頭分支來實現的兩個任務在分類和定位之間存在任務錯位的侷限性,在這項工作中,我們建議對齊這兩個任務更明確地使用設計的任務對齊頭(T-head)與新的任務對齊學習(TAL),如圖 2 所示,T-head 和 TAL 可以協同工作以提高兩個任務的一致性,T-head首先對FPN 特徵進行分類迴歸預測,然後 TAL 計算基於新任務對齊度量的任務對齊訊號,該度量測量兩者之間的對齊程度預測,最後,T-head 自動調整其分類在反向傳播期間使用從 TAL 計算的學習訊號進行正樣本機率和定位預測。

TOOD:任務對齊的一階段目標檢測

3.1 任務對齊的頭部

我們的目標是設計一種有效的頭結構,以改進單級檢測器中頭的傳統設計(如圖 3(a)所示),在這項工作中,我們實現透過考慮兩個方面:(1)增加兩個任務之間的互動,以及(2)增強檢測器學習對齊的能力。建議的 T 頭是如圖 3(b) 所示,它有一個簡單的特徵提取器和兩個任務對齊預測器 (TAP)。

TOOD:任務對齊的一階段目標檢測

為了增強分類和定位之間的互動,我們使用特徵提取器從多個卷積層中學習一堆任務互動特徵,如如圖 3(b) 中的藍色部分所示,這種設計不僅方便了任務互動,同時也提供了多層次的具有多尺度有效感受野的兩個任務特徵,形式上,令 Xfpn ∈ RH×W×C 表示FPN 特徵,其中 H、W 和 C 表示高度、寬度和通道數。特徵提取器使用 N 個帶有啟用函式的連續卷積層來計算任務互動特徵:

TOOD:任務對齊的一階段目標檢測

其中convk和δ指的是第k個conv層和一個relu函式, 因此,我們使用 FPN 特徵中的單個分支從 FPN 特徵中提取豐富的多尺度特徵,然後,計算出的任務互動特徵將輸入兩個 TAP 用於對齊分類和定位。

任務對齊預測器 (TAP)

我們對計算的任務互動特徵執行物件分類和定位,這兩個任務可以很好地感知彼此的狀態,但由於單分支設計,任務互動特性不可避免地引入了兩個不同任務之間存在一定程度的特徵衝突, 直覺上,目標分類和定位的任務有不同目標,因此專注於不同型別的特徵(例如,不同的水平或感受野)。因此,我們提出了一種層注意機制,透過在層級動態計算這些特定於任務的特徵來鼓勵任務分解。如圖 3(c) 所示,任務特定特徵是為每個任務單獨計算的分類或迴歸:

TOOD:任務對齊的一階段目標檢測

預測對齊

在預測步驟,我們進一步透過調整兩個預測的空間分佈來明確對齊兩個任務:P 和 B。不同於以前的作品使用中心分支或 IoU分支只能根據分類特徵或定位調整分類預測特徵,我們透過考慮聯合使用計算的任務互動特徵來對齊兩個預測任務。值得注意的是, 如圖 3(c) 所示,我們使用空間機率圖 M ∈ RH×W×1調整分類預測:

TOOD:任務對齊的一階段目標檢測

其中 M 是從互動特徵中計算出來的,允許它學習兩個任務在每個空間位置之間的一定程度的一致性。同時,為了在定位預測上進行對齊,我們進一步學習了空間偏移圖 O ∈ RH×W×8互動功能,這是用來調整每個位置的預測邊界框, 具體來說,學習到的空間偏移使最對齊的錨點成為可能確定圍繞它的最佳邊界預測:

TOOD:任務對齊的一階段目標檢測

其中索引 (i, j, c) 表示第 (i, j) 個空間位置在張量的第 c 個通道上,方程(6)是透過雙線性插值實現的,由於 B 的通道維度非常小,其計算開銷可以忽略不計,值得注意的是,每個通道的偏移量是獨立學習的,這意味著 物件有自己的學習偏移量,這樣可以更準確地預測四個邊界,因為它們每個都可以單獨從它附近最精確的錨點學習,所以,我們的方法不僅對齊了兩個任務,而且改進了透過識別精確的錨點來提高定位精度。

對齊圖 M 和 O 是從堆疊的互動式特徵圖中自動學習的:

TOOD:任務對齊的一階段目標檢測

其中 conv1 和 conv3 是兩個 1×1 的卷積層,用於降維。M 和 O 的學習使用建議的任務對齊學習 (TAL),我們的 T-head 是一個獨立的模組,並且可以在沒有 TAL 的情況下正常工作。很容易應用於各種單級目標檢測器,即插即用的方式提高檢測效能。

3.2 任務對齊學習

我們進一步介紹了任務對齊學習(TAL),這進一步指導我們的 T-head 做出與任務一致的預測,TAL 不同於以前的方法在兩個方面:一、從任務對齊的角度看,它根據設計的方法動態地選擇高質量的錨點,其次,它同時考慮了錨點分配和加權。它包括一個樣本分配策略和專門為對齊兩個任務而設計的新損失。

3.2.1 任務對齊的樣本分配

為了應對 NMS,一個訓練例項的錨分配應滿足以下規則:(1)一個良好對齊的錨應該能夠預測高分類分數同時精確定位;(2) 未對齊的錨應該有一個低分類分數並被抑制,有了這兩個目標,我們設計了一個新的 anchor 對齊度量來明確測量錨級別的任務對齊。對齊度量是整合到樣本分配和損失函式中動態細化每個錨點的預測。

錨點對齊指標

考慮到分類分數和預測邊界框之間的 IoU表明預測的質量透過這兩個任務,我們衡量任務對齊的程度使用分類分數和iou的高階組合,具體來說,我們設計了以下指標計算每個例項的錨級對齊:

TOOD:任務對齊的一階段目標檢測

其中 s 和 u 表示分類分數和 IoU值,α和β用於控制影響錨對齊度量中的兩個任務,t 在兩者的聯合最佳化中起關鍵作用,它鼓勵網路從聯合最佳化的角度動態關注高質量(即任務對齊)錨點。

訓練樣本分配

訓練樣本分配對於目標檢測器的訓練至關重要。為了提高兩個任務的一致性,我們專注於任務對齊的錨點,並採用簡單的符號規則來選擇訓練樣本:對於每個例項,我們選擇 m 個具有最大 t 值的錨點作為正樣本,同時使用剩餘的錨點作為負樣本。同樣,訓練是透過計算專門設計用於對齊分類和定位任務。

3.2.2 任務對齊損失

分類目標

為了顯式增加對齊錨的分類分數,同時降低未對齊錨的分數(即,有一個小的t),在訓練中我們使用 t 來替換正錨的二值標籤,但是,我們發現當正錨的標籤(即 t),隨著 α 和 β 的增加而變小,網路無法收斂,因此,我們使用歸一化的 t,即 t^,來替換正錨,其中 t 由以下兩個屬性歸一化:(1)確保有效學習例項(對於所有對應的正錨通常有一個小的 t);(2)根據預測邊界的精度保持之間的排名。因此,我們採用簡單的例項級歸一化來調整 t^ 的規模:t^ 的最大值等於每個例項中的最大 IoU 值 (u)。然後二進位制在正錨點上計算的交叉熵(BCE)對於分類任務可以重寫為:

TOOD:任務對齊的一階段目標檢測

目標定位

由 a 預測的邊界框對齊良好的錨(即具有較大的 t)通常同時具有精確定位的分類高分數,以及這樣的邊界框更有可能在 NMS 期間被保留,此外,t 可以透過更加謹慎地加權損失來選擇高質量的邊界框,以改善訓練。從高質量的邊界框中學習有利於模型的效能,而低質量的通常對訓練產生負面影響。在我們的例子中,我們應用 t 值來測量邊界框的質量,因此,我們改進了任務,透過關注對齊良好的錨(具有大 t),對齊和迴歸精度,同時減少影響邊界期間未對齊的錨點(具有小 t)框迴歸,與分類目標類似,我們重新加權計算的邊界框迴歸的損失每個錨點都基於 t^,而 GIoU 損失 (LGIoU) 可以改寫如下:

TOOD:任務對齊的一階段目標檢測

4 實驗與結果

資料集和評估協議

所有的實驗都是在大規模檢測基準 MS COCO 2017 上實施,按照標準做法,我們使用 trainval135k 集(115K 影象)進行訓練和 minival 集(5K 影象)作為我們消融的驗證,我們在測試開發集上報告我們與最先進的檢測器進行比較的主要結果,效能由 COCO 平均精度 (AP) 衡量。

實施細節

與大多數單階段檢測器 一樣,我們使用“backbone-FPN-head”,具有不同的主幹,包括在 ImageNet上預訓練的 ResNet-50、ResNet-101 和 ResNeXt-101-64×4d。類似於 ATSS ,TOOD 每個位置一個錨,除非另有說明,否則我們報告無錨的 TOOD(基於錨的TOOD 可以實現類似的效能),如表 3 所示。互動層數 N 設定為 6 ,T-head 具有常規平行頭,聚焦引數γ為 2。

TOOD:任務對齊的一階段目標檢測

4.1 消融研究

對於消融研究,我們使用 ResNet-50 主幹,除非另有說明,否則將模型訓練 12 個 epoch,在 COCO minival set 上評估的。

在頭部結構上

將我們的 T 頭與表1中的常規平行頭對比。可以採用以即插即用的方式在各種一級檢測器中,並且始終比傳統頭部高出 0。7到 1。9 AP,引數和 FLOP 更少。該驗證確定了我們設計的有效性,並證明了T-head 工作效率更高,效能更高,透過引入任務互動和預測對齊。

關於樣本分配

為了證明 TAL 的有效性,我們將 TAL 與使用不同樣本分配方法的其他學習方法進行比較,見表2。訓練樣本分配可分為固定分配和自適應分配是否是基於學習的方法,不同於以往的分配方法,TAL自適應地分配正負anchors,同時更仔細地計算正anchor的權重,從而獲得更高的效能,與 PAA 比較(+IoUpred。),它有一個額外的預測結構將 TAP 整合到 TAL 中,從而獲得更高的 42。5 的 AP。更多的關於 TAL 與以前的區別的討論方法在 SM 中介紹。

TOOD:任務對齊的一階段目標檢測

TOOD

我們評估完整的效能TOOD(T 頭 + TAL),如表3所示,anchor free TOOD和anchor-based TOOD可以達到類似的效能,即 42。5 AP 和 42。4 AP。和ATSS相比, TOOD 提高了 ∼3。2 AP 的效能。更具體地說,對 AP75 的改進是顯著的,這會在 TOOD 中產生 ∼3。8 AP,這個驗證對齊兩個任務可以提高檢測效能,值得注意的是,TOOD 帶來了比 T-head + ATSS (+1。9 AP) 和 Parallel head 的單個改進總和更高的改進 (+3。3 AP)+ TAL (+1。1 AP),如表 6 所示,這表明 T head 和 TAL 可以相互補償。

TOOD:任務對齊的一階段目標檢測

TOOD:任務對齊的一階段目標檢測

關於超引數

我們首先使用不同的 α 和 β 值來研究 TAL 的效能,透過 t 控制分類置信度和定位精度對錨對齊度量的影響,透過如表 4 所示的粗略搜尋,我們採用 α = 1 和β = 6,然後我們進行了幾次實驗研究超引數 m 的魯棒性,使用不同的值m,並在[5, 9, 13, 17, 21]範圍內取得結果42。0∼42。5 AP,這表明效能對 m 不敏感,因此,我們在所有實驗中採用 m = 13。

TOOD:任務對齊的一階段目標檢測

4.2 與最先進的檢測器比較

我們將TOOD 與其他一級檢測器進行比較在COCO test-dev 上,如表 5 ,模型經過訓練,具有尺度抖動 (480-800) 和 2x 訓練計劃 (24epochs)。為了公平比較,我們報告了單一模型和單一測試的結果,使用 ResNet-101 和 ResNeXt-101-64×4d,TOOD 達到 46。7 AP 和 48。3 AP,優於大多數當前的一級檢測器,如 ATSS (約 3AP)和 GFL (約 2 AP),此外,使用 ResNet-101-DCN 和 ResNeXt-101-64×4d-DCN,TOOD 帶來了與其他檢測器相比更大的改進,例如,它獲得了 2。8 AP 的改進(48。3→51。1AP),而 ATSS 有 2。1 AP(45。6→47。7 AP)的改進,這驗證了 TOOD 可以更有效地與可變形卷積網路 (DCN) 結合,透過自適應調整空間分佈任務對齊的學習特徵,在 TOOD 中,DCN 應用於頭的前兩層,如表 5 所示,TOOD 在單階段目標檢測中以 51。1 AP 實現了新的最先進結果。

TOOD:任務對齊的一階段目標檢測

4.3 任務對齊的定量分析

我們定量分析提出的兩個任務對齊的方法效果,不使用 NMS,我們計算 Pearson 相關係數 (PCC)透過為每個例項選擇前 50 個置信度預測來獲得分類和定位的排名 ,以及前 10 個置信預測的平均 IoU,如表 6 所示,平均 PCC 和IoU 透過使用 T-head 和 TAL 得到改進,同時,使用 NMS,正確框 (IoU>=0。5) 的數量增加,而冗餘 (IoU>=0。5) 和錯誤框的數量(0。1

TOOD:任務對齊的一階段目標檢測

TOOD:任務對齊的一階段目標檢測

5 結論

在這項工作中,我們說明了在現有的一階段檢測器中進行分類和定位的錯誤對齊,並提出TOOD來對齊這兩個任務,設計了一個task-aligned head來增強兩個任務的互動,進而提高其學習能力,透過引入樣本分配來制定策略方案和新的損失函式,兩者都是透過錨對齊度量計算的,透過這些改進,TOOD在MS-COCO上獲得了51。1的AP,超過了最先進的一級檢測器。