位元組跳動多篇論文入選 CVPR 2021，精選乾貨都在這裡了

CVPR 2021，近期剛剛落下帷幕。

作為計算機視覺領域三大頂級學術會議之一，CVPR每年都吸引了各大高校、科研機構與科技公司的論文投稿，許多重要的計算機視覺技術成果都在CVPR上中選釋出。

今天，為大家精選了14篇位元組跳動技術團隊入選本屆CVPR的論文，其中包含2篇Oral（口頭演講論文），分享其中的核心突破，學習計算機視覺領域的最前沿研究。

除此之外，在本屆CVPR的各個比賽環節，位元組跳動技術團隊榮獲4項比賽冠軍。

接下來，我們就來一起讀paper啦。

HR-NAS：使用輕量級Transformer的高效搜尋高解析度神經架構

HR-NAS: Searching Efficient High-Resolution Neural Architectures with Lightweight Transformers

本文由位元組跳動與香港大學、中國人民大學高瓴人工智慧學院合作完成，是本屆CVPR的Oral論文之一。

文中提出了一種適用於包括分類、分割、檢測在內的各種視覺感知任務的統一的supernet和在其之上的模型結構搜尋和壓縮方法，提出了一個統一的框架用於解決不同視覺感知任務對不同結果的需求。

論文作者更新了NAS搜尋空間及搜尋策略，設計了輕量級的Transformer，其計算複雜性可以隨著不同的目標函式和計算預算動態變化。為了維持學習網路的高解析度表示，HR-NAS採用多分支架構提供多個特徵解析度的卷積編碼。作者還提出了一種更有效的搜尋策略來訓練HR-NAS以有效探索搜尋空間，在特定任務和計算資源下找到最佳架構。

論文連結：

https：//openaccess。thecvf。com/content/CVPR2021/papers/Ding_HR-NAS_Searching_Efficient_High-Resolution_Neural_Architectures_With_Lightweight_Transformers_CVPR_2021_paper。pdf

程式碼連結：

https：//github。com/dingmyu/HR-NAS

用於自監督視覺預訓練的密集對比學習

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

本文由位元組跳動與阿德萊德大學、同濟大學合作完成，是本屆CVPR的一篇Oral論文。

這項研究可以實現不需要昂貴的密集人工標籤，就能在下游密集預測任務上實現出色的預訓練效能。

研究團隊提出的新方法 DenseCL（Dense Contrastive Learning）透過考慮區域性特徵之間的對應關係，直接在輸入影象的兩個檢視之間的畫素（或區域）特徵上最佳化成對的對比（不相似）損失來實現密集自監督學習。

現有的自監督框架將同一張影象的不同資料增強作為一對正樣本，利用剩餘影象的資料增強作為其負樣本，構建正負樣本對實現全域性對比學習，這往往會忽略區域性特徵的聯絡性與差異性。

該研究提出的方法在此基礎上，將同一張影象中最為相似的兩個畫素（區域）特徵作為一對正樣本，而將餘下所有的畫素（區域）特徵作為其負樣本實現密集對比學習。去掉了已有的自監督學習框架中的全域性池化層，並將其全域性對映層替換為密集對映層實現。在匹配策略的選擇上，研究者比較了最大相似匹配和隨機相似匹配對最後的精度的影響。與基準方法 MoCo-v2相比，DenseCL 引入了可忽略的計算開銷（僅慢了不到 1%），但在遷移至下游密集任務（如目標檢測、語義分割）時，表現出了十分優異的效能。

該方法遷移至下游密集任務的效能增益：

論文連結：

https：//arxiv。org/abs/2011。09157

程式碼連結：

https：//github。com/WXinlong/DenseCL

用於影片修復的漸進式時間特徵對齊網路

Progressive Temporal Feature Alignment Network for Video Inpainting

本文由位元組跳動與加利福尼亞大學戴維斯分校合作完成。

論文作者提出了一種新的影片補全演算法，綜合了之前的基於光流和基於3D卷積神經網路的方法，提出了特徵對齊的3D卷積方法，名為「漸進式時間特徵對齊網路」，使用光流從相鄰幀的特徵來逐步豐富當前幀的特徵，該方法在時間特徵傳播階段糾正了空間錯位，大幅提升了生成影片的精度和視覺效果。

目前，這種新的方法在DAVIS和FVI兩大資料集上達到了學界最佳的效果。

這項技術可以應用在影片編輯類App中，當用戶在影片中P掉某些部分時，可以自動生成更好的補全效果。

論文連結：

https：//arxiv。org/abs/2104。03507

程式碼連結：

https：//github。com/MaureenZOU/TSAM

人物去遮擋：人物遮擋感知與恢復

Human De-occlusion: Invisible Perception and Recovery for Humans

本文由位元組跳動與華中科技大學電子資訊與通訊學院合作完成。

針對影象中人物部分被其他物體遮擋的問題，論文作者提出了一個兩階段框架來估計人像不可見的部分，並恢復其中的內容。

首先是蒙版補全階段，藉助示例分割模型，作者設計了一個堆疊網路結構，來完善整個蒙版；之後在蒙版內進行內容恢復，用到了一種新的解析引導注意力模型，來區分身體的不同部分，補充更多資訊。

這項技術可以應用在人物影象編輯過程中，實現人像合照順序替換、修補等功能。

此外，在人物去遮擋這項任務上，作者貢獻了Amodal人類感知（AHP）資料集，資料集標註了每張圖片的場景，並且有豐富的人物數量。本文提出的方法也在AHP資料集上獲得了當前學術界最佳的效果。

論文連結：

https：//arxiv。org/abs/2103。11597

資料集：

https：//sydney0zq。github。io/ahp/

先定位再分割：一種用於指代性影象分割的高效能基準方法

Locate then Segment: A Strong Pipeline for Referring Image Segmentation

本文由位元組跳動與中科院自動化所合作完成。

指代性物體分割（Referring Image Segmentation），透過自然語言定位並分割出場景中的目標物體，比如語言指示「分割出穿白色襯衫的人」，系統就自動完整這項任務。

這項研究採用先定位再分割的方案（LTS，Locate then Segment），將指代性影象分割任務分解為兩個子序列任務：

定位模組：被指代物件的位置預測，透過位置建模可以顯式獲取語言所指代的物件；

分割模組：物件分割結果的生成，後續的分割網路可以根據視覺環境資訊來得到準確的輪廓。

其中定位模組旨在找到語言表達所指代的視覺區域。首先基於語言描述生成卷積核，然後使用該卷積核對提取到的多模態特徵進行過濾來得到位置資訊，其中被指代物件所在區域的響應得分應該高於無關的視覺區域，這也是一個粗略的分割結果。

為了得到精細的分割結果，分割模組將原始的多模態特徵和位置先驗進行拼接，然後利用一個分割網路去細化粗分割結果，它的主要結構是 ASPP，透過使用多個取樣率在多個尺度上捕獲物件周圍的資訊。為了獲得更精確的分割結果，本文采用反捲積的方式對特徵圖進行上取樣。

該研究提出的方法比之前效能最好的方法 CGAN 效能更高，尤其在 RefCOCO + 和 RefCOCOg 上可以提高大約 3%IoU。

論文連結：

https：//arxiv。org/abs/2103。16284

針對目標檢測的多尺度自動資料增強方法

Scale-aware Automatic Augmentation for Object Detection

本文由位元組跳動與香港中文大學合作完成。

這篇論文提出了一種針對目標檢測尺度變化問題的自動化資料增強方法，研究團隊設計了一種新的搜尋空間和一種搜尋過程中的估計指標（Pareto Scale Balance）。

這種新方法僅花費了8塊GPUs，2。5天的時間即可完成，搜尋效率相對提升40倍。搜尋得到的資料增強策略在各類檢測器和不同資料集上都能帶來較大的效能提升，並超越了傳統方法。

此外，搜尋得到的策略存在著一定的規律，這些規律或許能為以後人工資料增強設計提供一些幫助。

論文連結：

https：//arxiv。org/abs/2103。17220

程式碼連結：

https：//github。com/Jia-Research-Lab/SA-AutoAug

即插即用，更高效：一種基於混合注意力機制的動作識別的ACTION模組

ACTION-Net: Multipath Excitation for Action Recognition

本文由位元組跳動與都柏林聖三一大學合作完成。

這項研究主要關注3D卷積的深度神經網路完成影片動作識別任務，主要側重於時序動作識別比如人機互動與VR/AR中的手勢識別。

和傳統的動作識別相比如Kinetics（注重影片分類），此類應用場景主要有兩種區別：

1。一般部署在邊緣裝置上如手機，VR/AR裝置上。所以對模型計算量和推理速度有一定的要求；

2。此類動作（“

Rotate fists counterclockwise

” vs “

Rotate fists clockwise

”）和傳統動作識別動作（“

Walking

” vs “

Running

”）相比有著較強時序性。針對以上的兩點，我們基於2D CNN（輕便）提出了一個混合注意力機制的ACTION模組（對於時序動作建模）。

主要貢獻點：

1。對於時序動作識別（比如手勢）提出了一個混合注意力機制的ACTION模組，該模組兼顧時序動作裡面三個重要的資訊：（a）時空資訊即動作在時間和空間上的關係；（b）動作的時序資訊在不同通道間的一個權重；（c）每相鄰兩幀之間動作的變化軌跡。

2。該模組和經典TSM模組一樣，即插即用。基於2D CNN，非常輕便。我們在文章中展示了ACTION模組在三個不同backbone： ResNet-50，MobileNet V2和BNInception相比於TSM帶來的效果提升和額外增加計算量。在三個時序動作資料集即Something-to-Something V2，Jester和EgoGesture上都測試了ACTION模組的實用性。

論文連結：

https：//arxiv。org/pdf/2103。07372。pdf

程式碼連結：

https：//github。com/V-Sense/ACTION-Net

以非迭代和增量學習的方法進行超畫素分割

Learning the Superpixel in a Non-iterative and Lifelong Manner

本文由位元組跳動與北京大學、北京郵電大學合作完成。

超畫素分割旨在將影象高效的分割為遠超於目標個數的超畫素塊，達到儘可能保留影象中所有目標的邊緣資訊的目的。然而，當前基於CNN的超畫素分割方法，在訓練過程中依賴於語義分割標註，從而導致生成的超畫素通常包含很多冗餘的高層語義資訊，因此不僅限制了超畫素分割方法的泛化性、靈活性、也制約了其在缺乏分割標註的視覺任務中的應用前景，如目標跟蹤、弱監督影象分割等。

為解決這一問題，本文從持續學習的視角看待超畫素分割問題，並提出了一種新型的超畫素分割模型可以更好的支援無監督的線上訓練模式。

考慮到超畫素分割作為廣義分割問題需要更關注影象的細節資訊，本模型摒棄了其他超畫素分割網路中採用的較深而複雜的卷積神經網路結構，而選用了較為輕量級的特徵提取模組（FEM），並提出了非迭代聚類模組（NCM）透過自動選取種子節點，避免了超畫素分割方法中的聚類中心的迭代更新，極大地降低了超畫素分割的空間複雜度與時間複雜度。

最後，為解決線上學習所帶來的災難性遺忘問題，本模型採用了梯度調節模組（GRM），透過訓練權重在特徵重建時的作用效果及畫素的空間位置先驗，調節反向傳播時各權重的梯度，以增強模型的記憶性及泛化性。

論文連結：

https：//arxiv。org/abs/2103。10681

程式碼連結：

https：//github。com/zh460045050/LNSNet

Involution：反轉卷積的固有性質以進行視覺識別

Involution: Inverting the Inherence of Convolution for Visual Recognition

本文由位元組跳動與香港科技大學、北京大學合作完成。

本文重新思考了卷積核在空間和通道維度的固有特性，即空間不變性和通道特異性。

論文作者透過反轉以上的兩個設計準則，提出了一種新穎的神經網路運算元，稱為Involution，並將最近應用廣泛的自注意力操作作為一種複雜的特例歸入了involution的範疇。Involution運算元可以替代普通卷積來搭建新一代的視覺神經網路，在不同的視覺任務中支援多種多樣的深度學習模型，包括ImageNet影象分類，COCO目標檢測和例項分割，Cityscapes語義分割。

基於Involution的深度神經網路相較於卷積神經網路模型，在上述任務中顯著減少計算代價的同時能夠提高識別效能。

論文連結：

https：//arxiv。org/abs/2103。06255

程式碼連結：

https：//github。com/d-li14/involution

一種針對視覺-語義嵌入的自動學習最佳池化策略

Learning the Best Pooling Strategy for Visual Semantic Embedding

本文由位元組跳動與南加州大學合作完成。

本文針對視覺-語義跨模態匹配問題，提出了一種通用的池化策略。

視覺-語義嵌入（Visual Semantic Embedding）學習是視覺-文字檢索的一個常用方法，透過將視覺與文字模態對應的嵌入對映到同一個空間，使得匹配的視覺與文字的嵌入是相近的。

論文作者發現對單個模態的集合嵌入（如圖片的grid-level特徵、文字的token-level特徵、影片的frame-level特徵）聚合成全域性嵌入的池化方式對模型效果有著很大的影響，提出了一種簡單且通用的池化模組Generalized Pooling Operator（GPO），用於對任意模態的集合嵌入聚合為一個全域性嵌入。GPO模組可以自適應地學習出每個模態最優的池化策略，從而免除複雜的組合嘗試。

論文連結：

https：//arxiv。org/abs/2011。04305

程式碼連結：

https：//vse-infty。github。io

DeepI2P：基於深度學習的點雲-影象配準

DeepI2P: Image-to-Point cloud registration via deep classification

本文由位元組跳動與新加坡國立大學合作完成。

本文提出了全新的方法來實現跨模態點雲-影象配準。給定在同一個地點附近拍攝的RGB圖片，以及鐳射雷達掃描的三維點雲，可以透過DeepI2P估算相機與鐳射雷達的相對位置，即旋轉矩陣和平移向量。

以往的跨模態匹配工作中常見的方法是學習點雲、影象的描述子。但是學習和匹配這兩個模態的描述子是非常困難的，因為點雲、影象的幾何、紋理特徵差異非常大。

DeepI2P巧妙地繞過了困難的跨模態描述子學習，而將跨模態配準問題轉化為一個分類問題加一個“逆投影”問題。透過一個分類網路，能夠將三維點雲中的每一個點分類為落在相機平面之內或之外。這些經過標記的點可以透過文中提出的“逆投影”最佳化器求解出相機和鐳射雷達的相對位置。

DeepI2P演算法已經在KITTI和Oxford RobotCar資料集上驗證了有效性。

論文連結：

https：//arxiv。org/abs/2104。03501

程式碼連結：

https：//github。com/lijx10/DeepI2P

Sparse R-CNN：基於可學習候選框的端到端稀疏目標檢測器

Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

本文由位元組跳動與香港大學、同濟大學、加利福尼亞大學伯克利分校合作完成。

傳統的目標檢測器主要可以分為兩類：

第一大類是從非深度學習時代以來就被廣泛應用的密集檢測器（dense detector），例如DPM，YOLO，RetinaNet。在密集檢測器上，大量的候選物體例如錨點框以及參考點等被提前預設在影象網格或者特徵圖網格上，然後直接預測這些候選框到真實值的偏離量和物體類別。

第二大類是密集到稀疏的檢測器（dense-to-sparse detector），例如，Faster R-CNN系列。這類方法的特點是對一組稀疏的候選框預測迴歸和分類，而這組稀疏的候選框來自於密集檢測器。

沿著目標檢測領域中Dense和Dense-to-Sparse的框架，Sparse R-CNN建立了一種徹底的稀疏目標檢測框架，脫離了錨點框、參考點等概念，無需非極大值抑制（NMS）後處理，在標準的COCO benchmark上達到了當前最好的的效能。

論文連結：

https：//arxiv。org/pdf/2011。12450。pdf

程式碼連結：

https：//github。com/PeizeSun/SparseR-CNN

單階段的人體網格估計模型

Body Meshes as Points

本文由位元組跳動與新加坡國立大學合作完成。

現有的人體網格估計算法大多是基於兩階段的，第一階段用於人物定位，第二階段用於身體網格估計，這種冗餘的計算框架導致了較高計算成本以及在複雜場景下效能不佳。

在這項工作中，研究團隊首次提出了單階段的人體網格估計模型（BMP），用來簡化計算框架並提升效率和效能。具體而言，本文將多個人物例項表示為2D平面和1D深度空間中的點，其中每個點與一個身體網格相關聯。BMP 可以同時定位人物例項點和估計相應的身體網格，從而達到在單個階段直接預測多個人物的身體網格。為了更好地推理同一場景中所有人物的深度排序，BMP 設計了一個簡單而有效的例項間序數深度損失以獲得深度連貫的多人身體網格估計。BMP 還引入了一種新穎的基於關鍵點的資料增強技術來增強模型對被遮擋和部分可見人物例項的魯棒性。

這項成果在Panoptic、MuPoTS-3D 和 3DPW 等資料集上取得了最先進效能。

論文連結：

https：//arxiv。org/pdf/2105。02467。pdf

程式碼連結：

https：//github。com/jfzhang95/BMP

學習影片去霧：一個真實世界資料集與一種新方法

Learning to Restore Hazy Video: A New Real-World Dataset and A New Method

本文由位元組跳動與騰訊優圖實驗室、西安交通大學、南京理工大學合作完成。

這篇論文基於可重複定位機械臂設計出一種全新的影片資料集採集系統，在有霧和無霧的情況下分別拍攝同一場景的圖片，來獲取完全真實的資料集（REal-world VIdeoDEhazing， REVIDE），可以用來使用監督學習方法訓練去霧模型。

該資料集比合成資料更逼真，能夠訓練出更優秀的去霧演算法。

論文連結：

https：//openaccess。thecvf。com/content/CVPR2021/papers/Zhang_Learning_To_Restore_Hazy_Video_A_New_Real-World_Dataset_and_CVPR_2021_paper。pdf

資料集：

http：//xinyizhang。tech/revide/

4項CVPR競賽冠軍

除了發表論文之外，在本屆CVPR的各項比賽環節，位元組跳動技術團隊同樣拿下了優異成績。

在CVPR Mobile AI Workshop實時移動端檢測場景競賽中，位元組跳動ByteScene團隊以163。08分的絕對優勢奪得冠軍。

該比賽要求在移動端硬體上對攝像頭輸入的影象實時地做出判斷，預測當前的場景是包含畫像、海灘、天空、貓、狗等30個類別中的哪一類，此類演算法能夠幫助影片創作者更方便的剪輯，更智慧的幫創作者匹配模版素材。

CVPR細粒度視覺分類挑戰賽中，位元組跳動兩支團隊包攬了冠亞軍。

該比賽要求識別高達10000種不同的動植物，相似的物種之間差別非常小，並且不能受到背景圖案的干擾。這類演算法可以用於各種物品識別場景。

而在半監督細粒度視覺分類挑戰賽中，位元組跳動團隊同樣拿下了第一名。

和上面的比賽不同的是，該比賽的重點是半監督學習，也就是無需提前給訓練集做大量標註，即可實現視覺分類模型的訓練。

Kinetics-700影片分類比賽監督學習賽道中，位元組跳動與CMU（卡耐基梅隆大學）合作的團隊拿下了第一名。

Kinetics-700是一個影片資料集，包含大約65萬個影片片段，展示了700種不同的人體動作，參賽者需要訓練模型來為不同的影片進行動作分類。

論文課題從哪兒來？業務出發&前瞻判斷

看到這麼多成果，那麼在位元組跳動真實的業務中，這些成果究竟是如何落地的？位元組跳動的研究員們，又是如何在真實的業務需求中，創造出這些領先成果的呢？

一位研發Leader介紹，在公司內，研發同學有足夠自由的決策權力，能夠自下而上的推動研究自己感興趣的技術，在支援業務的同時可以提煉自己的創新想法，自驅推動研究，成為學術成果。另外，公司提供了豐富的訓練資源來，不僅支援業務，也支援科研。

這些學術研究的成果，也被用在了真實的業務上。

比如說，計算機視覺技術被廣泛應用在解決內容安全、影片理解、影片版權等各種問題上。“而實際業務中線上資料分佈在持續變化，我們需要確保機器學習模型在適配線上資料分佈變化的同時，也能充分利用已經學到的海量的知識，這在學術界是一個持續學習（continual learning）的問題，它既是一個業務問題，也是學術界重要的課題。我們會在這些問題上做深入探索，不僅能解決學術問題和業務難題，也要考慮在具體業務落地中如何節省計算資源、降低模型運維成本。”

“再比如，在機器人視覺感知中，機器人物體檢測是一個非常重要的內容，如何提升精度、如何在保證精度的情況下提升計算效率，兩者都是重要的目標，這會迫使我們做很多嘗試和探索。”

此外，相關的計算機視覺研究成果也被用在了剪映、西瓜影片等各類產品中，幫助創作者更便捷的完成影片創作和編輯。

在解決這些業務問題的過程中，當研發團隊會做出新的突破，深入研究，甚至會做到世界領先水平，就可以做為科研成果來分享給學術界。

除了業務驅動的研發課題之外，位元組跳動研發團隊也會做技術前瞻的判斷，在業務尚未發展到有相關技術需求的時候，就做充足的技術研發和儲備，以應對未來的技術需求和挑戰。

關注

「位元組跳動技術範兒」

瞭解更多位元組跳動技術成果

100張圖訓練1小時，照片風格隨意變，文末有Demo｜SIGGRAPH 2021

亮相Google I/O，位元組跳動是這樣應用Flutter的

這群程式設計師中的「廣告狂人」，把抖音廣告做成了AR遊戲

點選「瞭解更多」，來位元組跳動做CV