「11月30日」十一篇（將）開源論文程式碼分享

作者 | CV君

編輯 | CV君

報道 | 我愛計算機視覺（微信id：aicvml）

Vector Quantized Diffusion Model for Text-to-Image Synthesis

中國科學技術大學&微軟

文章提出 vector quantized diffusion（VQ-Diffusion）模型，用於文字到影象生成。它是基於一個向量量化變異自動編碼器（VQ-VAE），其隱藏空間由近期開發的去噪擴散機率模型（DDPM）的條件變體建模。

隱藏空間方法非常適合於文字到影象的生成任務，因為它不僅消除了現有方法的單向偏差，而且允許加入 mask-and-replace diffusion 策略，以避免錯誤的積累，這也是現有方法的一個嚴重問題。

實驗表明，與引數數量相似的傳統自迴歸（AR）模型相比，VQ-Diffusion 產生的文字-影象生成結果明顯更好。與以前的基於 GAN 的文字到影象的方法相比，VQ-Diffusion可以處理更復雜的場景，並以很大的幅度提高合成的影象質量。

另外還證明，所提出方法中的影象生成計算可以透過重新引數化而變得非常有效。在傳統的AR方法中，文字到影象的生成時間隨著輸出影象解析度的增加而線性增加，因此即使是正常尺寸的影象也是相當耗時的。VQ-Diffusion 能夠在質量和速度之間實現更好的權衡。並透過實驗表明，具有重新引數化的 VQ-Diffusion 模型比傳統的AR方法快15倍，同時可以獲得更好的影象質量。

將開源：https：//github。com/microsoft/VQ-Diffusion

論文：https：//arxiv。org/abs/2111。14822

End-to-End Referring Video Object Segmentation with Multimodal Transformers

以色列理工學院

文章提出 MTTR，一種簡單的基於 Transformer 的 RVOS 方法，它將任務建模為一個序列預測問題。MTTR 是端到端可訓練的，沒有與文字相關的感應偏差成分，並且不需要額外的掩碼細化後處理步驟。是透過在一個單一的多模態 Transformer 中同時處理文字和影片幀，因此大大簡化了現有的RVOS管線。

在標準基準上對所提出方法進行的廣泛評估顯示，它在很大程度上超過了現有的最先進的方法（例如，在A2D-句子上有5。7 mAP的改進）。

希望本次工作可以激勵其他人看到 Transformer 在解決複雜的多模態任務方面的潛力。

將開源：https：//github。com/mttr2021/MTTR

論文：https：//arxiv。org/abs/2111。14821

Latent Transformations via NeuralODEs for GAN-based Image Editing

Yandex&Skoltech&俄羅斯國家研究型高等經濟大學

文中討論了一種透過非線性移動進行影象操作的新方法，其引數由神經 ODE 模型確定。在多個數據集上，證明了該方法比標準的線性移位有優勢。

已開源

：https：//github。com/KhrulkovV/nonlinear-image-editing

論文：https：//arxiv。org/abs/2111。14825

Semi-supervised Implicit Scene Completion from Sparse LiDAR

清華&香港科技大學&北大

透過近期的進展表明，透過 Eikonal 方程等物理約束，可以實現半監督的隱式表示學習。然而，由於 LiDAR 點雲資料在空間上的稀疏程度不同，這一方案尚未成功用於LiDAR。

本次研究中，開發了一種新的表述，將半監督隱含函式的條件放在區域性的形狀嵌入上。它利用稀疏卷積網路強大的表徵學習能力來生成形狀感知的密集特徵體，同時仍然允許半監督的有符號距離函式學習而不知道其在自由空間的確切值。

透過大量的定量和定性結果，證明了這個新的學習系統的內在屬性及其在真實世界道路場景中的實用性。值得注意的是，將SemanticKITTI的IoU從26。3%提高到51。0%。此外，還探索了兩種正規化來整合語義標籤預測，實現隱性語義的完成。

已開源

：https：//github。com/OPEN-AIR-SUN/SISC

論文：https：//arxiv。org/abs/2111。14798

TransWeather： Transformer-based Restoration of Images Degraded by Adverse Weather Conditions

約翰斯·霍普金斯大學

文章提出 TransWeather，一種基於Transformer的高效解決方案，用於解決所有不利天氣的移除問題。專注於建立一個單一的模型例項，它可以消除影象中存在的任何天氣降質現象。建立一個單一的編碼器-解碼器網路進行修復，同時在解碼器中使用可學習的天氣型別查詢來學習天氣降質型別，並將該資訊用於天氣去除過程。提出一種新型的Transformer編碼器架構，工作在sub-patches上，從而幫助Transformer更有效地去除小的天氣降質現象。

在多個合成和真實世界的資料集上進行了廣泛的實驗，在這些資料集上，使用單一的模型例項將目前最先進的技術推到了一個相當大的高度，同時也獲得了更快的推理速度。以及在對真實世界的惡劣天氣影象進行測試時，獲得了更好的視覺結果。

已開源：

https：//github。com/jeya-maria-jose/TransWeather

論文：https：//arxiv。org/abs/2111。14813

Blended Diffusion for Text-driven Editing of Natural Images

希伯來大學&Reichman University

文章介紹了首個在一般自然影象中進行區域性（基於區域）編輯的解決方案，視基於自然語言描述和 ROI 掩碼。透過利用和結合預訓練的語言-影象模型（CLIP）來實現該目標，引導編輯走向使用者提供的文字提示，並透過去噪擴散機率模型（DDPM）來產生自然的結果。

為了將編輯過的區域與影象中未改變的部分無縫融合，作者在空間上將輸入影象的噪聲版本與區域性文字引導的擴散隱藏期在不同的噪聲水平上進行融合。此外表明，在擴散過程中新增增強劑可以減輕對抗性結果。

透過與幾個基線和相關的方法進行了定性和定量的比較，結果表明所提出方法在整體真實性、保留背景的能力和匹配文字方面都優於這些解決方案。最後，展示了幾個文字驅動的編輯應用，包括在影象中新增新的物件，刪除/替換/改變現有物件，背景替換和 image extrapolation（影象外推）。

將開源：https：//github。com/omriav/blended-diffusion

論文：https：//arxiv。org/abs/2111。14818

Background replacement（背景替換）

Self-Supervised Pre-Training of Swin Transformers for 3D Medical Image Analysis

範德堡大學&英偉達

Vision Transformers（ViT）在全域性和區域性表徵的自監督學習中表現出了巨大的效能，可以遷移到下游應用中。受這些結果的啟發，作者引入一個新的自監督學習框架，為醫學影象分析量身定做了代理任務。

具體來說，提出：

（i）一個新的基於三維 Transformer 的模型，Swin UNEt TRansformers（Swin UNETR），帶有一個用於自監督的預訓練的分層編碼器；

（ii）用於學習人體解剖學基本模式的定製代理任務。

在5，050張來自不同身體器官的公開的 CT 影象上成功地預訓練了所提出的模型。並透過在Beyond the Cranial Vault （BTCV） Segmentation Challenge上對預訓練的模型進行微調證明了該方法的有效性，該模型有13個腹部器官和來自Medical Segmentation Decathlon （MSD）資料集的分割任務。此外，該模型目前在MSD和BTCV資料集的公共測試排行榜上都是最先進的（即排名第一）。

將開源：https：//github。com/Project-MONAI/research-contributions/tree/master/SwinUNETR

論文：https：//arxiv。org/abs/2111。14791

A Simple Long-Tailed Recognition Baseline via Vision-Language Model

上海人工智慧實驗室&商湯&PRIOR&港中文

文章提出BALLAD，透過利用對比性的視覺-語言模型來解決長尾識別問題。將BALLAD 解耦為兩個階段，分別用長尾樣本和平衡樣本進行訓練。首先繼續用對比性損失進行預訓練，以充分利用豐富的資料來更新特定領域的視覺語言表徵。之後，採用一個輔助的線性介面卡來完善尾巴類的視覺表示。並表示希望 BALLAD 基線能夠激發未來更多關於探索長尾識別的視覺語言模型的研究。

已開源：

https：//github。com/gaopengcuhk/BALLAD

論文：https：//arxiv。org/abs/2111。14745

Domain Adaptation of Networks for Camera Pose Estimation： Learning Camera Pose Estimation Without Pose Labels

諾基亞貝爾實驗室&紐約大學

本文主要專注於透過場景座標迴歸（SCR）進行單目相機姿態估計的任務，描述一種新的方法，即用於相機姿態估計的網路域適應（DANCE），該方法可以在沒有獲得目標任務的任何標籤的情況下訓練模型。

DANCE需要無標籤的影象（沒有已知的姿勢、順序或場景座標標籤）和空間的三維表示（例如，掃描的點雲），這兩者都可以使用現成的商品硬體以最小的努力獲得。DANCE根據三維模型渲染有標籤的合成影象，並透過應用無監督的影象級域適應技術（無配對的影象-影象翻譯），彌合合成影象和真實影象之間不可避免的域差距。

在真實影象上測試時，用DANCE訓練的SCR模型取得了與其完全監督的對應模型相當的效能（在這兩種情況下都使用PnP-RANSAC進行最終姿態估計），而成本卻很低。

將開源：https：//github。com/JackLangerman/dance

論文：https：//arxiv。org/abs/2111。14741

Searching the Search Space of Vision Transformer

石溪大學&中山大學&中科院&微軟亞洲研究院

文章提出搜尋Vision Transformer的搜尋空間。其中心思想是在使用分權超網計算的E-T 誤差的指導下逐漸發展不同的搜尋維度。還提供了對Vision Transforme的分析，有助於理解和設計 Transformer的結構。

搜尋模型S3在對齊的設定下取得了比最近流行的ViT和Swin Transforme模型系列更優越的效能。並進一步展示了它們在下游任務上的魯棒性和通用性。以及表示在進一步的工作中，希望研究S3在CNN搜尋空間設計中的應用。

已開源

：https：//github。com/microsoft/Cream

論文：https：//arxiv。org/abs/2111。14725

Point-BERT： Pre-training 3D Point Cloud Transformers with Masked Point Modeling

清華&北大&北京智源人工智慧研究院

Point-BERT，一種學習 Transformers 的新正規化，將 BERT 的概念推廣到三維點雲。受 BERT 啟發，作者設計一個 Masked Point Modeling（MPM）任務來預訓練點雲 Transformer。透過BERT式的預訓練來學習點雲的低層次結構資訊和高層次語義特徵。

具體來說，首先將一個點雲劃分為幾個區域性 point patches，並設計一個帶有離散變異自動編碼器（dVAE）的點標記器，以生成包含有意義的區域性資訊的離散point tokens。然後，隨機遮蔽掉一些輸入點雲的patches ，並將其送入骨幹Transformers。預訓練的目的是在標記器得到的點標記的監督下，恢復被遮蔽位置的原始點標記。

實驗表明，所提出的 BERT 式預訓練策略極大地提高了標準點雲 Transformer 的效能。

配備預訓練策略，一個純 Transformer 架構在 ModelNet40 上達到了93。8%的準確率，在ScanObjectNN的最難設定上達到了83。1%的準確率，超過了精心設計的點雲模型，而手工設計的數量則少得多。還證明，透過Point-BERT學到的表徵可以很好地遷移到新的任務和領域，並在很大程度上推動了小樣本點雲分類任務的最先進水平。

已開源

：https：//github。com/lulutang0608/Point-BERT

論文：https：//arxiv。org/abs/2111。14819

別眨眼網

「11月30日」十一篇（將）開源論文程式碼分享

相關推薦