「12月6日」十篇（將）開源論文程式碼分享

作者 | CV君

編輯 | CV君

報道 | 我愛計算機視覺（微信id：aicvml）

Multi-Content Complementation Network for Salient Object Detection in Optical Remote Sensing Images

南洋理工大學&石溪大學

在計算機視覺領域，自然場景影象中的顯著目標檢測（NSI-SOD）已經取得了很大的進展；相比之下，光學遙感影象中的顯著目標檢測（RSI-SOD）仍然是一個具有挑戰性的新興課題。光學遙感影象的獨特特徵，如尺度、照度和成像方向，給NSI-SOD和RSI-SOD帶來了重大差異。

文章提出一個新的Multi-Content Complementation Network （MCCNet），用來探索 RSI-SOD 的多內容互補性。具體來說，MCCNet 基於一般的編碼器-解碼器架構，幷包含一個多內容互補模組（MCCM）的新型關鍵元件，它連線了編碼器和解碼器。在MCCM中，考慮了對RSI-SOD至關重要的多種型別的特徵，包括前景特徵、邊緣特徵、背景特徵和全域性影象級特徵，並利用它們之間的內容互補性，透過注意力機制突出RSI特徵中不同尺度的顯著區域。此外，還在訓練階段全面引入了畫素級、地圖級和度量感知的損失。

在兩個流行的資料集上進行的大量實驗表明，所提出的 MCCNet 優於23種最先進的方法，包括NSI-SOD和RSI-SOD方法。

已開源

：https：//github。com/MathLee/MCCNet

論文：https：//arxiv。org/abs/2112。01932

SGM3D： Stereo Guided Monocular 3D Object Detection

復旦大學&百度

問題：由於缺乏 LiDAR 感測器捕獲的準確深度資訊，單目3D目標檢測對於自主駕駛來說是一項關鍵但具有挑戰性的任務。

方案：文中提出一個 Stereo 引導的單目3D目標檢測網路，SGM3D，它利用從立體影象中提取的強大的三維特徵來增強從單目影象中學習的特徵。並創新性的研究了一個多粒度域適應模組（MG-DA）以及基於IoU匹配的對齊模組（IoU-MA），該模組可以強制單目網路在不同層次上模仿立體特徵和檢測行為。

結果：SGM3D 在最具挑戰性的KITTI和Lyft資料集上實現了新的SoTA效能。除了stereo 模式，還證明LiDAR也可以被採用來指導單目網路學習。

作者還表示在未來，希望為 LiDAR 引導的單目3D目檢測找到更好的特徵表示，這可能會取得更高的效能。

將開源：https：//github。com/zhouzheyuan/sgm3d

論文：https：//arxiv。org/abs/2112。01914

Efficient Two-Stage Detection of Human-Object Interactions with a Novel Unary-Pairwise Transformer

澳大利亞國立大學&牛津大學&Australian Centre for Robotic Vision

本文所提出的 Unary-Pairwise Transformer，是一個兩階段的檢測器，利用單數和對數表示HOIs。該 transformer 網路的單數和成對部分具有特殊性，前者優先增加positive 例子的得分，後者減少 negative 例子的得分。在HICO-DET和V-COCO資料集上對所提出方法進行了評估，結果明顯優於最先進的方法。在推理時間，該模型與ResNet50在單個GPU上接近實時效能。

已開源

：https：//github。com/fredzzhang/upt

論文：https：//arxiv。org/abs/2112。01838

Unsupervised Low-Light Image Enhancement via Histogram Equalization Prior

華中科技大學

挑戰：基於深度學習的低光照影象增強方法通常需要巨大的配對訓練資料，這在現實世界的場景中是不現實的。近期研究人員探索了無監督的方法來消除對配對訓練資料的依賴。但由於缺乏先驗因素，在不同的現實世界場景中表現不穩定。

方案：提出 histogram equalization prior（HEP），一種基於有效先驗的無監督低照度影象增強方法。靈感來自於一個有趣的觀察，即直方圖均衡化增強影象的特徵圖和 ground truth 是相似的。具體來說，制定 HEP 來提供豐富的紋理和亮度資訊。嵌入到亮光模組（LUM）中，它有助於將低光影象分解為照明和反射圖，而反射圖可被視為修復的影象。然而，基於Retinex理論的推導發現，反射圖受到了噪聲的汙染。然後引入一個噪聲分離模組（NDM），在未配對的乾淨影象的可靠幫助下分離反射圖中的噪聲和內容。在直方圖均衡先驗和噪聲分離的指導下，該方法可以恢復更精細的細節，並且更有能力在現實世界的低光環境中抑制噪聲。

結果：廣泛實驗表明，所提出方法與最先進的無監督低光增強演算法相比表現良好，甚至與最先進的有監督演算法相匹配。

將開源：https：//github。com/fengzhang427/HEP

論文：https：//arxiv。org/abs/2112。01766

FuseDream： Training-Free Text-to-Image Generation with Improved CLIP+GAN Space Optimization

得克薩斯大學奧斯汀分校&加利福尼亞大學聖迭戈分校

文章所提出的 FuseDream，它能用 CLIP 引導的 GAN 實現高質量、最先進的文字到影象的生成。與傳統的基於訓練的方法相比，該方法是免訓練的、零樣本的、容易定製的，因此容易被計算資源有限或有特殊要求的使用者所接受。AugCLIP 得分、過度引數化最佳化和組成生成的新技術具有獨立的意義，在其他隱空間最佳化問題中也很有用。

已開源：

https：//github。com/gnobitab/FuseDream

論文：https：//arxiv。org/abs/2112。01573

Multi-modal application： Image Memes Generation

南加州大學

生成 memes 是一項具有挑戰性的任務，需要進行復雜的影象-文字推理。在本次專案中，成功地展示瞭如何使用神經模型來生成 memes，並提出 Meme Generator，一個端到端的架構，可以為一個給定的句子自動生成一個 meme。Meme Generator 有兩個組成部分，一個是選擇 meme 模板影象的模型，一個是生成 meme 字幕的編碼解碼器模型。這兩個模型都經過了微調，達到了目前的最佳效能。

已開源

：https：//github。com/zliu5480/CSCI544Project

論文：https：//arxiv。org/abs/2112。01651

TransZero： Attribute-guided Transformer for Zero-Shot Learning

華中科技大學&阿里&MBZUAI&國科大

零樣本學習（ZSL）旨在透過將語義知識從已見的類遷移到未見的類中來識別新的類。語義知識是從不同類別之間共享的屬性描述中學習的，這些屬性描述作為定位物體屬性的強大先驗，代表了區別性的區域特徵，實現了顯著的視覺-語義互動。儘管一些基於注意力的模型試圖在單一影象中學習這種區域特徵，但視覺特徵的可遷移性和判別性屬性定位通常被忽視。

在本文中，作者提出一個屬性引導的 Transformer 網路，TransZero，以完善視覺特徵，並學習 ZSL 中判別性的視覺嵌入表徵的屬性定位。具體來說，TransZero 採取了一個特徵增強編碼器來緩解 ImageNet 和 ZSL 基準之間的跨資料集偏差，並透過減少區域特徵之間糾纏的相對幾何關係來提高視覺特徵的可遷移性。為了學習定位增強的視覺特徵，TransZero採用了一個視覺-語義解碼器，在語義屬性資訊的指導下，定位與給定影象中每個屬性最相關的影象區域。然後，定位增強的視覺特徵和語義向量被用來在視覺-語義嵌入網路中進行有效的視覺-語義互動。

大量實驗表明，TransZero在三個ZSL基準上達到了新的SOTA。

已開源

：https：//github。com/shiming-chen/TransZero

論文：https：//arxiv。org/abs/2112。01683

Deep Depth from Focus with Differential Focus Volume

賓夕法尼亞州立大學

Depth-from-focus（DFF）是一種利用相機的焦點變化來推斷深度的技術。在本項工作中，作者提出一個卷積神經網路（CNN）來尋找焦點堆疊中的最佳焦點畫素，並從焦點估計中推斷出深度。該網路的關鍵創新點是新的deep differential focus volume（DFV）。透過計算不同焦距的堆疊特徵的一階導數，DFV能夠捕捉焦點和背景資訊，用於焦點分析。此外，還引入一個機率迴歸機制來處理稀疏取樣的焦點堆疊，併為最終預測提供不確定性估計。

綜合實驗表明，所提出的模型在多個數據集上實現了最先進的效能，具有良好的通用性和快速的速度。

將開源：https：//github。com/fuy34/DFV

論文：https：//arxiv。org/abs/2112。01712

MFNet： Multi-filter Directive Network for Weakly Supervised Salient Object Detection

大連理工大學&鵬城實驗室

弱監督顯著目標檢測（WSOD）的目標是隻使用低成本的標註來訓練基於 CNN 的顯著性網路。現有的 WSOD 方法採用各種技術從低成本標註中追求單一的 “高質量 ”偽標籤，然後開發他們的顯著性網路。儘管這些方法取得了良好的效能，但生成的單一標籤不可避免地受到所採用的細化演算法的影響，並顯示出偏見的特徵，從而進一步影響了顯著性網路。

本次工作中，介紹一個新的多偽標籤框架，以整合來自多個標籤的更全面和準確的顯著性線索，避免了上述問題。具體來說，提出一個

multi-filter directive network（MFNet），包括一個顯著性網路以及多個指令性過濾器。指導性過濾器（DF）被設計用來從嘈雜的偽標籤中提取和過濾更準確的顯著性線索。然後，來自多個DF的多個準確線索同時傳播到具有多指導性損失的顯著性網路。

在四個指標的五個資料集上進行的廣泛實驗表明，所提出方法優於所有現有的同源方法。此外，值得注意的是，該框架足夠靈活，可以應用於現有的方法並提高其效能。

已開源：

https：//github。com/OIPLab-DUT/MFNet

論文：https：//arxiv。org/abs/2112。01732

Geometric Feature Learning for 3D Meshes

西澳大學&中佛羅里達大學

文中提出一系列的模組化操作，用於在異質三維網格上進行有效的幾何深度學習。這些操作包括網格卷積、（非）池化和高效的網格抽取。並提供了這些操作的開源實現，Picasso。

Picasso 的網格抽取模組是由 GPU 加速的，可以即時處理一批網格用於深度學習。（非）池化操作為不同解析度的網路層中新建立的神經元計算特徵。網格卷積包括facet2vertex、vertex2facet和facet2facet卷積，利用vMF混合和Barycentric插值來納入模糊建模。利用Picasso的模組化操作，貢獻了一個新的分層神經網路 PicassoNet-II，以從三維網格中學習高分辨力的特徵。

PicassoNet-II接受原始幾何圖形和網格面的精細紋理作為輸入特徵，同時處理完整的場景網格。該網路在各種基準上的形狀分析和場景解析方面取得了極具競爭力的效能。

將開源：https：//github。com/EnyaHermite/Picasso

論文：https：//arxiv。org/abs/2112。01801