「12月1日」五篇（將）開源論文程式碼分享

作者 | CV君

編輯 | CV君

報道 | 我愛計算機視覺（微信id：aicvml）

HyperStyle： StyleGAN Inversion with HyperNetworks for Real Image Editing

以色列特拉維夫大學

文章介紹了 HyperStyle，是一種用於 StyleGAN 逆對映的新方法。利用超網路的最新進展，以類似於編碼器的推理時間實現最佳化級別的重建。在某種意義上，HyperStyle 學會了有效地最佳化給定目標影象的生成器。可以減輕重建-可編輯性的權衡，使現有的編輯技術能夠有效地用於廣泛的輸入。

透過細緻的網路設計，將其減少到與現有編碼器一致。HyperStyle 產生的重建結果可與最佳化技術相媲美，並具有編碼器的近乎實時的推理能力。最後，實驗證明了HyperStyle 在逆對映任務之外的幾個應用中的有效性，包括在訓練中從未見過的域外影象的編輯。

已開源

：https：//github。com/yuval-alaluf/hyperstyle

論文：https：//arxiv。org/abs/2111。15666

Low-light Image Enhancement via Breaking Down the Darkness

天津大學

作者稱本次工作是一次開創性的嘗試，將噪聲和色彩失真的糾纏解開，進一步緩解了低光照增強與複雜降質的困難。具體來說，作者提出一種在光照指導下的有效的噪聲合成策略，大大改善了亮度中放大的和空間相關的噪聲的抑制質量。而為了解決光增強影象中的色彩失真問題，作者設計一個新的色彩適應網路，它可以根據給定的亮度適當處理色度。並透過廣泛的比較和消融研究，驗證了所提出方法的有效性，並揭示了它在質量和數量上比其他最先進的方法的進步。

已開源

：https：//github。com/mingcv/Bread

論文：https：//arxiv。org/abs/2111。15557

Spatio-Temporal Multi-Flow Network for Video Frame Interpolation

布里斯托大學

影片幀插值（VFI）目前是一個非常活躍的研究課題，其應用涵蓋了計算機視覺、後期製作和影片編碼。影片插值是非常具有挑戰性的，特別是在包含大運動、遮擋或動態紋理的序列中，現有的方法無法提供感知上的魯棒插值效能。

在此情況下，作者提出一種新型的基於深度學習的 VFI 方法，即 ST-MFNet，它基於時空多流架構。ST-MFNet 採用一個新的多尺度多流預測器來估計多對一的中間流，與傳統的一對一的光流相結合，以捕捉大型和複雜的運動。為了提高各種紋理的插值效能，採用一個三維CNN來模擬擴充套件時間視窗的內容動態。

此外，ST-MFNet在ST-GAN框架內被訓練，該框架最初是為紋理合成開發的，目的是進一步提高感知插值質量。透過實驗所提出方法得到了全面的評估，與14種最先進的VFI演算法相比較，ST-MFNet在各種有代表性的測試資料集上始終優於這些基準，在包括大型運動和動態紋理的情況下，PSNR顯著提高了1。09dB。

將開源：https：//github。com/danielism97/ST-MFNet

論文：https：//arxiv。org/abs/2111。15483

DAFormer： Improving Network Architectures and Training Strategies for Domain-Adaptive Semantic Segmentation

蘇黎世聯邦理工學院

DAFormer，是一個為 UDA 量身定做的網路架構，基於 Transformer 編碼器和一個上下文感知的融合解碼器。此外，為UDA引入了三種訓練策略，以穩定和規範化訓練，進一步增強DAFormer的能力。總的來說，DAFormer在GTA→Cityscapes和Synthia→Cityscapes上分別以10。8 mIoU和5。4 mIoU的較大幅度提高了最先進的效能。

已開源

：https：//github。com/lhoyer/DAFormer

論文：https：//arxiv。org/abs/2111。14887