0程式碼體驗效果，1行實現推理，10行搞定調優！101個CV模型開源

作者：謝宣松阿里達摩院開放視覺智慧負責人

編輯：好睏

【新智元導讀】11 月 3 日，在 2022 雲棲大會上，阿里達摩院聯手 CCF 開源發展委員會共同推出了 AI 模型社群「魔搭」ModelScope。本文，阿里達摩院開放視覺智慧負責人謝宣松，深入解析了魔搭社群裡首批開源的 101 個視覺 AI 模型。

計算機視覺是人工智慧的基石，也是應用最廣泛的 AI 技術，從日常手機解鎖使用的人臉識別，再到火熱的產業前沿自動駕駛，視覺 AI 都大顯身手。

作為一名視覺 AI 研究者，我認為視覺 AI 的潛能遠未得到充分發揮，窮盡我們這些研究者的力量，也只能覆蓋少數行業和場景，遠未能滿足全社會的需求。

因此，在 AI 模型社群魔搭 ModelScope 上，我們決定全面開源達摩院研發的視覺 AI 模型，首批達 101 個，其中多數為 SOTA 或經過實踐檢驗。我們希望讓更多開發者來使用視覺 AI，更期待 AI 能成為人類社會前進的動力之一。

魔搭社群地址：modelscope。cn

背景

AI 模型較為複雜，尤其是要應用於行業場景，往往需要重新訓練，這使得 AI 只掌握在少數演算法人員手中，難以走向大眾化。

而新推出的魔搭社群 ModelScope，踐行模型即服務的新理念（Model as a Service），提供眾多預訓練基礎模型，只需針對具體場景再稍作調優，就能快速投入使用。

達摩院率先向魔搭社群貢獻 300 多個經過驗證的優質 AI 模型，超過 1/3 為中文模型，全面開源開放，並且把模型變為直接可用的服務。

社群首批開源模型包括視覺、語音、自然語言處理、多模態等 AI 主要方向，並向 AI for Science 等新領域積極探索，覆蓋的主流任務超過 60 個。

模型均經過專家篩選和效果驗證，包括 150 多個 SOTA（業界領先）模型和 10 多個大模型，全面開源且開放使用。

概要：以人為中心的視覺 AI

這些年來，達摩院作為阿里巴巴的基礎科研機構和人才高地，在阿里海量業務場景中研發出一批優秀的視覺 AI 能力，分佈在各個環節：

這些視覺 AI 技術，幾乎覆蓋了從理解到生成等各方面。因視覺技術任務眾多，我們需要有一個相對合理的分類方法，可以從模態、物件、功能、場景等幾個維度來分：

魔搭社群首批開放了主要的視覺任務模型，這些模型即有學術創新的 SOTA 技術，也有久經考驗的實戰模型，從「功能 / 任務」的維度上，涵蓋了常見的感知、理解、生產等大類：

雖然視覺技術有點龐雜，但其實有個核心，那就是研究「物件」，「人」一直以來都是最重要的「物件」。「以人為中心」的視覺 AI 技術，也是研究最早最深、使用最普遍的技術。

我們以一個人的照片作為起點。

AI 首先需要理解這個照片 / 影象，如識別這個照片是誰，有什麼動作，能否摳出像等。

然後，我們還需要進一步探索：照片質量如何，能否畫質變得更好，其中的人能否變得更漂亮，甚至變成卡通人、數字人等。。。

如上的 7 個「人」相關的流程，基本涵蓋了視覺任務中的「理解」、「增強」、「編輯」等大類，我們以魔搭社群已開放的相關模型為例項，來分享以人為中心的視覺技術的特點、優點、示例以及應用。

感知理解類模型

1. 從照片摳出人像

模型名：BSHM 人像摳圖

體驗連結：https：//www。modelscope。cn/models/damo/cv_unet_image-matting/

從照片摳出人像，去掉背景，是一個非常普遍的需求，也是「PS」的基本操作之一，但傳統人工操作費時費力、且效果不佳。

魔搭提供的人像摳圖模型，是一個全自動、端到端的人像摳圖模型，能夠實現髮絲級別的精細分割。

技術上我們也進行了創新，不同於其他模型基於大量精細標註資料訓練的方法，我們的模型使用粗標註資料就能實現精細摳圖，對資料要求低、精度高。

具體來說，模型框架分為三部分：粗 mask 估計網路（MPN）、質量統一化網路（QUN）、以及精確 alpha matte 估計網路（MRN）。

我們首先將複雜問題拆解，先粗分割（MPN）再精細化分割（MRN）。

學術界有大量易獲取的粗分割資料，但是粗分割資料和精分割資料不一致導致預期 GAP 很大，故而我們又設計了質量統一化網路（QUN）。

MPN 的用途是估計粗語義資訊（粗 mask），使用粗標註資料和精標註資料一起訓練。

QUN 是質量統一化網路，用以規範粗 mask 質量，QUN 可以統一 MPN 輸出的粗 mask 質量。

MRN 網路輸入原圖和經過 QUN 規範化後的粗 mask，估計精確的 alpha matte，使用精確標註資料訓練。

當然，摳圖分割相關的需求非常多樣化，我們也上線了一系列模型，支援非人像摳圖以及影片摳圖等。

開發者可以直接拿來即用，如進行輔助設計師摳圖，一鍵摳圖，大幅提升設計效率，或者自由換背景，可實現會議虛擬背景、證件照、穿越等效果。這些也在阿里自有產品（如釘釘影片會議）及雲上客戶廣泛使用。

2. 檢測並識別是誰

模型名：MogFace 人臉檢測

體驗連結：https：//www。modelscope。cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/

人臉檢測和識別是一個 AI 經典任務，也是應用最廣泛的視覺技術之一；從另一方面看，其對效果和價效比要求非常苛刻。

我們自研的 MogFace 為當前 SOTA 的人臉檢測方法，已在 Wider Face 六項榜單上霸榜一年半以上，具體技術論文發表於 CVPR2022，主要貢獻是從 label assignment， scale-level data augmentation and reduce false alarms 三個角度改進人臉檢測器。

技術上的特點有：

Scale-level Data Augmentation （SSE）：SSE 是第一個從 maximize pyramid layer 表徵的角度來控制資料集中 gt 的尺度分佈，而不是 intuitive 的假想檢測器的學習能力，因此在不同場景下都很魯棒；

Adaptive Online Anchor Mining Strategy（Ali-AMS）：減少對超參的依賴，簡單且有效的 adpative label assign 方法；

Hierarchical Context-aware Module （HCAM）：減少誤檢是真實世界人臉檢測器面對的最大挑戰，HCAM 是最近幾年第一次在演算法側給出 solid solution。

人臉檢測作為人臉相關的基礎能力，可應用於人臉相簿 / 人臉編輯 / 人臉比對等場景。

由於人臉相關的模型使用非常廣泛，我們也有系列模型的迭代計劃，包括 MogFace 中所介紹的技術點除了 HCAM 均無需引入額外的計算量，後續準備打造 SOTA 的 family-based 人臉檢測模型；以及真實世界的人臉檢測器除了面對減少誤檢的問題，還面對如何增加人臉檢出率的問題，以及他們之間如何平衡的問題，我們正在進一步探索。

3. 人體關鍵點及動作識別

模型名字：HRNet 人體關鍵點 -2D

體驗連結：https：//www。modelscope。cn/models/damo/cv_hrnetv2w32_body-2d-keypoints_image/

該任務採用自頂向下的人體關鍵點檢測框架，透過端對端的快速推理可以得到影象中的 15 點人體關鍵點。

其中人體關鍵點模型基於 HRNet 改進的 backbone，充分利用多解析度的特徵較好地支援日常人體姿態，在 COCO 資料集的 AP 和 AR50 上取得更高精度。

同時我們也針對體育健身場景做了最佳化，尤其是在瑜伽、健身等場景下多遮擋、非常見、多臥姿等姿態上具有 SOTA 的檢測精度。

為了更好的適用於各種場景，我們持續進行最佳化：

針對通用場景的大模型在指標上達到 SOTA 效能；

針對移動端部署的小模型，記憶體佔用小，執行快、效能穩定，在千元機上達到 25～30FPS；

針對瑜伽、跳繩技術、仰臥起坐、俯臥撐、高抬腿等體育健身計數和打分場景下多遮擋、非常見、多臥姿姿態等情況做了深度最佳化，提升演算法精度和準確度。

本模型已經廣泛應用於 AI 體育健身、體育測試場景，如阿里體育樂動力，釘釘運動，健身鏡等，也可應用於 3D 關鍵點檢測和 3D 人體重建等場景。

4. 小結

上述三個「人」相關的模型，都屬於感知理解這個大類。先認識世界，再改造世界，感知理解類視覺技術是最基礎、也是應用最廣泛的模型大類，也可以分為識別、檢測和分割三小類：

識別 / 分類是視覺（包括影象、影片等）技術中最基礎也是最經典的任務，也是生物透過眼睛瞭解世界最基本的能力。簡單來說，判定一組影象資料中是否包含某個特定的物體，影象特徵或運動狀態，知道影象影片中描述的物件和內容是什麼。此外，還需要了解一些更細維度的資訊，或者非實體物件的一些描述標籤。

目標檢測的任務是找出視覺內容中感興趣的目標（物體），確定它們的位置和大小，也是機器視覺領域的核心問題之一。一般來說，也會同時對定位到的目標進行分類識別。

分割是視覺任務中又一個核心任務，相對於識別檢測，它又更進一步，解決「每一個畫素屬於哪個目標物或場景」的問題。是把影象分成若干個特定的、具有獨特性質的區域並提出感興趣目標的技術和過程。

魔搭社群上面開放了豐富的感知理解類模型，供 AI 開發者試用使用：

5. 彩蛋：DAMO-YOLO 首次放出

模型名字：DAMOYOLO- 高效能通用檢測模型 -S

體驗連結：https：//www。modelscope。cn/models/damo/cv_tinynas_object-detection_damoyolo/summary

通用目標檢測是計算機視覺的基本問題之一，具有非常廣泛的應用。

DAMO-YOLO 是阿里新推出來的目標檢測框架，兼顧模型速度與精度，其效果超越了目前的一眾 YOLO 系列方法，且推理速度更快。

DAMO-YOLO 還提供高效的訓練策略和便捷易用的部署工具，能幫助開發者快速解決工業落地中的實際問題。

DAMO-YOLO 引入 TinyNAS 技術，使得使用者可以根據硬體算力進行低成本的檢測模型定製，提高硬體利用效率並且獲得更高精度。

另外，DAMO-YOLO 還對檢測模型中的 neck、head 結構設計，以及訓練時的標籤分配、資料增廣等關鍵因素進行了最佳化。

由於做了一系列最佳化，DAMO-YOLO 在嚴格限制 Latency 的情況下精度取得了顯著的提升，成為 YOLO 框架中的新 SOTA。

底層視覺模型

1. 照片去噪去模糊

模型名字：NAFNet 影象去噪

體驗地址：https：//www。modelscope。cn/models/damo/cv_nafnet_image-denoise_sidd/

因拍攝環境、裝置、操作等原因，影象質量不佳的情況時而存在，怎麼對這些影象的噪聲去除、模糊還原？

該模型在影象恢復領域具有良好的泛化性，無論是影象去噪還是影象去模糊任務，都達到了目前的 SOTA。

由於技術創新，該模型使用了簡單的乘法操作替換了啟用函式，在不影響效能的情況下提升了處理速度。

該模型全名叫 NAFNet 去噪模型，即非線性無啟用網路（Nonlinear Activation Free Network），證明了常見的非線性啟用函式（Sigmoid、ReLU、GELU、Softmax 等）不是必須的，它們是可以被移除或者是被乘法演算法代替的。該模型是對 CNN 結構設計的重要創新。

本模型可以做為很多應用的前置步驟，如智慧手機影象去噪、影象去運動模糊等。

2. 照片修復及增強

模型名字：GPEN 人像增強模型

體驗地址：https：//www。modelscope。cn/models/damo/cv_gpen_image-portrait-enhancement/

除照片去噪以外，對照片的質量（包括分辨、細節紋理、色彩等）會有更高的處理要求，我們也開放了專門的人像增強模型，對輸入影象中的每一個檢測到的人像做修復和增強，並對影象中的非人像區域採用 RealESRNet 做兩倍的超解析度，最終返回修復後的完整影象。該模型能夠魯棒地處理絕大多數複雜的真實降質，修復嚴重損傷的人像。

從效果上看，GPEN 人像增強模型將預訓練好的 StyleGAN2 網路作為 decoder 嵌入到完整模型中，並透過 finetune 的方式最終實現修復功能，在多項指標上達到行業領先的效果。

從應用的視角，本模型可以修復家庭老照片或者明星的老照片，修復手機夜景拍攝的低質照片，修復老影片中的人像等。

後續我們將增加 1024、2048 等支援處理大分辨人臉的預訓練模型，並在模型效果上持續更新迭代。

3. 小結

底層視覺，關注的是畫質問題。只要是生物（含人），都會對因光影而產生的細節、形狀、顏色、流暢性等有感應，人對高畫質的追求更是天然的，但由於各種現實條件，畫質往往不理想，這時候視覺 AI 就能派上用場。

從任務分類上，可以分為：清晰度（解析度 / 細節、噪聲 / 劃痕、幀率）、色彩（亮度、色偏等）、修瑕（膚質最佳化、去水印字幕）等，如下表：

編輯生成類模型

1. 變得更漂亮

模型名字：ABPN 人像美膚

體驗連結：https：//www。modelscope。cn/models/damo/cv_unet_skin-retouching/

人們對照片人像的美觀度是一個剛性需求，包括斑點、顏色、瑕疵等，甚至高矮胖瘦。本次我們開放了專業級別的人像美膚、液化等模型供大家使用。

本模型提出了一個新穎的自適應混合模組 ABM，其利用自適應混合圖層實現了影象的區域性精準修飾。此外，我們在 ABM 的基礎上進一步構建了一個混合圖層金字塔，實現了超高畫質影象的快速修飾。

相比於現有的影象修飾方法，ABPN 在修飾精度、速度上均有較大提升。ABPN 人像美膚模型為 ABPN 模型在人像美膚任務中的具體應用。

如下示例：

更進一步，我們還可以在服飾上做一些有意思的嘗試，如去皺：

甚至瘦身美型：

體驗連結：https：//www。modelscope。cn/models/damo/cv_flow-based-body-reshaping_damo/summary

從效果上來說，有如下幾點特色：

區域性修飾。只對目標區域進行編輯，保持非目標區域不動。

精準修飾。充分考慮目標本身的紋理特徵和全域性上下文資訊，以實現精準修飾，去除瑕疵的同時保留面板本身的質感。

超高解析度的處理能力。模型的混合圖層金字塔設計，使其可以處理超高解析度影象（4K~6K）。

本模型有很強的實用性，比如可應用於專業修圖領域，如影樓、廣告等，提高生產力，也可以應用於直播互娛場景，提升人像面板質感。

2. 變成卡通人

模型名：DCT-Net 人像卡通化模型

體驗連結：https：//www。modelscope。cn/models/damo/cv_unet_person-image-cartoon_compound-models/

人像卡通化是一個具有很好互動性的玩法，同時又有多種風格可選。魔搭開放的人像卡通化模型基於全新的域校準影象翻譯網路 DCT-Net（Domain-Calibrated Translation）實現，採用了「先全域性特徵校準，再區域性紋理轉換」的核心思想，利用百張小樣本風格資料，即可訓練得到輕量穩定的風格轉換器，實現高保真、強魯棒、易拓展的高質量人像風格轉換效果。

如下示例：

從效果上來看：

DCT-Net 具備內容匹配的高保真能力，能有效保留原圖內容中的人物 ID、配飾、身體部件、背景等細節特徵；

DCT-Net 具備面向複雜場景的強魯棒能力，能輕鬆處理面部遮擋、稀有姿態等；

DCT-Net 在處理維度上和風格適配度上具有易拓展性，利用頭部資料即可拓展至全身像 / 全圖的精細化風格轉換，同時模型具有通用普適性，適配於日漫風、3D、手繪等多種風格轉換。

後續我們也會對卡通化進行系列化的開放，除影象轉換外，後續將包含影象、影片、3D 卡通化等系列效果，先放一些效果大家看看：

3. 小結

這類模型對影象內容進行修改，包括對源圖內容進行編輯加工（增加內容、刪除內容、改換內容等），或者直接生成一個新的視覺內容，轉換一個風格，得到一張新的影象（基於源影象且與源圖不同），都屬於編輯生成這個大類，可以理解成，從 A 圖得到 B 圖的過程。

行業場景類模型

如最開始所說，視覺 AI 技術的價值體現，在廣泛的各類場景中都存在，除了上述「人」相關的視覺 AI 技術，我們也開放了來自網際網路、工業、互娛、傳媒、安全、醫療等多個實戰型的模型，這些模型可以拿來即用，也可以基於finetune訓練或自學習工具進一步加工完善，用於開發者、客戶特定的場景，這裡舉一個例子：

模型名：煙火檢測（正在整合中）

模型功能：可做室外、室內的火焰檢測以及煙霧檢測，森林、城市道路、園區，臥室、辦公區域、廚房、吸菸場所等，演算法打磨近 2 年，並在多個客戶場景實際應用，整體效果相對穩定。

從技術視角來說，本模型提出 Correlation block 提升多幀檢測精度，其設計資料增強方法提高識別靈敏度同時有效控制誤報。

從應用上來說，模型可應用於室內、室外多種場景，只需要手機拍攝、監控攝像頭等簡單裝置就可以實現模型功能。

結語：視覺 AI 的開放未來

透過上述分析，我們可以發現，視覺 AI 的應用潛能極為廣泛，社會需求極為多樣，但現實情況卻是：視覺 AI 的供給能力非常有限。

達摩院在魔搭 ModelScope 之前，就率先開放了 API 形態的視覺 AI 服務，透過公共雲平臺對 AI 開發者提供一站式視覺線上服務平臺，即視覺智慧開放平臺（vision。aliyun。com），其中開放了超 200 個 API，涵蓋了基礎視覺、行業視覺等方面，也包括上面所說的「以人為中心」的視覺技術。