作者：謝宣松阿里達(dá)摩院開(kāi)放視覺(jué)智能負(fù)責(zé)人

編輯：好困

【新智元導(dǎo)讀】11 月 3 日，在 2022 云棲大會(huì)上，阿里達(dá)摩院聯(lián)手 CCF 開(kāi)源發(fā)展委員會(huì)共同推出了 AI 模型社區(qū)「魔搭」ModelScope。本文，阿里達(dá)摩院開(kāi)放視覺(jué)智能負(fù)責(zé)人謝宣松，深入解析了魔搭社區(qū)里首批開(kāi)源的 101 個(gè)視覺(jué) AI 模型。

計(jì)算機(jī)視覺(jué)是人工智能的基石，也是應(yīng)用最廣泛的 AI 技術(shù)，從日常手機(jī)解鎖使用的人臉識(shí)別，再到火熱的產(chǎn)業(yè)前沿自動(dòng)駕駛，視覺(jué) AI 都大顯身手。

作為一名視覺(jué) AI 研究者，我認(rèn)為視覺(jué) AI 的潛能遠(yuǎn)未得到充分發(fā)揮，窮盡我們這些研究者的力量，也只能覆蓋少數(shù)行業(yè)和場(chǎng)景，遠(yuǎn)未能滿(mǎn)足全社會(huì)的需求。

因此，在 AI 模型社區(qū)魔搭 ModelScope 上，我們決定全面開(kāi)源達(dá)摩院研發(fā)的視覺(jué) AI 模型，首批達(dá) 101 個(gè)，其中多數(shù)為 SOTA 或經(jīng)過(guò)實(shí)踐檢驗(yàn)。我們希望讓更多開(kāi)發(fā)者來(lái)使用視覺(jué) AI，更期待 AI 能成為人類(lèi)社會(huì)前進(jìn)的動(dòng)力之一。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

魔搭社區(qū)地址：modelscope.cn

背景

AI 模型較為復(fù)雜，尤其是要應(yīng)用于行業(yè)場(chǎng)景，往往需要重新訓(xùn)練，這使得 AI 只掌握在少數(shù)算法人員手中，難以走向大眾化。

而新推出的魔搭社區(qū) ModelScope，踐行模型即服務(wù)的新理念（Model as a Service），提供眾多預(yù)訓(xùn)練基礎(chǔ)模型，只需針對(duì)具體場(chǎng)景再稍作調(diào)優(yōu)，就能快速投入使用。

達(dá)摩院率先向魔搭社區(qū)貢獻(xiàn) 300 多個(gè)經(jīng)過(guò)驗(yàn)證的優(yōu)質(zhì) AI 模型，超過(guò) 1/3 為中文模型，全面開(kāi)源開(kāi)放，并且把模型變?yōu)橹苯涌捎玫姆?wù)。

社區(qū)首批開(kāi)源模型包括視覺(jué)、語(yǔ)音、自然語(yǔ)言處理、多模態(tài)等 AI 主要方向，并向 AI for Science 等新領(lǐng)域積極探索，覆蓋的主流任務(wù)超過(guò) 60 個(gè)。

模型均經(jīng)過(guò)專(zhuān)家篩選和效果驗(yàn)證，包括 150 多個(gè) SOTA（業(yè)界領(lǐng)先）模型和 10 多個(gè)大模型，全面開(kāi)源且開(kāi)放使用。

概要：以人為中心的視覺(jué) AI

這些年來(lái)，達(dá)摩院作為阿里巴巴的基礎(chǔ)科研機(jī)構(gòu)和人才高地，在阿里海量業(yè)務(wù)場(chǎng)景中研發(fā)出一批優(yōu)秀的視覺(jué) AI 能力，分布在各個(gè)環(huán)節(jié)：

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

這些視覺(jué) AI 技術(shù)，幾乎覆蓋了從理解到生成等各方面。因視覺(jué)技術(shù)任務(wù)眾多，我們需要有一個(gè)相對(duì)合理的分類(lèi)方法，可以從模態(tài)、對(duì)象、功能、場(chǎng)景等幾個(gè)維度來(lái)分：

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

魔搭社區(qū)首批開(kāi)放了主要的視覺(jué)任務(wù)模型，這些模型即有學(xué)術(shù)創(chuàng)新的 SOTA 技術(shù)，也有久經(jīng)考驗(yàn)的實(shí)戰(zhàn)模型，從「功能 / 任務(wù)」的維度上，涵蓋了常見(jiàn)的感知、理解、生產(chǎn)等大類(lèi)：

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

雖然視覺(jué)技術(shù)有點(diǎn)龐雜，但其實(shí)有個(gè)核心，那就是研究「對(duì)象」，「人」一直以來(lái)都是最重要的「對(duì)象」?！敢匀藶橹行摹沟囊曈X(jué) AI 技術(shù)，也是研究最早最深、使用最普遍的技術(shù)。

我們以一個(gè)人的照片作為起點(diǎn)。

AI 首先需要理解這個(gè)照片 / 圖像，如識(shí)別這個(gè)照片是誰(shuí)，有什么動(dòng)作，能否摳出像等。

然后，我們還需要進(jìn)一步探索：照片質(zhì)量如何，能否畫(huà)質(zhì)變得更好，其中的人能否變得更漂亮，甚至變成卡通人、數(shù)字人等…

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

如上的 7 個(gè)「人」相關(guān)的流程，基本涵蓋了視覺(jué)任務(wù)中的「理解」、「增強(qiáng)」、「編輯」等大類(lèi)，我們以魔搭社區(qū)已開(kāi)放的相關(guān)模型為實(shí)例，來(lái)分享以人為中心的視覺(jué)技術(shù)的特點(diǎn)、優(yōu)點(diǎn)、示例以及應(yīng)用。

感知理解類(lèi)模型

1. 從照片摳出人像

模型名：BSHM 人像摳圖

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

體驗(yàn)鏈接：https://www.modelscope.cn/models/damo/cv_unet_image-matting/

從照片摳出人像，去掉背景，是一個(gè)非常普遍的需求，也是「PS」的基本操作之一，但傳統(tǒng)人工操作費(fèi)時(shí)費(fèi)力、且效果不佳。

魔搭提供的人像摳圖模型，是一個(gè) 全自動(dòng)、端到端的人像摳圖模型，能夠?qū)崿F(xiàn)發(fā)絲級(jí)別的精細(xì)分割。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

技術(shù)上我們也進(jìn)行了創(chuàng)新，不同于其他模型基于大量精細(xì)標(biāo)注數(shù)據(jù)訓(xùn)練的方法，我們的模型使用粗標(biāo)注數(shù)據(jù)就能實(shí)現(xiàn)精細(xì)摳圖，對(duì)數(shù)據(jù)要求低、精度高。

具體來(lái)說(shuō)，模型框架分為三部分：粗 mask 估計(jì)網(wǎng)絡(luò)（MPN）、質(zhì)量統(tǒng)一化網(wǎng)絡(luò)（QUN）、以及精確 alpha matte 估計(jì)網(wǎng)絡(luò)（MRN）。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

我們首先將復(fù)雜問(wèn)題拆解，先粗分割（MPN）再精細(xì)化分割（MRN）。

學(xué)術(shù)界有大量易獲取的粗分割數(shù)據(jù)，但是粗分割數(shù)據(jù)和精分割數(shù)據(jù)不一致導(dǎo)致預(yù)期 GAP 很大，故而我們又設(shè)計(jì)了質(zhì)量統(tǒng)一化網(wǎng)絡(luò)（QUN）。

MPN 的用途是估計(jì)粗語(yǔ)義信息（粗 mask），使用粗標(biāo)注數(shù)據(jù)和精標(biāo)注數(shù)據(jù)一起訓(xùn)練。

QUN 是質(zhì)量統(tǒng)一化網(wǎng)絡(luò)，用以規(guī)范粗 mask 質(zhì)量，QUN 可以統(tǒng)一 MPN 輸出的粗 mask 質(zhì)量。

MRN 網(wǎng)絡(luò)輸入原圖和經(jīng)過(guò) QUN 規(guī)范化后的粗 mask，估計(jì)精確的 alpha matte，使用精確標(biāo)注數(shù)據(jù)訓(xùn)練。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

當(dāng)然，摳圖分割相關(guān)的需求非常多樣化，我們也上線(xiàn)了一系列模型，支持非人像摳圖以及視頻摳圖等。

開(kāi)發(fā)者可以直接拿來(lái)即用，如進(jìn)行輔助設(shè)計(jì)師摳圖，一鍵摳圖，大幅提升設(shè)計(jì)效率，或者自由換背景，可實(shí)現(xiàn)會(huì)議虛擬背景、證件照、穿越等效果。這些也在阿里自有產(chǎn)品（如釘釘視頻會(huì)議）及云上客戶(hù)廣泛使用。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

2. 檢測(cè)并識(shí)別是誰(shuí)

模型名：MogFace 人臉檢測(cè)

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

體驗(yàn)鏈接：https://www.modelscope.cn/models/damo/cv_resnet101_face-detection_CVPR22papermogface/

人臉檢測(cè)和識(shí)別是一個(gè) AI 經(jīng)典任務(wù)，也是應(yīng)用最廣泛的視覺(jué)技術(shù)之一；從另一方面看，其對(duì)效果和性?xún)r(jià)比要求非?？量獭?/span>

我們自研的 MogFace 為當(dāng)前 SOTA 的人臉檢測(cè)方法，已在 Wider Face 六項(xiàng)榜單上霸榜一年半以上，具體技術(shù)論文發(fā)表于 CVPR2022，主要貢獻(xiàn)是從 label assignment, scale-level data augmentation and reduce false alarms 三個(gè)角度改進(jìn)人臉檢測(cè)器。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

技術(shù)上的特點(diǎn)有：

Scale-level Data Augmentation (SSE)：SSE 是第一個(gè)從 maximize pyramid layer 表征的角度來(lái)控制數(shù)據(jù)集中 gt 的尺度分布，而不是 intuitive 的假想檢測(cè)器的學(xué)習(xí)能力，因此在不同場(chǎng)景下都很魯棒；
Adaptive Online Anchor Mining Strategy(Ali-AMS)：減少對(duì)超參的依賴(lài)，簡(jiǎn)單且有效的 adpative label assign 方法；
Hierarchical Context-aware Module (HCAM)：減少誤檢是真實(shí)世界人臉檢測(cè)器面對(duì)的最大挑戰(zhàn)，HCAM 是最近幾年第一次在算法側(cè)給出 solid solution。

人臉檢測(cè)作為人臉相關(guān)的基礎(chǔ)能力，可應(yīng)用于人臉相冊(cè) / 人臉編輯 / 人臉比對(duì)等場(chǎng)景。

由于人臉相關(guān)的模型使用非常廣泛，我們也有系列模型的迭代計(jì)劃，包括 MogFace 中所介紹的技術(shù)點(diǎn)除了 HCAM 均無(wú)需引入額外的計(jì)算量，后續(xù)準(zhǔn)備打造 SOTA 的 family-based 人臉檢測(cè)模型；以及真實(shí)世界的人臉檢測(cè)器除了面對(duì)減少誤檢的問(wèn)題，還面對(duì)如何增加人臉檢出率的問(wèn)題，以及他們之間如何平衡的問(wèn)題，我們正在進(jìn)一步探索。

3. 人體關(guān)鍵點(diǎn)及動(dòng)作識(shí)別

模型名字：HRNet 人體關(guān)鍵點(diǎn) -2D

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

體驗(yàn)鏈接：https://www.modelscope.cn/models/damo/cv_hrnetv2w32_body-2d-keypoints_image/

該任務(wù)采用自頂向下的人體關(guān)鍵點(diǎn)檢測(cè)框架，通過(guò)端對(duì)端的快速推理可以得到圖像中的 15 點(diǎn)人體關(guān)鍵點(diǎn)。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

其中人體關(guān)鍵點(diǎn)模型基于 HRNet 改進(jìn)的 backbone，充分利用多分辨率的特征較好地支持日常人體姿態(tài)，在 COCO 數(shù)據(jù)集的 AP 和 AR50 上取得更高精度。

同時(shí)我們也針對(duì)體育健身場(chǎng)景做了優(yōu)化，尤其是在瑜伽、健身等場(chǎng)景下多遮擋、非常見(jiàn)、多臥姿等姿態(tài)上具有 SOTA 的檢測(cè)精度。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

為了更好的適用于各種場(chǎng)景，我們持續(xù)進(jìn)行優(yōu)化：

針對(duì)通用場(chǎng)景的大模型在指標(biāo)上達(dá)到 SOTA 性能；
針對(duì)移動(dòng)端部署的小模型，內(nèi)存占用小，運(yùn)行快、性能穩(wěn)定，在千元機(jī)上達(dá)到 25～30FPS；
針對(duì)瑜伽、跳繩技術(shù)、仰臥起坐、俯臥撐、高抬腿等體育健身計(jì)數(shù)和打分場(chǎng)景下多遮擋、非常見(jiàn)、多臥姿姿態(tài)等情況做了深度優(yōu)化，提升算法精度和準(zhǔn)確度。

本模型已經(jīng)廣泛應(yīng)用于 AI 體育健身、體育測(cè)試場(chǎng)景，如阿里體育樂(lè)動(dòng)力，釘釘運(yùn)動(dòng)，健身鏡等，也可應(yīng)用于 3D 關(guān)鍵點(diǎn)檢測(cè)和 3D 人體重建等場(chǎng)景。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

4. 小結(jié)

上述三個(gè)「人」相關(guān)的模型，都屬于感知理解這個(gè)大類(lèi)。先認(rèn)識(shí)世界，再改造世界，感知理解類(lèi)視覺(jué)技術(shù)是最基礎(chǔ)、也是應(yīng)用最廣泛的模型大類(lèi)，也可以分為識(shí)別、檢測(cè)和分割三小類(lèi)：

識(shí)別 / 分類(lèi)是視覺(jué)（包括圖像、視頻等）技術(shù)中最基礎(chǔ)也是最經(jīng)典的任務(wù)，也是生物通過(guò)眼睛了解世界最基本的能力。簡(jiǎn)單來(lái)說(shuō)，判定一組圖像數(shù)據(jù)中是否包含某個(gè)特定的物體，圖像特征或運(yùn)動(dòng)狀態(tài)，知道圖像視頻中描述的對(duì)象和內(nèi)容是什么。此外，還需要了解一些更細(xì)維度的信息，或者非實(shí)體對(duì)象的一些描述標(biāo)簽。
目標(biāo)檢測(cè)的任務(wù)是找出視覺(jué)內(nèi)容中感興趣的目標(biāo)（物體），確定它們的位置和大小，也是機(jī)器視覺(jué)領(lǐng)域的核心問(wèn)題之一。一般來(lái)說(shuō)，也會(huì)同時(shí)對(duì)定位到的目標(biāo)進(jìn)行分類(lèi)識(shí)別。
分割是視覺(jué)任務(wù)中又一個(gè)核心任務(wù)，相對(duì)于識(shí)別檢測(cè)，它又更進(jìn)一步，解決「每一個(gè)像素屬于哪個(gè)目標(biāo)物或場(chǎng)景」的問(wèn)題。是把圖像分成若干個(gè)特定的、具有獨(dú)特性質(zhì)的區(qū)域并提出感興趣目標(biāo)的技術(shù)和過(guò)程。

魔搭社區(qū)上面開(kāi)放了豐富的感知理解類(lèi)模型，供 AI 開(kāi)發(fā)者試用使用：

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

5. 彩蛋：DAMO-YOLO 首次放出

模型名字：DAMOYOLO- 高性能通用檢測(cè)模型 -S

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

體驗(yàn)鏈接：https://www.modelscope.cn/models/damo/cv_tinynas_object-detection_damoyolo/summary

通用目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)的基本問(wèn)題之一，具有非常廣泛的應(yīng)用。

DAMO-YOLO 是阿里新推出來(lái)的目標(biāo)檢測(cè)框架，兼顧模型速度與精度，其效果超越了目前的一眾 YOLO 系列方法，且推理速度更快。

DAMO-YOLO 還提供高效的訓(xùn)練策略和便捷易用的部署工具，能幫助開(kāi)發(fā)者快速解決工業(yè)落地中的實(shí)際問(wèn)題。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

DAMO-YOLO 引入 TinyNAS 技術(shù)，使得用戶(hù)可以根據(jù)硬件算力進(jìn)行低成本的檢測(cè)模型定制，提高硬件利用效率并且獲得更高精度。

另外，DAMO-YOLO 還對(duì)檢測(cè)模型中的 neck、head 結(jié)構(gòu)設(shè)計(jì)，以及訓(xùn)練時(shí)的標(biāo)簽分配、數(shù)據(jù)增廣等關(guān)鍵因素進(jìn)行了優(yōu)化。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

由于做了一系列優(yōu)化，DAMO-YOLO 在嚴(yán)格限制 Latency 的情況下精度取得了顯著的提升，成為 YOLO 框架中的新 SOTA。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

底層視覺(jué)模型

1. 照片去噪去模糊

模型名字：NAFNet 圖像去噪

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

體驗(yàn)地址：https://www.modelscope.cn/models/damo/cv_nafnet_image-denoise_sidd/

因拍攝環(huán)境、設(shè)備、操作等原因，圖像質(zhì)量不佳的情況時(shí)而存在，怎么對(duì)這些圖像的噪聲去除、模糊還原？

該模型在圖像恢復(fù)領(lǐng)域具有良好的泛化性，無(wú)論是圖像去噪還是圖像去模糊任務(wù)，都達(dá)到了目前的 SOTA。

由于技術(shù)創(chuàng)新，該模型使用了簡(jiǎn)單的乘法操作替換了激活函數(shù)，在不影響性能的情況下提升了處理速度。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

該模型全名叫 NAFNet 去噪模型，即非線(xiàn)性無(wú)激活網(wǎng)絡(luò)（Nonlinear Activation Free Network），證明了常見(jiàn)的非線(xiàn)性激活函數(shù)（Sigmoid、ReLU、GELU、Softmax 等）不是必須的，它們是可以被移除或者是被乘法算法代替的。該模型是對(duì) CNN 結(jié)構(gòu)設(shè)計(jì)的重要?jiǎng)?chuàng)新。

本模型可以做為很多應(yīng)用的前置步驟，如智能手機(jī)圖像去噪、圖像去運(yùn)動(dòng)模糊等。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

2. 照片修復(fù)及增強(qiáng)

模型名字：GPEN 人像增強(qiáng)模型

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

體驗(yàn)地址：https://www.modelscope.cn/models/damo/cv_gpen_image-portrait-enhancement/

除照片去噪以外，對(duì)照片的質(zhì)量（包括分辨、細(xì)節(jié)紋理、色彩等）會(huì)有更高的處理要求，我們也開(kāi)放了專(zhuān)門(mén)的人像增強(qiáng)模型，對(duì)輸入圖像中的每一個(gè)檢測(cè)到的人像做修復(fù)和增強(qiáng)，并對(duì)圖像中的非人像區(qū)域采用 RealESRNet 做兩倍的超分辨率，最終返回修復(fù)后的完整圖像。該模型能夠魯棒地處理絕大多數(shù)復(fù)雜的真實(shí)降質(zhì)，修復(fù)嚴(yán)重?fù)p傷的人像。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

從效果上看，GPEN 人像增強(qiáng)模型將預(yù)訓(xùn)練好的 StyleGAN2 網(wǎng)絡(luò)作為 decoder 嵌入到完整模型中，并通過(guò) finetune 的方式最終實(shí)現(xiàn)修復(fù)功能，在多項(xiàng)指標(biāo)上達(dá)到行業(yè)領(lǐng)先的效果。

從應(yīng)用的視角，本模型可以修復(fù)家庭老照片或者明星的老照片，修復(fù)手機(jī)夜景拍攝的低質(zhì)照片，修復(fù)老視頻中的人像等。

后續(xù)我們將增加 1024、2048 等支持處理大分辨人臉的預(yù)訓(xùn)練模型，并在模型效果上持續(xù)更新迭代。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

3. 小結(jié)

底層視覺(jué)，關(guān)注的是畫(huà)質(zhì)問(wèn)題。只要是生物（含人），都會(huì)對(duì)因光影而產(chǎn)生的細(xì)節(jié)、形狀、顏色、流暢性等有感應(yīng)，人對(duì)高畫(huà)質(zhì)的追求更是天然的，但由于各種現(xiàn)實(shí)條件，畫(huà)質(zhì)往往不理想，這時(shí)候視覺(jué) AI 就能派上用場(chǎng)。

從任務(wù)分類(lèi)上，可以分為：清晰度（分辨率 / 細(xì)節(jié)、噪聲 / 劃痕、幀率）、色彩（亮度、色偏等）、修瑕（膚質(zhì)優(yōu)化、去水印字幕）等，如下表：

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

編輯生成類(lèi)模型

1. 變得更漂亮

模型名字：ABPN 人像美膚

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

體驗(yàn)鏈接：https://www.modelscope.cn/models/damo/cv_unet_skin-retouching/

人們對(duì)照片人像的美觀度是一個(gè)剛性需求，包括斑點(diǎn)、顏色、瑕疵等，甚至高矮胖瘦。本次我們開(kāi)放了專(zhuān)業(yè)級(jí)別的人像美膚、液化等模型供大家使用。

本模型提出了一個(gè)新穎的自適應(yīng)混合模塊 ABM，其利用自適應(yīng)混合圖層實(shí)現(xiàn)了圖像的局部精準(zhǔn)修飾。此外，我們?cè)?ABM 的基礎(chǔ)上進(jìn)一步構(gòu)建了一個(gè)混合圖層金字塔，實(shí)現(xiàn)了超高清圖像的快速修飾。

相比于現(xiàn)有的圖像修飾方法，ABPN 在修飾精度、速度上均有較大提升。ABPN 人像美膚模型為 ABPN 模型在人像美膚任務(wù)中的具體應(yīng)用。

如下示例：

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

更進(jìn)一步，我們還可以在服飾上做一些有意思的嘗試，如去皺：

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

甚至瘦身美型：

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

體驗(yàn)鏈接：https://www.modelscope.cn/models/damo/cv_flow-based-body-reshaping_damo/summary

從效果上來(lái)說(shuō)，有如下幾點(diǎn)特色：

局部修飾。只對(duì)目標(biāo)區(qū)域進(jìn)行編輯，保持非目標(biāo)區(qū)域不動(dòng)。
精準(zhǔn)修飾。充分考慮目標(biāo)本身的紋理特征和全局上下文信息，以實(shí)現(xiàn)精準(zhǔn)修飾，去除瑕疵的同時(shí)保留皮膚本身的質(zhì)感。
超高分辨率的處理能力。模型的混合圖層金字塔設(shè)計(jì)，使其可以處理超高分辨率圖像（4K~6K）。

本模型有很強(qiáng)的實(shí)用性，比如可應(yīng)用于專(zhuān)業(yè)修圖領(lǐng)域，如影樓、廣告等，提高生產(chǎn)力，也可以應(yīng)用于直播互娛場(chǎng)景，提升人像皮膚質(zhì)感。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

2. 變成卡通人

模型名：DCT-Net 人像卡通化模型

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

體驗(yàn)鏈接：https://www.modelscope.cn/models/damo/cv_unet_person-image-cartoon_compound-models/

人像卡通化是一個(gè)具有很好互動(dòng)性的玩法，同時(shí)又有多種風(fēng)格可選。魔搭開(kāi)放的人像卡通化模型基于全新的域校準(zhǔn)圖像翻譯網(wǎng)絡(luò) DCT-Net（Domain-Calibrated Translation）實(shí)現(xiàn)，采用了「先全局特征校準(zhǔn)，再局部紋理轉(zhuǎn)換」的核心思想，利用百?gòu)埿颖撅L(fēng)格數(shù)據(jù)，即可訓(xùn)練得到輕量穩(wěn)定的風(fēng)格轉(zhuǎn)換器，實(shí)現(xiàn)高保真、強(qiáng)魯棒、易拓展的高質(zhì)量人像風(fēng)格轉(zhuǎn)換效果。

如下示例：

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

從效果上來(lái)看：

DCT-Net 具備內(nèi)容匹配的高保真能力，能有效保留原圖內(nèi)容中的人物 ID、配飾、身體部件、背景等細(xì)節(jié)特征；
DCT-Net 具備面向復(fù)雜場(chǎng)景的強(qiáng)魯棒能力，能輕松處理面部遮擋、稀有姿態(tài)等；
DCT-Net 在處理維度上和風(fēng)格適配度上具有易拓展性，利用頭部數(shù)據(jù)即可拓展至全身像 / 全圖的精細(xì)化風(fēng)格轉(zhuǎn)換，同時(shí)模型具有通用普適性，適配于日漫風(fēng)、3D、手繪等多種風(fēng)格轉(zhuǎn)換。

后續(xù)我們也會(huì)對(duì)卡通化進(jìn)行系列化的開(kāi)放，除圖像轉(zhuǎn)換外，后續(xù)將包含圖像、視頻、3D 卡通化等系列效果，先放一些效果大家看看：

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

3. 小結(jié)

這類(lèi)模型對(duì)圖像內(nèi)容進(jìn)行修改，包括對(duì)源圖內(nèi)容進(jìn)行編輯加工（增加內(nèi)容、刪除內(nèi)容、改換內(nèi)容等），或者直接生成一個(gè)新的視覺(jué)內(nèi)容，轉(zhuǎn)換一個(gè)風(fēng)格，得到一張新的圖像（基于源圖像且與源圖不同），都屬于編輯生成這個(gè)大類(lèi)，可以理解成，從 A 圖得到 B 圖的過(guò)程。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

行業(yè)場(chǎng)景類(lèi)模型

如最開(kāi)始所說(shuō)，視覺(jué) AI 技術(shù)的價(jià)值體現(xiàn)，在廣泛的各類(lèi)場(chǎng)景中都存在，除了上述「人」相關(guān)的視覺(jué) AI 技術(shù)，我們也開(kāi)放了來(lái)自互聯(lián)網(wǎng)、工業(yè)、互娛、傳媒、安全、醫(yī)療等多個(gè)實(shí)戰(zhàn)型的模型，這些模型可以拿來(lái)即用，也可以基于finetune訓(xùn)練或自學(xué)習(xí)工具進(jìn)一步加工完善，用于開(kāi)發(fā)者、客戶(hù)特定的場(chǎng)景，這里舉一個(gè)例子：

模型名：煙火檢測(cè)（正在集成中）

模型功能：可做室外、室內(nèi)的火焰檢測(cè)以及煙霧檢測(cè)，森林、城市道路、園區(qū)，臥室、辦公區(qū)域、廚房、吸煙場(chǎng)所等，算法打磨近 2 年，并在多個(gè)客戶(hù)場(chǎng)景實(shí)際應(yīng)用，整體效果相對(duì)穩(wěn)定。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

從技術(shù)視角來(lái)說(shuō)，本模型提出 Correlation block 提升多幀檢測(cè)精度，其設(shè)計(jì)數(shù)據(jù)增強(qiáng)方法提高識(shí)別靈敏度同時(shí)有效控制誤報(bào)。

從應(yīng)用上來(lái)說(shuō)，模型可應(yīng)用于室內(nèi)、室外多種場(chǎng)景，只需要手機(jī)拍攝、監(jiān)控?cái)z像頭等簡(jiǎn)單設(shè)備就可以實(shí)現(xiàn)模型功能。

結(jié)語(yǔ)：視覺(jué) AI 的開(kāi)放未來(lái)

通過(guò)上述分析，我們可以發(fā)現(xiàn)，視覺(jué) AI 的應(yīng)用潛能極為廣泛，社會(huì)需求極為多樣，但現(xiàn)實(shí)情況卻是：視覺(jué) AI 的供給能力非常有限。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

達(dá)摩院在魔搭 ModelScope 之前，就率先開(kāi)放了 API 形態(tài)的視覺(jué) AI 服務(wù)，通過(guò)公共云平臺(tái)對(duì) AI 開(kāi)發(fā)者提供一站式視覺(jué)在線(xiàn)服務(wù)平臺(tái)，即視覺(jué)智能開(kāi)放平臺(tái)（vision.aliyun.com），其中開(kāi)放了超 200 個(gè) API，涵蓋了基礎(chǔ)視覺(jué)、行業(yè)視覺(jué)等方面，也包括上面所說(shuō)的「以人為中心」的視覺(jué)技術(shù)。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

從開(kāi)放視覺(jué)平臺(tái)到魔搭社區(qū)，這意味著達(dá)摩院視覺(jué) AI 的開(kāi)放邁出了更大的一步。從 OpenAPI 拓展到 OpenSDK、OpenSOTA，從公共云到端云協(xié)同，從平臺(tái)到社區(qū)，我們希望去滿(mǎn)足千行百業(yè)對(duì)視覺(jué) AI 的需求，希望促進(jìn)視覺(jué) AI 的生態(tài)發(fā)展。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）

相關(guān)新聞

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個(gè)CV模型開(kāi)源（cv 代碼）