欧美人与禽2O2O性论交,秋霞免费视频,国产美女视频免费观看网址,国产成人亚洲综合网色欲网

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

作者:謝宣松 阿里達(dá)摩院開(kāi)放視覺(jué)智能負(fù)責(zé)人

編輯:好困

新智元導(dǎo)讀】11 月 3 日,在 2022 云棲大會(huì)上,阿里達(dá)摩院聯(lián)手 CCF 開(kāi)源發(fā)展委員會(huì)共同推出了 AI 模型社區(qū)「魔搭」ModelScope。本文,阿里達(dá)摩院開(kāi)放視覺(jué)智能負(fù)責(zé)人謝宣松,深入解析了魔搭社區(qū)里首批開(kāi)源的 101 個(gè)視覺(jué) AI 模型。

計(jì)算機(jī)視覺(jué)人工智能的基石,也是應(yīng)用最廣泛的 AI 技術(shù),從日常手機(jī)解鎖使用的人臉識(shí)別,再到火熱的產(chǎn)業(yè)前沿自動(dòng)駕駛,視覺(jué) AI 都大顯身手。

作為一名視覺(jué) AI 研究者,我認(rèn)為視覺(jué) AI 的潛能遠(yuǎn)未得到充分發(fā)揮,窮盡我們這些研究者的力量,也只能覆蓋少數(shù)行業(yè)和場(chǎng)景,遠(yuǎn)未能滿(mǎn)足全社會(huì)的需求。

因此,在 AI 模型社區(qū)魔搭 ModelScope 上,我們決定全面開(kāi)源達(dá)摩院研發(fā)的視覺(jué) AI 模型,首批達(dá) 101 個(gè),其中多數(shù)為 SOTA 或經(jīng)過(guò)實(shí)踐檢驗(yàn)。我們希望讓更多開(kāi)發(fā)者來(lái)使用視覺(jué) AI,更期待 AI 能成為人類(lèi)社會(huì)前進(jìn)的動(dòng)力之一。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

魔搭社區(qū)地址:modelscope.cn

背景

AI 模型較為復(fù)雜,尤其是要應(yīng)用于行業(yè)場(chǎng)景,往往需要重新訓(xùn)練,這使得 AI 只掌握在少數(shù)算法人員手中,難以走向大眾化。

而新推出的魔搭社區(qū) ModelScope,踐行模型即服務(wù)的新理念(Model as a Service),提供眾多預(yù)訓(xùn)練基礎(chǔ)模型,只需針對(duì)具體場(chǎng)景再稍作調(diào)優(yōu),就能快速投入使用。

達(dá)摩院率先向魔搭社區(qū)貢獻(xiàn) 300 多個(gè)經(jīng)過(guò)驗(yàn)證的優(yōu)質(zhì) AI 模型,超過(guò) 1/3 為中文模型,全面開(kāi)源開(kāi)放,并且把模型變?yōu)橹苯涌捎玫姆?wù)。

社區(qū)首批開(kāi)源模型包括視覺(jué)、語(yǔ)音、自然語(yǔ)言處理、多模態(tài)等 AI 主要方向,并向 AI for Science 等新領(lǐng)域積極探索,覆蓋的主流任務(wù)超過(guò) 60 個(gè)。

模型均經(jīng)過(guò)專(zhuān)家篩選和效果驗(yàn)證,包括 150 多個(gè) SOTA(業(yè)界領(lǐng)先)模型和 10 多個(gè)大模型,全面開(kāi)源且開(kāi)放使用。

概要:以人為中心的視覺(jué) AI

這些年來(lái),達(dá)摩院作為阿里巴巴的基礎(chǔ)科研機(jī)構(gòu)和人才高地,在阿里海量業(yè)務(wù)場(chǎng)景中研發(fā)出一批優(yōu)秀的視覺(jué) AI 能力,分布在各個(gè)環(huán)節(jié):

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

這些視覺(jué) AI 技術(shù),幾乎覆蓋了從理解到生成等各方面。因視覺(jué)技術(shù)任務(wù)眾多,我們需要有一個(gè)相對(duì)合理的分類(lèi)方法,可以從模態(tài)、對(duì)象、功能、場(chǎng)景等幾個(gè)維度來(lái)分:

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

魔搭社區(qū)首批開(kāi)放了主要的視覺(jué)任務(wù)模型,這些模型即有學(xué)術(shù)創(chuàng)新的 SOTA 技術(shù),也有久經(jīng)考驗(yàn)的實(shí)戰(zhàn)模型,從「功能 / 任務(wù)」的維度上,涵蓋了常見(jiàn)的感知、理解、生產(chǎn)等大類(lèi):

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

雖然視覺(jué)技術(shù)有點(diǎn)龐雜,但其實(shí)有個(gè)核心,那就是研究「對(duì)象」,「人」一直以來(lái)都是最重要的「對(duì)象」?!敢匀藶橹行摹沟囊曈X(jué) AI 技術(shù),也是研究最早最深、使用最普遍的技術(shù)。

我們以一個(gè)人的照片作為起點(diǎn)。

AI 首先需要理解這個(gè)照片 / 圖像,如識(shí)別這個(gè)照片是誰(shuí),有什么動(dòng)作,能否摳出像等。

然后,我們還需要進(jìn)一步探索:照片質(zhì)量如何,能否畫(huà)質(zhì)變得更好,其中的人能否變得更漂亮,甚至變成卡通人、數(shù)字人等…

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

如上的 7 個(gè)「人」相關(guān)的流程,基本涵蓋了視覺(jué)任務(wù)中的「理解」、「增強(qiáng)」、「編輯」等大類(lèi),我們以魔搭社區(qū)已開(kāi)放的相關(guān)模型為實(shí)例,來(lái)分享以人為中心的視覺(jué)技術(shù)的特點(diǎn)、優(yōu)點(diǎn)、示例以及應(yīng)用。

感知理解類(lèi)模型

1. 從照片摳出人像

模型名:BSHM 人像摳圖

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

體驗(yàn)鏈接:https://www.modelscope.cn/models/damo/cv_unet_image-matting/

從照片摳出人像,去掉背景,是一個(gè)非常普遍的需求,也是「PS」的基本操作之一,但傳統(tǒng)人工操作費(fèi)時(shí)費(fèi)力、且效果不佳。

魔搭提供的人像摳圖模型,是一個(gè) 全自動(dòng)、端到端的人像摳圖模型,能夠?qū)崿F(xiàn)發(fā)絲級(jí)別的精細(xì)分割。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

技術(shù)上我們也進(jìn)行了創(chuàng)新,不同于其他模型基于大量精細(xì)標(biāo)注數(shù)據(jù)訓(xùn)練的方法,我們的模型使用粗標(biāo)注數(shù)據(jù)就能實(shí)現(xiàn)精細(xì)摳圖,對(duì)數(shù)據(jù)要求低、精度高。

具體來(lái)說(shuō),模型框架分為三部分:粗 mask 估計(jì)網(wǎng)絡(luò)(MPN)、質(zhì)量統(tǒng)一化網(wǎng)絡(luò)(QUN)、以及精確 alpha matte 估計(jì)網(wǎng)絡(luò)(MRN)。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

我們首先將復(fù)雜問(wèn)題拆解,先粗分割(MPN)再精細(xì)化分割(MRN)。

學(xué)術(shù)界有大量易獲取的粗分割數(shù)據(jù),但是粗分割數(shù)據(jù)和精分割數(shù)據(jù)不一致導(dǎo)致預(yù)期 GAP 很大,故而我們又設(shè)計(jì)了質(zhì)量統(tǒng)一化網(wǎng)絡(luò)(QUN)。

MPN 的用途是估計(jì)粗語(yǔ)義信息(粗 mask),使用粗標(biāo)注數(shù)據(jù)和精標(biāo)注數(shù)據(jù)一起訓(xùn)練。

QUN 是質(zhì)量統(tǒng)一化網(wǎng)絡(luò),用以規(guī)范粗 mask 質(zhì)量,QUN 可以統(tǒng)一 MPN 輸出的粗 mask 質(zhì)量。

MRN 網(wǎng)絡(luò)輸入原圖和經(jīng)過(guò) QUN 規(guī)范化后的粗 mask,估計(jì)精確的 alpha matte,使用精確標(biāo)注數(shù)據(jù)訓(xùn)練。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

當(dāng)然,摳圖分割相關(guān)的需求非常多樣化,我們也上線(xiàn)了一系列模型,支持非人像摳圖以及視頻摳圖等。

開(kāi)發(fā)者可以直接拿來(lái)即用,如進(jìn)行輔助設(shè)計(jì)師摳圖,一鍵摳圖,大幅提升設(shè)計(jì)效率,或者自由換背景,可實(shí)現(xiàn)會(huì)議虛擬背景、證件照、穿越等效果。這些也在阿里自有產(chǎn)品(如釘釘視頻會(huì)議)及云上客戶(hù)廣泛使用。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

2. 檢測(cè)并識(shí)別是誰(shuí)

模型名:MogFace 人臉檢測(cè)

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

體驗(yàn)鏈接:https://www.modelscope.cn/models/damo/cv_resnet101_face-detection_CVPR22papermogface/

人臉檢測(cè)和識(shí)別是一個(gè) AI 經(jīng)典任務(wù),也是應(yīng)用最廣泛的視覺(jué)技術(shù)之一;從另一方面看,其對(duì)效果和性?xún)r(jià)比要求非??量獭?/span>

我們自研的 MogFace 為當(dāng)前 SOTA 的人臉檢測(cè)方法,已在 Wider Face 六項(xiàng)榜單上霸榜一年半以上,具體技術(shù)論文發(fā)表于 CVPR2022,主要貢獻(xiàn)是從 label assignment, scale-level data augmentation and reduce false alarms 三個(gè)角度改進(jìn)人臉檢測(cè)器。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

技術(shù)上的特點(diǎn)有:

  • Scale-level Data Augmentation (SSE):SSE 是第一個(gè)從 maximize pyramid layer 表征的角度來(lái)控制數(shù)據(jù)集中 gt 的尺度分布,而不是 intuitive 的假想檢測(cè)器的學(xué)習(xí)能力,因此在不同場(chǎng)景下都很魯棒;
  • Adaptive Online Anchor Mining Strategy(Ali-AMS):減少對(duì)超參的依賴(lài), 簡(jiǎn)單且有效的 adpative label assign 方法;
  • Hierarchical Context-aware Module (HCAM):減少誤檢是真實(shí)世界人臉檢測(cè)器面對(duì)的最大挑戰(zhàn),HCAM 是最近幾年第一次在算法側(cè)給出 solid solution。

人臉檢測(cè)作為人臉相關(guān)的基礎(chǔ)能力,可應(yīng)用于人臉相冊(cè) / 人臉編輯 / 人臉比對(duì)等場(chǎng)景。

由于人臉相關(guān)的模型使用非常廣泛,我們也有系列模型的迭代計(jì)劃,包括 MogFace 中所介紹的技術(shù)點(diǎn)除了 HCAM 均無(wú)需引入額外的計(jì)算量,后續(xù)準(zhǔn)備打造 SOTA 的 family-based 人臉檢測(cè)模型;以及真實(shí)世界的人臉檢測(cè)器除了面對(duì)減少誤檢的問(wèn)題,還面對(duì)如何增加人臉檢出率的問(wèn)題,以及他們之間如何平衡的問(wèn)題,我們正在進(jìn)一步探索。

3. 人體關(guān)鍵點(diǎn)及動(dòng)作識(shí)別

模型名字:HRNet 人體關(guān)鍵點(diǎn) -2D

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

體驗(yàn)鏈接:https://www.modelscope.cn/models/damo/cv_hrnetv2w32_body-2d-keypoints_image/

該任務(wù)采用自頂向下的人體關(guān)鍵點(diǎn)檢測(cè)框架,通過(guò)端對(duì)端的快速推理可以得到圖像中的 15 點(diǎn)人體關(guān)鍵點(diǎn)。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

其中人體關(guān)鍵點(diǎn)模型基于 HRNet 改進(jìn)的 backbone,充分利用多分辨率的特征較好地支持日常人體姿態(tài),在 COCO 數(shù)據(jù)集的 AP 和 AR50 上取得更高精度。

同時(shí)我們也針對(duì)體育健身場(chǎng)景做了優(yōu)化,尤其是在瑜伽、健身等場(chǎng)景下多遮擋、非常見(jiàn)、多臥姿等姿態(tài)上具有 SOTA 的檢測(cè)精度。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

為了更好的適用于各種場(chǎng)景,我們持續(xù)進(jìn)行優(yōu)化:

  • 針對(duì)通用場(chǎng)景的大模型在指標(biāo)上達(dá)到 SOTA 性能;
  • 針對(duì)移動(dòng)端部署的小模型,內(nèi)存占用小,運(yùn)行快、性能穩(wěn)定,在千元機(jī)上達(dá)到 25~30FPS;
  • 針對(duì)瑜伽、跳繩技術(shù)、仰臥起坐、俯臥撐、高抬腿等體育健身計(jì)數(shù)和打分場(chǎng)景下多遮擋、非常見(jiàn)、多臥姿姿態(tài)等情況做了深度優(yōu)化,提升算法精度和準(zhǔn)確度。

本模型已經(jīng)廣泛應(yīng)用于 AI 體育健身、體育測(cè)試場(chǎng)景,如阿里體育樂(lè)動(dòng)力,釘釘運(yùn)動(dòng),健身鏡等,也可應(yīng)用于 3D 關(guān)鍵點(diǎn)檢測(cè)和 3D 人體重建等場(chǎng)景。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

4. 小結(jié)

上述三個(gè)「人」相關(guān)的模型,都屬于感知理解這個(gè)大類(lèi)。先認(rèn)識(shí)世界,再改造世界,感知理解類(lèi)視覺(jué)技術(shù)是最基礎(chǔ)、也是應(yīng)用最廣泛的模型大類(lèi),也可以分為識(shí)別、檢測(cè)和分割三小類(lèi):

  • 識(shí)別 / 分類(lèi)是視覺(jué)(包括圖像、視頻等)技術(shù)中最基礎(chǔ)也是最經(jīng)典的任務(wù),也是生物通過(guò)眼睛了解世界最基本的能力。簡(jiǎn)單來(lái)說(shuō),判定一組圖像數(shù)據(jù)中是否包含某個(gè)特定的物體,圖像特征或運(yùn)動(dòng)狀態(tài),知道圖像視頻中描述的對(duì)象和內(nèi)容是什么。此外,還需要了解一些更細(xì)維度的信息,或者非實(shí)體對(duì)象的一些描述標(biāo)簽。
  • 目標(biāo)檢測(cè)的任務(wù)是找出視覺(jué)內(nèi)容中感興趣的目標(biāo)(物體),確定它們的位置和大小,也是機(jī)器視覺(jué)領(lǐng)域的核心問(wèn)題之一。一般來(lái)說(shuō),也會(huì)同時(shí)對(duì)定位到的目標(biāo)進(jìn)行分類(lèi)識(shí)別。
  • 分割是視覺(jué)任務(wù)中又一個(gè)核心任務(wù),相對(duì)于識(shí)別檢測(cè),它又更進(jìn)一步,解決「每一個(gè)像素屬于哪個(gè)目標(biāo)物或場(chǎng)景」的問(wèn)題。是把圖像分成若干個(gè)特定的、具有獨(dú)特性質(zhì)的區(qū)域并提出感興趣目標(biāo)的技術(shù)和過(guò)程。

魔搭社區(qū)上面開(kāi)放了豐富的感知理解類(lèi)模型,供 AI 開(kāi)發(fā)者試用使用:

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

5. 彩蛋:DAMO-YOLO 首次放出

模型名字:DAMOYOLO- 高性能通用檢測(cè)模型 -S

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

體驗(yàn)鏈接:https://www.modelscope.cn/models/damo/cv_tinynas_object-detection_damoyolo/summary

通用目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)的基本問(wèn)題之一,具有非常廣泛的應(yīng)用。

DAMO-YOLO 是阿里新推出來(lái)的 目標(biāo)檢測(cè)框架,兼顧模型速度與精度,其效果超越了目前的一眾 YOLO 系列方法,且推理速度更快。

DAMO-YOLO 還提供高效的訓(xùn)練策略和便捷易用的部署工具,能幫助開(kāi)發(fā)者快速解決工業(yè)落地中的實(shí)際問(wèn)題。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

DAMO-YOLO 引入 TinyNAS 技術(shù),使得用戶(hù)可以根據(jù)硬件算力進(jìn)行低成本的檢測(cè)模型定制,提高硬件利用效率并且獲得更高精度。

另外,DAMO-YOLO 還對(duì)檢測(cè)模型中的 neck、head 結(jié)構(gòu)設(shè)計(jì),以及訓(xùn)練時(shí)的標(biāo)簽分配、數(shù)據(jù)增廣等關(guān)鍵因素進(jìn)行了優(yōu)化。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

由于做了一系列優(yōu)化,DAMO-YOLO 在嚴(yán)格限制 Latency 的情況下精度取得了顯著的提升,成為 YOLO 框架中的新 SOTA。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

底層視覺(jué)模型

1. 照片去噪去模糊

模型名字:NAFNet 圖像去噪

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

體驗(yàn)地址:https://www.modelscope.cn/models/damo/cv_nafnet_image-denoise_sidd/

因拍攝環(huán)境、設(shè)備、操作等原因,圖像質(zhì)量不佳的情況時(shí)而存在,怎么對(duì)這些圖像的噪聲去除、模糊還原?

該模型在圖像恢復(fù)領(lǐng)域具有良好的泛化性,無(wú)論是圖像去噪還是圖像去模糊任務(wù),都達(dá)到了目前的 SOTA。

由于技術(shù)創(chuàng)新,該模型使用了簡(jiǎn)單的乘法操作替換了激活函數(shù),在不影響性能的情況下提升了處理速度。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

該模型全名叫 NAFNet 去噪模型,即非線(xiàn)性無(wú)激活網(wǎng)絡(luò)(Nonlinear Activation Free Network),證明了常見(jiàn)的非線(xiàn)性激活函數(shù)(Sigmoid、ReLU、GELU、Softmax 等)不是必須的,它們是可以被移除或者是被乘法算法代替的。該模型是對(duì) CNN 結(jié)構(gòu)設(shè)計(jì)的重要?jiǎng)?chuàng)新。

本模型可以做為很多應(yīng)用的前置步驟,如智能手機(jī)圖像去噪、圖像去運(yùn)動(dòng)模糊等。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

2. 照片修復(fù)及增強(qiáng)

模型名字:GPEN 人像增強(qiáng)模型

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

體驗(yàn)地址:https://www.modelscope.cn/models/damo/cv_gpen_image-portrait-enhancement/

除照片去噪以外,對(duì)照片的質(zhì)量(包括分辨、細(xì)節(jié)紋理、色彩等)會(huì)有更高的處理要求,我們也開(kāi)放了專(zhuān)門(mén)的人像增強(qiáng)模型,對(duì)輸入圖像中的每一個(gè)檢測(cè)到的人像做修復(fù)和增強(qiáng),并對(duì)圖像中的非人像區(qū)域采用 RealESRNet 做兩倍的超分辨率,最終返回修復(fù)后的完整圖像。該模型能夠魯棒地處理絕大多數(shù)復(fù)雜的真實(shí)降質(zhì),修復(fù)嚴(yán)重?fù)p傷的人像。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

從效果上看,GPEN 人像增強(qiáng)模型將預(yù)訓(xùn)練好的 StyleGAN2 網(wǎng)絡(luò)作為 decoder 嵌入到完整模型中,并通過(guò) finetune 的方式最終實(shí)現(xiàn)修復(fù)功能,在多項(xiàng)指標(biāo)上達(dá)到行業(yè)領(lǐng)先的效果。

從應(yīng)用的視角,本模型可以修復(fù)家庭老照片或者明星的老照片,修復(fù)手機(jī)夜景拍攝的低質(zhì)照片,修復(fù)老視頻中的人像等。

后續(xù)我們將增加 1024、2048 等支持處理大分辨人臉的預(yù)訓(xùn)練模型,并在模型效果上持續(xù)更新迭代。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

3. 小結(jié)

底層視覺(jué),關(guān)注的是畫(huà)質(zhì)問(wèn)題。只要是生物(含人),都會(huì)對(duì)因光影而產(chǎn)生的細(xì)節(jié)、形狀、顏色、流暢性等有感應(yīng),人對(duì)高畫(huà)質(zhì)的追求更是天然的,但由于各種現(xiàn)實(shí)條件,畫(huà)質(zhì)往往不理想,這時(shí)候視覺(jué) AI 就能派上用場(chǎng)。

從任務(wù)分類(lèi)上,可以分為:清晰度(分辨率 / 細(xì)節(jié)、噪聲 / 劃痕、幀率)、色彩(亮度、色偏等)、修瑕(膚質(zhì)優(yōu)化、去水印字幕)等,如下表:

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

編輯生成類(lèi)模型

1. 變得更漂亮

模型名字:ABPN 人像美膚

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

體驗(yàn)鏈接:https://www.modelscope.cn/models/damo/cv_unet_skin-retouching/

人們對(duì)照片人像的美觀度是一個(gè)剛性需求,包括斑點(diǎn)、顏色、瑕疵等,甚至高矮胖瘦。本次我們開(kāi)放了專(zhuān)業(yè)級(jí)別的人像美膚、液化等模型供大家使用。

本模型提出了一個(gè)新穎的自適應(yīng)混合模塊 ABM,其利用自適應(yīng)混合圖層實(shí)現(xiàn)了圖像的局部精準(zhǔn)修飾。此外,我們?cè)?ABM 的基礎(chǔ)上進(jìn)一步構(gòu)建了一個(gè)混合圖層金字塔,實(shí)現(xiàn)了超高清圖像的快速修飾。

相比于現(xiàn)有的圖像修飾方法,ABPN 在修飾精度、速度上均有較大提升。ABPN 人像美膚模型為 ABPN 模型在人像美膚任務(wù)中的具體應(yīng)用。

如下示例:

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

更進(jìn)一步,我們還可以在服飾上做一些有意思的嘗試,如去皺:

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

甚至瘦身美型:

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

體驗(yàn)鏈接:https://www.modelscope.cn/models/damo/cv_flow-based-body-reshaping_damo/summary

從效果上來(lái)說(shuō),有如下幾點(diǎn)特色:

  • 局部修飾。只對(duì)目標(biāo)區(qū)域進(jìn)行編輯,保持非目標(biāo)區(qū)域不動(dòng)。
  • 精準(zhǔn)修飾。充分考慮目標(biāo)本身的紋理特征和全局上下文信息,以實(shí)現(xiàn)精準(zhǔn)修飾,去除瑕疵的同時(shí)保留皮膚本身的質(zhì)感。
  • 超高分辨率的處理能力。模型的混合圖層金字塔設(shè)計(jì),使其可以處理超高分辨率圖像(4K~6K)。

本模型有很強(qiáng)的實(shí)用性,比如可應(yīng)用于專(zhuān)業(yè)修圖領(lǐng)域,如影樓、廣告等,提高生產(chǎn)力,也可以應(yīng)用于直播互娛場(chǎng)景,提升人像皮膚質(zhì)感。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

2. 變成卡通人

模型名:DCT-Net 人像卡通化模型

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

體驗(yàn)鏈接:https://www.modelscope.cn/models/damo/cv_unet_person-image-cartoon_compound-models/

人像卡通化是一個(gè)具有很好互動(dòng)性的玩法,同時(shí)又有多種風(fēng)格可選。魔搭開(kāi)放的人像卡通化模型基于全新的域校準(zhǔn)圖像翻譯網(wǎng)絡(luò) DCT-Net(Domain-Calibrated Translation)實(shí)現(xiàn),采用了「先全局特征校準(zhǔn),再局部紋理轉(zhuǎn)換」的核心思想,利用百?gòu)埿颖撅L(fēng)格數(shù)據(jù),即可訓(xùn)練得到輕量穩(wěn)定的風(fēng)格轉(zhuǎn)換器,實(shí)現(xiàn)高保真、強(qiáng)魯棒、易拓展的高質(zhì)量人像風(fēng)格轉(zhuǎn)換效果。

如下示例:

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

從效果上來(lái)看:

  • DCT-Net 具備內(nèi)容匹配的高保真能力,能有效保留原圖內(nèi)容中的人物 ID、配飾、身體部件、背景等細(xì)節(jié)特征;
  • DCT-Net 具備面向復(fù)雜場(chǎng)景的強(qiáng)魯棒能力,能輕松處理面部遮擋、稀有姿態(tài)等;
  • DCT-Net 在處理維度上和風(fēng)格適配度上具有易拓展性,利用頭部數(shù)據(jù)即可拓展至全身像 / 全圖的精細(xì)化風(fēng)格轉(zhuǎn)換,同時(shí)模型具有通用普適性,適配于日漫風(fēng)、3D、手繪等多種風(fēng)格轉(zhuǎn)換。

后續(xù)我們也會(huì)對(duì)卡通化進(jìn)行系列化的開(kāi)放,除圖像轉(zhuǎn)換外,后續(xù)將包含圖像、視頻、3D 卡通化等系列效果,先放一些效果大家看看:

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

3. 小結(jié)

這類(lèi)模型對(duì)圖像內(nèi)容進(jìn)行修改,包括對(duì)源圖內(nèi)容進(jìn)行編輯加工(增加內(nèi)容、刪除內(nèi)容、改換內(nèi)容等),或者直接生成一個(gè)新的視覺(jué)內(nèi)容,轉(zhuǎn)換一個(gè)風(fēng)格,得到一張新的圖像(基于源圖像且與源圖不同),都屬于編輯生成這個(gè)大類(lèi),可以理解成,從 A 圖得到 B 圖的過(guò)程。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

行業(yè)場(chǎng)景類(lèi)模型

如最開(kāi)始所說(shuō),視覺(jué) AI 技術(shù)的價(jià)值體現(xiàn),在廣泛的各類(lèi)場(chǎng)景中都存在,除了上述「人」相關(guān)的視覺(jué) AI 技術(shù),我們也開(kāi)放了來(lái)自互聯(lián)網(wǎng)、工業(yè)、互娛、傳媒、安全、醫(yī)療等多個(gè)實(shí)戰(zhàn)型的模型,這些模型可以拿來(lái)即用,也可以基于finetune訓(xùn)練或自學(xué)習(xí)工具進(jìn)一步加工完善,用于開(kāi)發(fā)者、客戶(hù)特定的場(chǎng)景,這里舉一個(gè)例子:

模型名:煙火檢測(cè)(正在集成中)

模型功能: 可做室外、室內(nèi)的火焰檢測(cè)以及煙霧檢測(cè),森林、城市道路、園區(qū),臥室、辦公區(qū)域、廚房、吸煙場(chǎng)所等,算法打磨近 2 年,并在多個(gè)客戶(hù)場(chǎng)景實(shí)際應(yīng)用,整體效果相對(duì)穩(wěn)定。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

從技術(shù)視角來(lái)說(shuō),本模型提出 Correlation block 提升多幀檢測(cè)精度,其設(shè)計(jì)數(shù)據(jù)增強(qiáng)方法提高識(shí)別靈敏度同時(shí)有效控制誤報(bào)。

從應(yīng)用上來(lái)說(shuō),模型可應(yīng)用于室內(nèi)、室外多種場(chǎng)景,只需要手機(jī)拍攝、監(jiān)控?cái)z像頭等簡(jiǎn)單設(shè)備就可以實(shí)現(xiàn)模型功能。

結(jié)語(yǔ):視覺(jué) AI 的開(kāi)放未來(lái)

通過(guò)上述分析,我們可以發(fā)現(xiàn),視覺(jué) AI 的應(yīng)用潛能極為廣泛,社會(huì)需求極為多樣,但現(xiàn)實(shí)情況卻是:視覺(jué) AI 的供給能力非常有限。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

達(dá)摩院在魔搭 ModelScope 之前,就率先開(kāi)放了 API 形態(tài)的視覺(jué) AI 服務(wù),通過(guò)公共云平臺(tái)對(duì) AI 開(kāi)發(fā)者提供一站式視覺(jué)在線(xiàn)服務(wù)平臺(tái),即視覺(jué)智能開(kāi)放平臺(tái)(vision.aliyun.com),其中開(kāi)放了超 200 個(gè) API,涵蓋了基礎(chǔ)視覺(jué)、行業(yè)視覺(jué)等方面,也包括上面所說(shuō)的「以人為中心」的視覺(jué)技術(shù)。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

從開(kāi)放視覺(jué)平臺(tái)到魔搭社區(qū),這意味著達(dá)摩院視覺(jué) AI 的開(kāi)放邁出了更大的一步。從 OpenAPI 拓展到 OpenSDK、OpenSOTA,從公共云到端云協(xié)同,從平臺(tái)到社區(qū),我們希望去滿(mǎn)足千行百業(yè)對(duì)視覺(jué) AI 的需求,希望促進(jìn)視覺(jué) AI 的生態(tài)發(fā)展。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個(gè)CV模型開(kāi)源(cv 代碼)

相關(guān)新聞

聯(lián)系我們
聯(lián)系我們
公眾號(hào)
公眾號(hào)
在線(xiàn)咨詢(xún)
分享本頁(yè)
返回頂部