網(wǎng)站建設(shè)選擇什么操作系統(tǒng)酒店推廣渠道有哪些
該論文作者均來自于新加坡南洋理工大學(xué) S-Lab 團(tuán)隊(duì),包括博士后胡濤,博士生洪方舟,以及計(jì)算與數(shù)據(jù)學(xué)院劉子緯教授(《麻省理工科技評(píng)論》亞太地區(qū) 35 歲以下創(chuàng)新者)。S-Lab 近年來在頂級(jí)會(huì)議如 CVPR, ICCV, ECCV,?NeurIPS, ICLR 上發(fā)表多篇 CV/CG/AIGC 相關(guān)的研究工作,和國內(nèi)外知名高校、科研機(jī)構(gòu)廣泛開展合作。
三維數(shù)字人生成和編輯在數(shù)字孿生、元宇宙、游戲、全息通訊等領(lǐng)域有廣泛應(yīng)用。傳統(tǒng)三維數(shù)字人制作往往費(fèi)時(shí)耗力,近年來研究者提出基于三維生成對(duì)抗網(wǎng)絡(luò)(3D GAN)從 2D 圖像中學(xué)習(xí)三維數(shù)字人,極大提高了數(shù)字人制作效率。
這些方法往往在一維隱向量空間建模數(shù)字人,而一維隱向量無法表征人體的幾何結(jié)構(gòu)和語義信息,因此限制了其生成質(zhì)量和編輯能力。
為了解決這一問題,來自新加坡南洋理工大學(xué) S-Lab 團(tuán)隊(duì)提出結(jié)構(gòu)化隱空間擴(kuò)散模型(Structured Latent Diffusion Model)的三維數(shù)字人生成新范式 StructLDM。該范式包括三個(gè)關(guān)鍵設(shè)計(jì):結(jié)構(gòu)化的高維人體表征、結(jié)構(gòu)化的自動(dòng)解碼器以及結(jié)構(gòu)化的隱空間擴(kuò)散模型。
StructLDM 是一個(gè)從圖像、視頻中學(xué)習(xí)的前饋三維生成模型(Feedforward 3D Generative Model),相比于已有 3D GAN 方法可生成高質(zhì)量、多樣化且視角一致的三維數(shù)字人,并支持不同層級(jí)的可控生成與編輯功能,如局部服裝編輯、三維虛擬試衣等部位感知的編輯任務(wù),且不依賴于特定的服裝類型或遮罩條件,具有較高的適用性。
-
論文標(biāo)題:StructLDM: Structured Latent Diffusion for 3D Human Generation
-
論文地址:https://arxiv.org/pdf/2404.01241
-
項(xiàng)目主頁:https://taohuumd.github.io/projects/StructLDM
-
實(shí)驗(yàn)室主頁:https://www.ntu.edu.sg/s-lab
,時(shí)長00:35
方法概覽
StructLDM 訓(xùn)練過程的包含兩個(gè)階段:
-
結(jié)構(gòu)化自動(dòng)解碼:給定人體姿態(tài)信息 SMPL 和相機(jī)參數(shù),自動(dòng)解碼器對(duì)訓(xùn)練集中每個(gè)人物個(gè)體擬合出一個(gè)結(jié)構(gòu)化 UV latent。該過程的難點(diǎn)在于如何把不同姿態(tài)、不同相機(jī)視角、不同著裝的人物圖像擬合到統(tǒng)一的 UV latent 中,為此 StructLDM 提出了結(jié)構(gòu)化局部 NeRF 對(duì)身體每個(gè)部位分別建模,并通過全局風(fēng)格混合器把身體各部分合并在一起,學(xué)習(xí)整體的人物外觀。此外,為解決姿態(tài)估計(jì)誤差問題,自動(dòng)解碼器訓(xùn)練過程中引入了對(duì)抗式學(xué)習(xí)。在這一階段,自動(dòng)解碼器把訓(xùn)練集中每個(gè)人物個(gè)體轉(zhuǎn)化為一系列 UV latent。
-
結(jié)構(gòu)擴(kuò)散模型:該擴(kuò)散模型學(xué)習(xí)第一階段得到的 UV latent 空間,以此學(xué)習(xí)人體三維先驗(yàn)。
在推理階段,StructLDM 可隨機(jī)生成三維數(shù)字人:隨機(jī)采樣噪聲并去噪得到 UV latent,該 latent 可被自動(dòng)解碼器渲染為人體圖像。
實(shí)驗(yàn)結(jié)果
該研究在 4 個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)評(píng)估:單視角圖像數(shù)據(jù)集?DeepFashion?[Liu et al. 2016],視頻數(shù)據(jù)集 UBCFashion [Zablotskaia et al. 2019],真實(shí)三維人體數(shù)據(jù)集 THUman 2.0 [Yu et al. 2021], 及虛擬三維人體數(shù)據(jù)集 RenderPeople。
3.1 定性結(jié)果比較
StructLDM 在 UBCFashion 數(shù)據(jù)集上與已有 3D GAN 方法做了對(duì)比,如 EVA3D、 AG3D 及 StyleSDF。相比于已有方法,StructLDM 可生成高質(zhì)量、多樣化、視角一致的三維數(shù)字人,如不同膚色、不同發(fā)型,以及服飾細(xì)節(jié)(如高跟鞋)。
StructLDM 在 RenderPeople 數(shù)據(jù)集上與已有 3D GAN 方法(如 EG3D, StyleSDF, 及 EVA3D)及擴(kuò)散模型 PrimDiff 對(duì)比。相比于已有方法,StructLDM 可生成不同姿態(tài)、不同外觀的高質(zhì)量三維數(shù)字人,并生成高質(zhì)量面部細(xì)節(jié)。
,時(shí)長00:24
3.2 定量結(jié)果比較
研究者在 UBCFashion, RenderPeople,及 THUman 2.0 上與已知方法做了定量結(jié)果比較,在每個(gè)數(shù)據(jù)集上隨機(jī)選取 5 萬張圖像計(jì)算 FID ,StructLDM 可大幅降低 FID。此外,User Study 顯示大約 73% 的用戶認(rèn)為 StructLDM 生成的結(jié)果在面部細(xì)節(jié)和全身圖像質(zhì)量上比 AG3D 更有優(yōu)勢(shì)。
3.3 應(yīng)用
3.3.1 可控性生成
StructLDM 支持可控性生成,如相機(jī)視角、姿態(tài)、體型控制,以及三維虛擬試衣,并可在二維隱空間插值。
3.3.2 組合式生成
StructLDM 支持組合式生成,如把①②③④⑤部分組合起來可生成新的數(shù)字人,并支持不同的編輯任務(wù),如身份編輯、衣袖(4)、裙子(5)、三維虛擬試衣(6)以及全身風(fēng)格化(7)。
,時(shí)長00:25
3.3.3 編輯互聯(lián)網(wǎng)圖片
StructLDM 可對(duì)互聯(lián)網(wǎng)圖片進(jìn)行編輯,首先通過 Inversion 技術(shù)得到對(duì)應(yīng)的 UV latent,然后通過 UV latent 編輯可對(duì)生成的數(shù)字人進(jìn)行編輯,如編輯鞋、上衣、褲子等。
3.4 消融實(shí)驗(yàn)
3.4.1 隱空間擴(kuò)散
StructLDM 提出的隱空間擴(kuò)散模型可用于不同編輯任務(wù),如組合式生成。下圖探究了擴(kuò)散模型參數(shù)(如擴(kuò)散步數(shù)和噪聲尺度)對(duì)生成結(jié)果的影響。StructLDM 可通過控制擴(kuò)散模型參數(shù)來提高生成效果。
3.4.2 一維與二維人體表征
研究者對(duì)比了一維與二維 latent 人體表征效果,發(fā)現(xiàn)二維 latent 可生成高頻細(xì)節(jié)(如衣服紋理及面部表情),加入對(duì)抗式學(xué)習(xí)可同時(shí)提高圖片質(zhì)量和保真度。
3.4.3 結(jié)構(gòu)感知的歸一化
為提高擴(kuò)散模型學(xué)習(xí)效率,StructLDM 提出了結(jié)構(gòu)感知的 latent 歸一化技術(shù) (structure-aligned normalization),即對(duì)每個(gè) latent 做逐像素歸一化。研究發(fā)現(xiàn),歸一化后的 latent 分布更接近于高斯分布,以此更利于擴(kuò)散模型的學(xué)習(xí)。
?
點(diǎn)擊訪問我的技術(shù)博客https://ai.weoknow.comhttps://ai.weoknow.com