織夢(mèng)手機(jī)網(wǎng)站制作教程seo站長(zhǎng)平臺(tái)
? 摘要
視頻延展(Video Outpainting)是對(duì)視頻的邊界進(jìn)行擴(kuò)展的任務(wù)。與圖像延展不同,視頻延展需要考慮到填充區(qū)域的時(shí)序一致性,這使得問題更具挑戰(zhàn)性。在本文中,我們介紹了一個(gè)新穎的基于擴(kuò)散模型的視頻尺寸延展方法——分層遮掩3D擴(kuò)散模型(Hierarchical Masked 3D Diffusion Model, M3DDM)。通過遮掩建模的訓(xùn)練方法以及把全局視頻片段引入交叉注意力層,該模型不僅能夠通過引導(dǎo)幀的技術(shù)來保證在多次推理的視頻片段中確保時(shí)序一致性,還能降低相鄰幀之間的抖動(dòng)。此外,我們還提出了一種混合由粗到細(xì)(Hybrid Coarse-to-Fine)的推理流程來減輕長(zhǎng)視頻延展中的錯(cuò)誤累積問題。我們的方法在視頻延展任務(wù)中取得了最先進(jìn)的結(jié)果。該視頻尺寸延展算法已在阿里媽媽創(chuàng)意中心上線,同時(shí)基于該項(xiàng)工作整理的論文已發(fā)表在 ACM MM2023 ,相關(guān)代碼現(xiàn)已開源,歡迎大家關(guān)注。
論文題目:Hierarchical Masked 3D Diffusion Model for Video Outpainting
論文下載:https://arxiv.org/abs/2309.02119
項(xiàng)目主頁(yè):https://fanfanda.github.io/M3DDM/
代碼鏈接:https://github.com/alimama-creative/M3DDM-Video-Outpainting
1. 背景介紹
表1: 我們M3DDM算法在垂直、水平以及四周方向的視頻延展結(jié)果
在我們電商場(chǎng)景中,廣告主提供的視頻素材存在不適配 APP 展示區(qū)域的尺寸的情況。直接拉伸素材視頻容易導(dǎo)致展示效果變差,因此我們可以采用視頻延展的算法來擴(kuò)展素材視頻的邊界,使得延展之后的視頻的長(zhǎng)寬比適配我們的廣告展示區(qū)域的尺寸。表一分別展示了我們M3DDM算法在垂直、水平以及四周方向的視頻延展結(jié)果??紤]到廣告主的視頻長(zhǎng)度普遍大于10s,視頻延展任務(wù)與圖像延展任務(wù)相比,帶來了以下額外的兩個(gè)挑戰(zhàn):1). 考慮到 GPU 的顯存,我們?cè)谕评黼A段需要把視頻分成多個(gè)片段來預(yù)測(cè)。如何保證多個(gè)片段間的時(shí)序一致性?2). 長(zhǎng)視頻延展存在錯(cuò)誤累積的問題。
2. 解決方案
為了解決上述的兩個(gè)挑戰(zhàn),我們?cè)谖闹刑岢隽艘韵录夹g(shù): 1). 我們基于2D圖像擴(kuò)散模型——Stable Diffusion [1]的參數(shù)先驗(yàn)構(gòu)建了3D視頻擴(kuò)散模型。;2). 我們采用引導(dǎo)幀的方式來連接同一視頻的多個(gè)片段,為此我們提出了一種新的遮掩策略來訓(xùn)練3D視頻擴(kuò)散模型;3). 為了更好的保持時(shí)序一致性,我們從視頻中抽取了全局幀,經(jīng)過編碼后,放入了模型的交叉注意力層。這使得模型能夠在預(yù)測(cè)當(dāng)前視頻片段時(shí),感知到全局的視頻信息,以期望在有空間信息重疊時(shí),模型能夠填補(bǔ)更加合理的結(jié)果。4). 我們提出了一種混合策略的 Coarse-to-Fine 的推理流水線來緩解長(zhǎng)視頻錯(cuò)誤累積的問題。我們將分別從訓(xùn)練(2.1)和推理(2.2)兩方面來講解算法細(xì)節(jié)。
2.1 訓(xùn)練: 遮掩擴(kuò)散3D模型

我們?cè)趫D1展示了M3DDM的訓(xùn)練過程。我們的方法是基于擴(kuò)散模型 [2, 3, 4]的。擴(kuò)散模型是一類生成式模型,它對(duì)原始分布加噪并通過一個(gè)深度網(wǎng)絡(luò)來預(yù)測(cè)噪聲的方式來訓(xùn)練一個(gè)去噪網(wǎng)絡(luò),以便于在推理階段,我們能夠從標(biāo)準(zhǔn)正態(tài)分布隨機(jī)采樣一個(gè)噪聲來逐步推理原始數(shù)據(jù)分布。在視頻延展場(chǎng)景中,我們?cè)谟?xùn)練階段要學(xué)習(xí)一個(gè)3D U-Net [5]的去噪網(wǎng)絡(luò)去擬合視頻樣本中的噪聲。我們網(wǎng)絡(luò)的輸入是添加了次高斯分布噪聲的視頻樣本、二值的掩碼來指示哪部分區(qū)域是需要被填充的以及遮掩過后的視頻,同時(shí)在交叉注意力層輸入全局的視頻幀(遮掩過后的,避免泄漏),輸出是添加的高斯噪聲。降噪網(wǎng)絡(luò)通過以下?lián)p失函數(shù)進(jìn)行訓(xùn)練:
其中是我們的條件輸入。我們將在下面的小節(jié)分別介紹主體的網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練的遮掩策略以及如何用全局幀為提示來訓(xùn)練網(wǎng)絡(luò)。
2.1.1 以Stable Diffusion模型參數(shù)為先驗(yàn)
我們的視頻延展方法基于Stable Diffusion [1]。Stable Diffusion是一個(gè)文本到圖像的潛在擴(kuò)散模型。選擇它在這里有兩大好處:
它們?cè)跐撛诳臻g而非像素空間對(duì)視頻幀進(jìn)行編碼,因此需要更少的內(nèi)存并且能夠?qū)崿F(xiàn)更好的效率;
2D圖像擴(kuò)散模型的參數(shù)先驗(yàn)有利于我們?cè)谝曨l延展任務(wù)的快速收斂。
為了使其原始的Stable Diffusion的網(wǎng)絡(luò)適應(yīng)我們的視頻延展任務(wù),我們?cè)黾恿肆藭r(shí)序卷積,同時(shí)修改了自注意力層以及交叉注意力層來確保不同幀之間的交互。
2.1.2 遮掩策略
為了構(gòu)建視頻延展的訓(xùn)練樣本,我們隨機(jī)地遮掩每個(gè)幀的邊緣部分。我們采用不同方向策略對(duì)幀進(jìn)行遮蔽:全方向、單一方向、雙向(左右或上下)、任意四個(gè)方向中的隨機(jī)一個(gè)方向,以及全遮掩??紤]到實(shí)際應(yīng)用場(chǎng)景,我們分別采用這五種策略的比例為0.2、0.1、0.35、0.1和0.25?!叭谘凇辈呗允鼓P湍軌蜻M(jìn)行無條件生成,這允許我們?cè)谕评黼A段采用無分類器引導(dǎo)技術(shù) [6]??紤]到實(shí)際應(yīng)用場(chǎng)景中需要外部延展的邊緣區(qū)域的大小,我們均勻地從[0.15, 0.75]中隨機(jī)采樣幀的遮掩比例。我們稱遮掩過后的幀為上下文幀。
為了能夠在推理階段使用引導(dǎo)幀,我們?cè)诿恳粋€(gè)訓(xùn)練batch中,用以下三種模式中的一種:
所有幀僅給出上下文信息,每個(gè)幀都采用上述遮掩策略。
第一幀或第一和最后一幀被原始未遮掩的幀替換,其余幀僅給出上下文信息。
任何幀都有0.5的概率被未遮掩的原始幀替換。
這些訓(xùn)練模式允許模型不僅基于上下文信息預(yù)測(cè)邊緣區(qū)域,還基于相鄰的引導(dǎo)幀。相鄰的引導(dǎo)幀可以幫助生成更連貫、抖動(dòng)更少的結(jié)果。我們平均三種情況的訓(xùn)練比例。這三種情況的比例分別是0.3、0.35和0.35。我們不僅僅使用第3種模式進(jìn)行訓(xùn)練,因?yàn)槲覀兛紤]到在預(yù)測(cè)階段前兩種情況可能會(huì)更頻繁地使用。
2.1.3 用全局幀為提示
為了使模型能夠感知當(dāng)前片段之外的全局視頻信息,我們均勻地從視頻中采樣16幀。這些全局幀通過一個(gè)可學(xué)習(xí)的輕量級(jí)編碼器來獲取特征圖,然后通過交叉注意力機(jī)制輸入到3D-UNet中。我們沒有在3D-UNet的輸入層中加入全局幀,因?yàn)槲覀冋J(rèn)為交叉注意力可以使模型更加關(guān)注遮掩的幀與全局幀的交互,而不是全局幀自己的交互。值得注意的是,在這里輸入的全局幀與當(dāng)前視頻片段的遮掩策略對(duì)齊,并且與其他幀一樣采用相同的方式進(jìn)行遮蔽,以避免信息泄露。
2.2 推理: 混合由粗到細(xì)的推理流水線

在長(zhǎng)視頻延展中,我們往往需要對(duì)視頻進(jìn)行上百次的推理拼接,前面片段生成的壞結(jié)果由于引導(dǎo)幀的作用會(huì)持續(xù)累積到后面的片段中。為了緩解這個(gè)問題,我們提出了混合由粗到細(xì)(Hybrid Coarse-to-Fine)的推理流水線。如圖2所示,我們的推理流水線先稀疏的生成關(guān)鍵幀,再根據(jù)關(guān)鍵幀填補(bǔ)更多的中間結(jié)果,最后采用前后引導(dǎo)幀的形式密集的對(duì)視頻未填充的部分進(jìn)行填補(bǔ)。由于關(guān)鍵幀的間隔比較大,因此我們的方法可以以較少的迭代次數(shù)生成視頻的關(guān)鍵幀,從而有效的緩解了錯(cuò)誤累積的問題。與傳統(tǒng)的只包含了無條件(Uncondition)和前后引導(dǎo)(Infilling)策略的方法比,我們的混合策略引入了插值(Interplotation)的方式,緩解了3級(jí)結(jié)構(gòu)中第一級(jí)結(jié)構(gòu)中關(guān)鍵幀間距過大帶來的效果退化。
3. 實(shí)驗(yàn)分析

我們?cè)趫D3中展示了我們的M3DDM在Davis和YouTube-VOS數(shù)據(jù)集與Dehan [7]和簡(jiǎn)單的擴(kuò)散模型的方案 [1](Simple Diffusion Model)方法的定量對(duì)比。我們測(cè)試了水平方向的視頻延展,遮掩比例為0.25以及0.666。我們?cè)?56的分辨率下計(jì)算了這5個(gè)評(píng)價(jià)指標(biāo)在所有視頻樣本的平均值(FVD是整體計(jì)算的)。可以看出我們的方案顯著的優(yōu)越于基于flow預(yù)測(cè)的Dehan [7]和SDM [1]。

我們?cè)趫D4展示了我們的M3DDM與Dehan [7]和SDM [1]的定性評(píng)估??梢钥闯鑫覀兊姆椒軌蚋玫谋WC時(shí)序一致性,生成更連貫合理的視頻結(jié)果。更多的定性評(píng)估可以參考我們的論文和項(xiàng)目主頁(yè)。
4. 算法落地
該算法已在阿里媽媽-創(chuàng)意中心(https://chuangyi.taobao.com/)素材庫(kù)上線,商家可以對(duì)素材庫(kù)中的視頻以外擴(kuò)的形式進(jìn)行多種尺寸修改,以適配各種尺寸的廣告位,提升廣告的流量覆蓋。

5. 總結(jié)
在本文中,我們提出了一種基于遮掩建模的3D擴(kuò)散模型,用于視頻延展(Video Outpainting)。我們使用遮掩建模的學(xué)習(xí)策略并將全局視頻片段的編碼作為交叉注意力層的輸入。遮掩建模的雙向?qū)W習(xí)方法使我們?cè)谕评黼A段可以有更靈活的策略,同時(shí)更好地感知相鄰幀的信息。添加全局視頻片段作為提示進(jìn)一步提高了我們方法的性能。在大多數(shù)攝像機(jī)移動(dòng)和前景主體滑動(dòng)的情況下,全局視頻片段幫助模型在待填充區(qū)域生成更合理的結(jié)果。我們還提出了一種用于視頻延展的混合由粗到細(xì)的推理流水線,它結(jié)合了前后引導(dǎo)和插值策略,以避免由于多級(jí)結(jié)構(gòu)對(duì)齊問題而在最粗糙階段產(chǎn)生的關(guān)鍵幀之間的大時(shí)間間隔問題。實(shí)驗(yàn)表明,該方法已達(dá)到較為先進(jìn)的結(jié)果。目前,該算法已在阿里媽媽創(chuàng)意中心素材庫(kù)上線,相關(guān)代碼已開源,歡迎關(guān)注&試用體驗(yàn)。
? 關(guān)于我們
我們是阿里媽媽智能創(chuàng)作與AI應(yīng)用團(tuán)隊(duì),專注于圖片、視頻、文案等各種形式創(chuàng)意的智能制作與投放,產(chǎn)品覆蓋阿里媽媽內(nèi)外多條業(yè)務(wù)線,歡迎各業(yè)務(wù)方關(guān)注與業(yè)務(wù)合作。同時(shí),真誠(chéng)歡迎具備CV、NLP相關(guān)背景同學(xué)加入,一起擁抱 AIGC 時(shí)代!感興趣同學(xué)歡迎投遞簡(jiǎn)歷加入我們。
投遞鏈接(點(diǎn)擊下方↓閱讀原文):https://talent.taotian.com/off-campus/position-detail?lang=zh&positionId=1049709
? 參考文獻(xiàn)
[1] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bj?rn Ommer. 2022. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 10684–10695.
[2] Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. 2015. Deep unsupervised learning using nonequilibrium thermodynamics. In International Conference on Machine Learning. PMLR, 2256–2265.
[3] Jonathan Ho, Ajay Jain, and Pieter Abbeel. 2020. Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems 33 (2020), 6840–6851.
[4] Alexander Quinn Nichol and Prafulla Dhariwal. 2021. Improved denoising diffusion probabilistic models. In International Conference on Machine Learning. PMLR, 8162–8171.
[5] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. 2015. U-net: Convolu- tional networks for biomedical image segmentation. In Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III 18. Springer, 234–241.
[6] Jonathan Ho and Tim Salimans. 2022. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598 (2022).
[7] Lo?c Dehan, Wiebe Van Ranst, Patrick Vandewalle, and Toon Goedemé. 2022. Complete and temporally consistent video outpainting. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 687–695.
END
也許你還想看
🔥《計(jì)算機(jī)視覺 in 阿里媽媽》文章合集
丨ACM MM’23 | 4篇論文解析阿里媽媽廣告創(chuàng)意算法最新進(jìn)展
丨營(yíng)銷文案的“瑞士軍刀”:阿里媽媽智能文案多模態(tài)、多場(chǎng)景探索
丨實(shí)現(xiàn)"模板自由"?阿里媽媽全自動(dòng)無模板圖文創(chuàng)意生成
丨告別拼接模板 —— 阿里媽媽動(dòng)態(tài)描述廣告創(chuàng)意
丨如何快速選對(duì)創(chuàng)意 —— 阿里媽媽廣告創(chuàng)意優(yōu)選
丨化繁為簡(jiǎn),精工細(xì)作——阿里媽媽直播智能剪輯技術(shù)詳解
丨CVPR 2023 | 基于內(nèi)容融合的字體生成方法
丨CVPR 2023 | 基于無監(jiān)督域自適應(yīng)方法的海報(bào)布局生成
關(guān)注「阿里媽媽技術(shù)」,了解更多~
喜歡要“分享”,好看要“點(diǎn)贊”哦?~