當(dāng)前位置：首頁(yè) > news >正文

織夢(mèng)手機(jī)網(wǎng)站制作教程seo站長(zhǎng)平臺(tái)

news 2025/7/13 17:24:59

織夢(mèng)手機(jī)網(wǎng)站制作教程,seo站長(zhǎng)平臺(tái),如何讓百度抓取網(wǎng)站,高端網(wǎng)站建設(shè) 南京? 摘要視頻延展(Video Outpainting)是對(duì)視頻的邊界進(jìn)行擴(kuò)展的任務(wù)。與圖像延展不同，視頻延展需要考慮到填充區(qū)域的時(shí)序一致性，這使得問題更具挑戰(zhàn)性。在本文中，我們介紹了一個(gè)新穎的基于擴(kuò)散模型的視頻尺寸延展方法——分層遮掩3D擴(kuò)散模型(…

? 摘要

視頻延展(Video Outpainting)是對(duì)視頻的邊界進(jìn)行擴(kuò)展的任務(wù)。與圖像延展不同，視頻延展需要考慮到填充區(qū)域的時(shí)序一致性，這使得問題更具挑戰(zhàn)性。在本文中，我們介紹了一個(gè)新穎的基于擴(kuò)散模型的視頻尺寸延展方法——分層遮掩3D擴(kuò)散模型(Hierarchical Masked 3D Diffusion Model, M3DDM)。通過遮掩建模的訓(xùn)練方法以及把全局視頻片段引入交叉注意力層，該模型不僅能夠通過引導(dǎo)幀的技術(shù)來保證在多次推理的視頻片段中確保時(shí)序一致性，還能降低相鄰幀之間的抖動(dòng)。此外，我們還提出了一種混合由粗到細(xì)(Hybrid Coarse-to-Fine)的推理流程來減輕長(zhǎng)視頻延展中的錯(cuò)誤累積問題。我們的方法在視頻延展任務(wù)中取得了最先進(jìn)的結(jié)果。該視頻尺寸延展算法已在阿里媽媽創(chuàng)意中心上線，同時(shí)基于該項(xiàng)工作整理的論文已發(fā)表在 ACM MM2023 ，相關(guān)代碼現(xiàn)已開源，歡迎大家關(guān)注。

論文題目：Hierarchical Masked 3D Diffusion Model for Video Outpainting

論文下載：https://arxiv.org/abs/2309.02119

項(xiàng)目主頁(yè)：https://fanfanda.github.io/M3DDM/

代碼鏈接：https://github.com/alimama-creative/M3DDM-Video-Outpainting

1. 背景介紹

表1: 我們M3DDM算法在垂直、水平以及四周方向的視頻延展結(jié)果

在我們電商場(chǎng)景中，廣告主提供的視頻素材存在不適配 APP 展示區(qū)域的尺寸的情況。直接拉伸素材視頻容易導(dǎo)致展示效果變差，因此我們可以采用視頻延展的算法來擴(kuò)展素材視頻的邊界，使得延展之后的視頻的長(zhǎng)寬比適配我們的廣告展示區(qū)域的尺寸。表一分別展示了我們M3DDM算法在垂直、水平以及四周方向的視頻延展結(jié)果?？紤]到廣告主的視頻長(zhǎng)度普遍大于10s，視頻延展任務(wù)與圖像延展任務(wù)相比，帶來了以下額外的兩個(gè)挑戰(zhàn)：1). 考慮到 GPU 的顯存，我們?cè)谕评黼A段需要把視頻分成多個(gè)片段來預(yù)測(cè)。如何保證多個(gè)片段間的時(shí)序一致性？2). 長(zhǎng)視頻延展存在錯(cuò)誤累積的問題。

2. 解決方案

為了解決上述的兩個(gè)挑戰(zhàn)，我們?cè)谖闹刑岢隽艘韵录夹g(shù): 1). 我們基于2D圖像擴(kuò)散模型——Stable Diffusion [1]的參數(shù)先驗(yàn)構(gòu)建了3D視頻擴(kuò)散模型。；2). 我們采用引導(dǎo)幀的方式來連接同一視頻的多個(gè)片段，為此我們提出了一種新的遮掩策略來訓(xùn)練3D視頻擴(kuò)散模型；3). 為了更好的保持時(shí)序一致性，我們從視頻中抽取了全局幀，經(jīng)過編碼后，放入了模型的交叉注意力層。這使得模型能夠在預(yù)測(cè)當(dāng)前視頻片段時(shí)，感知到全局的視頻信息，以期望在有空間信息重疊時(shí)，模型能夠填補(bǔ)更加合理的結(jié)果。4). 我們提出了一種混合策略的 Coarse-to-Fine 的推理流水線來緩解長(zhǎng)視頻錯(cuò)誤累積的問題。我們將分別從訓(xùn)練(2.1)和推理(2.2)兩方面來講解算法細(xì)節(jié)。

2.1 訓(xùn)練: 遮掩擴(kuò)散3D模型

圖1: M3DDM訓(xùn)練框架圖

我們?cè)趫D1展示了M3DDM的訓(xùn)練過程。我們的方法是基于擴(kuò)散模型 [2, 3, 4]的。擴(kuò)散模型是一類生成式模型，它對(duì)原始分布加噪并通過一個(gè)深度網(wǎng)絡(luò)來預(yù)測(cè)噪聲的方式來訓(xùn)練一個(gè)去噪網(wǎng)絡(luò)，以便于在推理階段，我們能夠從標(biāo)準(zhǔn)正態(tài)分布隨機(jī)采樣一個(gè)噪聲來逐步推理原始數(shù)據(jù)分布。在視頻延展場(chǎng)景中，我們?cè)谟?xùn)練階段要學(xué)習(xí)一個(gè)3D U-Net [5]的去噪網(wǎng)絡(luò)去擬合視頻樣本中的噪聲。我們網(wǎng)絡(luò)的輸入是添加了次高斯分布噪聲的視頻樣本、二值的掩碼來指示哪部分區(qū)域是需要被填充的以及遮掩過后的視頻，同時(shí)在交叉注意力層輸入全局的視頻幀(遮掩過后的，避免泄漏)，輸出是添加的高斯噪聲。降噪網(wǎng)絡(luò)通過以下?lián)p失函數(shù)進(jìn)行訓(xùn)練:

其中是我們的條件輸入。我們將在下面的小節(jié)分別介紹主體的網(wǎng)絡(luò)結(jié)構(gòu)，訓(xùn)練的遮掩策略以及如何用全局幀為提示來訓(xùn)練網(wǎng)絡(luò)。

2.1.1 以Stable Diffusion模型參數(shù)為先驗(yàn)

我們的視頻延展方法基于Stable Diffusion [1]。Stable Diffusion是一個(gè)文本到圖像的潛在擴(kuò)散模型。選擇它在這里有兩大好處：

它們?cè)跐撛诳臻g而非像素空間對(duì)視頻幀進(jìn)行編碼，因此需要更少的內(nèi)存并且能夠?qū)崿F(xiàn)更好的效率；
2D圖像擴(kuò)散模型的參數(shù)先驗(yàn)有利于我們?cè)谝曨l延展任務(wù)的快速收斂。

為了使其原始的Stable Diffusion的網(wǎng)絡(luò)適應(yīng)我們的視頻延展任務(wù)，我們?cè)黾恿肆藭r(shí)序卷積，同時(shí)修改了自注意力層以及交叉注意力層來確保不同幀之間的交互。

2.1.2 遮掩策略

為了構(gòu)建視頻延展的訓(xùn)練樣本，我們隨機(jī)地遮掩每個(gè)幀的邊緣部分。我們采用不同方向策略對(duì)幀進(jìn)行遮蔽：全方向、單一方向、雙向（左右或上下）、任意四個(gè)方向中的隨機(jī)一個(gè)方向，以及全遮掩?？紤]到實(shí)際應(yīng)用場(chǎng)景，我們分別采用這五種策略的比例為0.2、0.1、0.35、0.1和0.25?！叭谘凇辈呗允鼓Ｐ湍軌蜻M(jìn)行無條件生成，這允許我們?cè)谕评黼A段采用無分類器引導(dǎo)技術(shù) [6]?？紤]到實(shí)際應(yīng)用場(chǎng)景中需要外部延展的邊緣區(qū)域的大小，我們均勻地從[0.15, 0.75]中隨機(jī)采樣幀的遮掩比例。我們稱遮掩過后的幀為上下文幀。

為了能夠在推理階段使用引導(dǎo)幀，我們?cè)诿恳粋€(gè)訓(xùn)練batch中，用以下三種模式中的一種：

所有幀僅給出上下文信息，每個(gè)幀都采用上述遮掩策略。
第一幀或第一和最后一幀被原始未遮掩的幀替換，其余幀僅給出上下文信息。
任何幀都有0.5的概率被未遮掩的原始幀替換。

這些訓(xùn)練模式允許模型不僅基于上下文信息預(yù)測(cè)邊緣區(qū)域，還基于相鄰的引導(dǎo)幀。相鄰的引導(dǎo)幀可以幫助生成更連貫、抖動(dòng)更少的結(jié)果。我們平均三種情況的訓(xùn)練比例。這三種情況的比例分別是0.3、0.35和0.35。我們不僅僅使用第3種模式進(jìn)行訓(xùn)練，因?yàn)槲覀兛紤]到在預(yù)測(cè)階段前兩種情況可能會(huì)更頻繁地使用。

2.1.3 用全局幀為提示

為了使模型能夠感知當(dāng)前片段之外的全局視頻信息，我們均勻地從視頻中采樣16幀。這些全局幀通過一個(gè)可學(xué)習(xí)的輕量級(jí)編碼器來獲取特征圖，然后通過交叉注意力機(jī)制輸入到3D-UNet中。我們沒有在3D-UNet的輸入層中加入全局幀，因?yàn)槲覀冋J(rèn)為交叉注意力可以使模型更加關(guān)注遮掩的幀與全局幀的交互，而不是全局幀自己的交互。值得注意的是，在這里輸入的全局幀與當(dāng)前視頻片段的遮掩策略對(duì)齊，并且與其他幀一樣采用相同的方式進(jìn)行遮蔽，以避免信息泄露。

2.2 推理: 混合由粗到細(xì)的推理流水線

圖2: 我們混合由粗到細(xì)的推理流水線，我們?cè)趫D像上方標(biāo)注了視頻幀的序號(hào)

在長(zhǎng)視頻延展中，我們往往需要對(duì)視頻進(jìn)行上百次的推理拼接，前面片段生成的壞結(jié)果由于引導(dǎo)幀的作用會(huì)持續(xù)累積到后面的片段中。為了緩解這個(gè)問題，我們提出了混合由粗到細(xì)(Hybrid Coarse-to-Fine)的推理流水線。如圖2所示，我們的推理流水線先稀疏的生成關(guān)鍵幀，再根據(jù)關(guān)鍵幀填補(bǔ)更多的中間結(jié)果，最后采用前后引導(dǎo)幀的形式密集的對(duì)視頻未填充的部分進(jìn)行填補(bǔ)。由于關(guān)鍵幀的間隔比較大，因此我們的方法可以以較少的迭代次數(shù)生成視頻的關(guān)鍵幀，從而有效的緩解了錯(cuò)誤累積的問題。與傳統(tǒng)的只包含了無條件(Uncondition)和前后引導(dǎo)(Infilling)策略的方法比，我們的混合策略引入了插值(Interplotation)的方式，緩解了3級(jí)結(jié)構(gòu)中第一級(jí)結(jié)構(gòu)中關(guān)鍵幀間距過大帶來的效果退化。

3. 實(shí)驗(yàn)分析

圖3: 定量評(píng)估

我們?cè)趫D3中展示了我們的M3DDM在Davis和YouTube-VOS數(shù)據(jù)集與Dehan [7]和簡(jiǎn)單的擴(kuò)散模型的方案 [1](Simple Diffusion Model)方法的定量對(duì)比。我們測(cè)試了水平方向的視頻延展，遮掩比例為0.25以及0.666。我們?cè)?56的分辨率下計(jì)算了這5個(gè)評(píng)價(jià)指標(biāo)在所有視頻樣本的平均值(FVD是整體計(jì)算的)。可以看出我們的方案顯著的優(yōu)越于基于flow預(yù)測(cè)的Dehan [7]和SDM [1]。

圖4: 定性評(píng)估

我們?cè)趫D4展示了我們的M3DDM與Dehan [7]和SDM [1]的定性評(píng)估?？梢钥闯鑫覀兊姆椒軌蚋玫谋ＷC時(shí)序一致性，生成更連貫合理的視頻結(jié)果。更多的定性評(píng)估可以參考我們的論文和項(xiàng)目主頁(yè)。

4. 算法落地

該算法已在阿里媽媽-創(chuàng)意中心（https://chuangyi.taobao.com/）素材庫(kù)上線，商家可以對(duì)素材庫(kù)中的視頻以外擴(kuò)的形式進(jìn)行多種尺寸修改，以適配各種尺寸的廣告位，提升廣告的流量覆蓋。

圖5：阿里媽媽-創(chuàng)意中心尺寸魔方

5. 總結(jié)

在本文中，我們提出了一種基于遮掩建模的3D擴(kuò)散模型，用于視頻延展(Video Outpainting)。我們使用遮掩建模的學(xué)習(xí)策略并將全局視頻片段的編碼作為交叉注意力層的輸入。遮掩建模的雙向?qū)W習(xí)方法使我們?cè)谕评黼A段可以有更靈活的策略，同時(shí)更好地感知相鄰幀的信息。添加全局視頻片段作為提示進(jìn)一步提高了我們方法的性能。在大多數(shù)攝像機(jī)移動(dòng)和前景主體滑動(dòng)的情況下，全局視頻片段幫助模型在待填充區(qū)域生成更合理的結(jié)果。我們還提出了一種用于視頻延展的混合由粗到細(xì)的推理流水線，它結(jié)合了前后引導(dǎo)和插值策略，以避免由于多級(jí)結(jié)構(gòu)對(duì)齊問題而在最粗糙階段產(chǎn)生的關(guān)鍵幀之間的大時(shí)間間隔問題。實(shí)驗(yàn)表明，該方法已達(dá)到較為先進(jìn)的結(jié)果。目前，該算法已在阿里媽媽創(chuàng)意中心素材庫(kù)上線，相關(guān)代碼已開源，歡迎關(guān)注&試用體驗(yàn)。

? 關(guān)于我們

我們是阿里媽媽智能創(chuàng)作與AI應(yīng)用團(tuán)隊(duì)，專注于圖片、視頻、文案等各種形式創(chuàng)意的智能制作與投放，產(chǎn)品覆蓋阿里媽媽內(nèi)外多條業(yè)務(wù)線，歡迎各業(yè)務(wù)方關(guān)注與業(yè)務(wù)合作。同時(shí)，真誠(chéng)歡迎具備CV、NLP相關(guān)背景同學(xué)加入，一起擁抱 AIGC 時(shí)代！感興趣同學(xué)歡迎投遞簡(jiǎn)歷加入我們。

投遞鏈接（點(diǎn)擊下方↓閱讀原文）：https://talent.taotian.com/off-campus/position-detail?lang=zh&positionId=1049709

? 參考文獻(xiàn)

[1] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bj?rn Ommer. 2022. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 10684–10695.

[2] Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. 2015. Deep unsupervised learning using nonequilibrium thermodynamics. In International Conference on Machine Learning. PMLR, 2256–2265.

[3] Jonathan Ho, Ajay Jain, and Pieter Abbeel. 2020. Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems 33 (2020), 6840–6851.

[4] Alexander Quinn Nichol and Prafulla Dhariwal. 2021. Improved denoising diffusion probabilistic models. In International Conference on Machine Learning. PMLR, 8162–8171.

[5] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. 2015. U-net: Convolu- tional networks for biomedical image segmentation. In Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III 18. Springer, 234–241.

[6] Jonathan Ho and Tim Salimans. 2022. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598 (2022).

[7] Lo?c Dehan, Wiebe Van Ranst, Patrick Vandewalle, and Toon Goedemé. 2022. Complete and temporally consistent video outpainting. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 687–695.

END

也許你還想看

🔥《計(jì)算機(jī)視覺 in 阿里媽媽》文章合集

丨ACM MM’23 | 4篇論文解析阿里媽媽廣告創(chuàng)意算法最新進(jìn)展

丨營(yíng)銷文案的“瑞士軍刀”：阿里媽媽智能文案多模態(tài)、多場(chǎng)景探索

丨實(shí)現(xiàn)"模板自由"？阿里媽媽全自動(dòng)無模板圖文創(chuàng)意生成

丨告別拼接模板 —— 阿里媽媽動(dòng)態(tài)描述廣告創(chuàng)意

丨如何快速選對(duì)創(chuàng)意 —— 阿里媽媽廣告創(chuàng)意優(yōu)選

丨化繁為簡(jiǎn)，精工細(xì)作——阿里媽媽直播智能剪輯技術(shù)詳解

丨CVPR 2023 | 基于內(nèi)容融合的字體生成方法

丨CVPR 2023 | 基于無監(jiān)督域自適應(yīng)方法的海報(bào)布局生成

關(guān)注「阿里媽媽技術(shù)」，了解更多~

喜歡要“分享”，好看要“點(diǎn)贊”哦?~

查看全文

http://m.risenshineclean.com/news/61731.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网