中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

織夢(mèng)手機(jī)網(wǎng)站制作教程seo站長(zhǎng)平臺(tái)

織夢(mèng)手機(jī)網(wǎng)站制作教程,seo站長(zhǎng)平臺(tái),如何讓百度抓取網(wǎng)站,高端網(wǎng)站建設(shè) 南京? 摘要 視頻延展(Video Outpainting)是對(duì)視頻的邊界進(jìn)行擴(kuò)展的任務(wù)。與圖像延展不同,視頻延展需要考慮到填充區(qū)域的時(shí)序一致性,這使得問題更具挑戰(zhàn)性。在本文中,我們介紹了一個(gè)新穎的基于擴(kuò)散模型的視頻尺寸延展方法——分層遮掩3D擴(kuò)散模型(…

? 摘要

視頻延展(Video Outpainting)是對(duì)視頻的邊界進(jìn)行擴(kuò)展的任務(wù)。與圖像延展不同,視頻延展需要考慮到填充區(qū)域的時(shí)序一致性,這使得問題更具挑戰(zhàn)性。在本文中,我們介紹了一個(gè)新穎的基于擴(kuò)散模型的視頻尺寸延展方法——分層遮掩3D擴(kuò)散模型(Hierarchical Masked 3D Diffusion Model, M3DDM)。通過遮掩建模的訓(xùn)練方法以及把全局視頻片段引入交叉注意力層,該模型不僅能夠通過引導(dǎo)幀的技術(shù)來保證在多次推理的視頻片段中確保時(shí)序一致性,還能降低相鄰幀之間的抖動(dòng)。此外,我們還提出了一種混合由粗到細(xì)(Hybrid Coarse-to-Fine)的推理流程來減輕長(zhǎng)視頻延展中的錯(cuò)誤累積問題。我們的方法在視頻延展任務(wù)中取得了最先進(jìn)的結(jié)果。該視頻尺寸延展算法已在阿里媽媽創(chuàng)意中心上線,同時(shí)基于該項(xiàng)工作整理的論文已發(fā)表在 ACM MM2023 ,相關(guān)代碼現(xiàn)已開源,歡迎大家關(guān)注。

論文題目:Hierarchical Masked 3D Diffusion Model for Video Outpainting

論文下載:https://arxiv.org/abs/2309.02119

項(xiàng)目主頁(yè):https://fanfanda.github.io/M3DDM/

代碼鏈接:https://github.com/alimama-creative/M3DDM-Video-Outpainting

1. 背景介紹

9ff932a754ac9040c9d94db2f2c423dc.gif

f08163db86618023a66fbbe395418314.gif

be466408bf209ee5acbdf1434ae5ba5a.gif

表1: 我們M3DDM算法在垂直、水平以及四周方向的視頻延展結(jié)果

在我們電商場(chǎng)景中,廣告主提供的視頻素材存在不適配 APP 展示區(qū)域的尺寸的情況。直接拉伸素材視頻容易導(dǎo)致展示效果變差,因此我們可以采用視頻延展的算法來擴(kuò)展素材視頻的邊界,使得延展之后的視頻的長(zhǎng)寬比適配我們的廣告展示區(qū)域的尺寸。表一分別展示了我們M3DDM算法在垂直、水平以及四周方向的視頻延展結(jié)果??紤]到廣告主的視頻長(zhǎng)度普遍大于10s,視頻延展任務(wù)與圖像延展任務(wù)相比,帶來了以下額外的兩個(gè)挑戰(zhàn):1). 考慮到 GPU 的顯存,我們?cè)谕评黼A段需要把視頻分成多個(gè)片段來預(yù)測(cè)。如何保證多個(gè)片段間的時(shí)序一致性?2). 長(zhǎng)視頻延展存在錯(cuò)誤累積的問題。

2. 解決方案

為了解決上述的兩個(gè)挑戰(zhàn),我們?cè)谖闹刑岢隽艘韵录夹g(shù): 1). 我們基于2D圖像擴(kuò)散模型——Stable Diffusion [1]的參數(shù)先驗(yàn)構(gòu)建了3D視頻擴(kuò)散模型。;2). 我們采用引導(dǎo)幀的方式來連接同一視頻的多個(gè)片段,為此我們提出了一種新的遮掩策略來訓(xùn)練3D視頻擴(kuò)散模型;3). 為了更好的保持時(shí)序一致性,我們從視頻中抽取了全局幀,經(jīng)過編碼后,放入了模型的交叉注意力層。這使得模型能夠在預(yù)測(cè)當(dāng)前視頻片段時(shí),感知到全局的視頻信息,以期望在有空間信息重疊時(shí),模型能夠填補(bǔ)更加合理的結(jié)果。4). 我們提出了一種混合策略的 Coarse-to-Fine 的推理流水線來緩解長(zhǎng)視頻錯(cuò)誤累積的問題。我們將分別從訓(xùn)練(2.1)和推理(2.2)兩方面來講解算法細(xì)節(jié)。

2.1 訓(xùn)練: 遮掩擴(kuò)散3D模型

69536d141aabbf3f9f0d70bb078d0ddc.png
圖1: M3DDM訓(xùn)練框架圖

我們?cè)趫D1展示了M3DDM的訓(xùn)練過程。我們的方法是基于擴(kuò)散模型 [2, 3, 4]的。擴(kuò)散模型是一類生成式模型,它對(duì)原始分布加噪并通過一個(gè)深度網(wǎng)絡(luò)來預(yù)測(cè)噪聲的方式來訓(xùn)練一個(gè)去噪網(wǎng)絡(luò),以便于在推理階段,我們能夠從標(biāo)準(zhǔn)正態(tài)分布隨機(jī)采樣一個(gè)噪聲來逐步推理原始數(shù)據(jù)分布。在視頻延展場(chǎng)景中,我們?cè)谟?xùn)練階段要學(xué)習(xí)一個(gè)3D U-Net [5]的去噪網(wǎng)絡(luò)去擬合視頻樣本中的噪聲。我們網(wǎng)絡(luò)的輸入是添加了次高斯分布噪聲的視頻樣本、二值的掩碼來指示哪部分區(qū)域是需要被填充的以及遮掩過后的視頻,同時(shí)在交叉注意力層輸入全局的視頻幀(遮掩過后的,避免泄漏),輸出是添加的高斯噪聲。降噪網(wǎng)絡(luò)通過以下?lián)p失函數(shù)進(jìn)行訓(xùn)練:

其中是我們的條件輸入。我們將在下面的小節(jié)分別介紹主體的網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練的遮掩策略以及如何用全局幀為提示來訓(xùn)練網(wǎng)絡(luò)。

2.1.1 以Stable Diffusion模型參數(shù)為先驗(yàn)

我們的視頻延展方法基于Stable Diffusion [1]。Stable Diffusion是一個(gè)文本到圖像的潛在擴(kuò)散模型。選擇它在這里有兩大好處:

  • 它們?cè)跐撛诳臻g而非像素空間對(duì)視頻幀進(jìn)行編碼,因此需要更少的內(nèi)存并且能夠?qū)崿F(xiàn)更好的效率;

  • 2D圖像擴(kuò)散模型的參數(shù)先驗(yàn)有利于我們?cè)谝曨l延展任務(wù)的快速收斂。

為了使其原始的Stable Diffusion的網(wǎng)絡(luò)適應(yīng)我們的視頻延展任務(wù),我們?cè)黾恿肆藭r(shí)序卷積,同時(shí)修改了自注意力層以及交叉注意力層來確保不同幀之間的交互。

2.1.2 遮掩策略

為了構(gòu)建視頻延展的訓(xùn)練樣本,我們隨機(jī)地遮掩每個(gè)幀的邊緣部分。我們采用不同方向策略對(duì)幀進(jìn)行遮蔽:全方向、單一方向、雙向(左右或上下)、任意四個(gè)方向中的隨機(jī)一個(gè)方向,以及全遮掩??紤]到實(shí)際應(yīng)用場(chǎng)景,我們分別采用這五種策略的比例為0.2、0.1、0.35、0.1和0.25?!叭谘凇辈呗允鼓P湍軌蜻M(jìn)行無條件生成,這允許我們?cè)谕评黼A段采用無分類器引導(dǎo)技術(shù) [6]??紤]到實(shí)際應(yīng)用場(chǎng)景中需要外部延展的邊緣區(qū)域的大小,我們均勻地從[0.15, 0.75]中隨機(jī)采樣幀的遮掩比例。我們稱遮掩過后的幀為上下文幀。

為了能夠在推理階段使用引導(dǎo)幀,我們?cè)诿恳粋€(gè)訓(xùn)練batch中,用以下三種模式中的一種:

  • 所有幀僅給出上下文信息,每個(gè)幀都采用上述遮掩策略。

  • 第一幀或第一和最后一幀被原始未遮掩的幀替換,其余幀僅給出上下文信息。

  • 任何幀都有0.5的概率被未遮掩的原始幀替換。

這些訓(xùn)練模式允許模型不僅基于上下文信息預(yù)測(cè)邊緣區(qū)域,還基于相鄰的引導(dǎo)幀。相鄰的引導(dǎo)幀可以幫助生成更連貫、抖動(dòng)更少的結(jié)果。我們平均三種情況的訓(xùn)練比例。這三種情況的比例分別是0.3、0.35和0.35。我們不僅僅使用第3種模式進(jìn)行訓(xùn)練,因?yàn)槲覀兛紤]到在預(yù)測(cè)階段前兩種情況可能會(huì)更頻繁地使用。

2.1.3 用全局幀為提示

為了使模型能夠感知當(dāng)前片段之外的全局視頻信息,我們均勻地從視頻中采樣16幀。這些全局幀通過一個(gè)可學(xué)習(xí)的輕量級(jí)編碼器來獲取特征圖,然后通過交叉注意力機(jī)制輸入到3D-UNet中。我們沒有在3D-UNet的輸入層中加入全局幀,因?yàn)槲覀冋J(rèn)為交叉注意力可以使模型更加關(guān)注遮掩的幀與全局幀的交互,而不是全局幀自己的交互。值得注意的是,在這里輸入的全局幀與當(dāng)前視頻片段的遮掩策略對(duì)齊,并且與其他幀一樣采用相同的方式進(jìn)行遮蔽,以避免信息泄露。

2.2 推理: 混合由粗到細(xì)的推理流水線

577867dca14a3273be004b776aa73124.png
圖2: 我們混合由粗到細(xì)的推理流水線,我們?cè)趫D像上方標(biāo)注了視頻幀的序號(hào)

在長(zhǎng)視頻延展中,我們往往需要對(duì)視頻進(jìn)行上百次的推理拼接,前面片段生成的壞結(jié)果由于引導(dǎo)幀的作用會(huì)持續(xù)累積到后面的片段中。為了緩解這個(gè)問題,我們提出了混合由粗到細(xì)(Hybrid Coarse-to-Fine)的推理流水線。如圖2所示,我們的推理流水線先稀疏的生成關(guān)鍵幀,再根據(jù)關(guān)鍵幀填補(bǔ)更多的中間結(jié)果,最后采用前后引導(dǎo)幀的形式密集的對(duì)視頻未填充的部分進(jìn)行填補(bǔ)。由于關(guān)鍵幀的間隔比較大,因此我們的方法可以以較少的迭代次數(shù)生成視頻的關(guān)鍵幀,從而有效的緩解了錯(cuò)誤累積的問題。與傳統(tǒng)的只包含了無條件(Uncondition)和前后引導(dǎo)(Infilling)策略的方法比,我們的混合策略引入了插值(Interplotation)的方式,緩解了3級(jí)結(jié)構(gòu)中第一級(jí)結(jié)構(gòu)中關(guān)鍵幀間距過大帶來的效果退化。

3. 實(shí)驗(yàn)分析

e65a6023ba247ea9e686a90486bbeafd.png
圖3: 定量評(píng)估

我們?cè)趫D3中展示了我們的M3DDM在Davis和YouTube-VOS數(shù)據(jù)集與Dehan [7]和簡(jiǎn)單的擴(kuò)散模型的方案 [1](Simple Diffusion Model)方法的定量對(duì)比。我們測(cè)試了水平方向的視頻延展,遮掩比例為0.25以及0.666。我們?cè)?56的分辨率下計(jì)算了這5個(gè)評(píng)價(jià)指標(biāo)在所有視頻樣本的平均值(FVD是整體計(jì)算的)。可以看出我們的方案顯著的優(yōu)越于基于flow預(yù)測(cè)的Dehan [7]和SDM [1]。

2a0d462ec6e9a25d279d7452542820ca.jpeg
圖4: 定性評(píng)估

我們?cè)趫D4展示了我們的M3DDM與Dehan [7]和SDM [1]的定性評(píng)估??梢钥闯鑫覀兊姆椒軌蚋玫谋WC時(shí)序一致性,生成更連貫合理的視頻結(jié)果。更多的定性評(píng)估可以參考我們的論文和項(xiàng)目主頁(yè)。

4. 算法落地

該算法已在阿里媽媽-創(chuàng)意中心(https://chuangyi.taobao.com/)素材庫(kù)上線,商家可以對(duì)素材庫(kù)中的視頻以外擴(kuò)的形式進(jìn)行多種尺寸修改,以適配各種尺寸的廣告位,提升廣告的流量覆蓋。

c13e73e3e916d91d9c59b6afc7236c3a.jpeg
圖5:阿里媽媽-創(chuàng)意中心尺寸魔方

5. 總結(jié)

在本文中,我們提出了一種基于遮掩建模的3D擴(kuò)散模型,用于視頻延展(Video Outpainting)。我們使用遮掩建模的學(xué)習(xí)策略并將全局視頻片段的編碼作為交叉注意力層的輸入。遮掩建模的雙向?qū)W習(xí)方法使我們?cè)谕评黼A段可以有更靈活的策略,同時(shí)更好地感知相鄰幀的信息。添加全局視頻片段作為提示進(jìn)一步提高了我們方法的性能。在大多數(shù)攝像機(jī)移動(dòng)和前景主體滑動(dòng)的情況下,全局視頻片段幫助模型在待填充區(qū)域生成更合理的結(jié)果。我們還提出了一種用于視頻延展的混合由粗到細(xì)的推理流水線,它結(jié)合了前后引導(dǎo)和插值策略,以避免由于多級(jí)結(jié)構(gòu)對(duì)齊問題而在最粗糙階段產(chǎn)生的關(guān)鍵幀之間的大時(shí)間間隔問題。實(shí)驗(yàn)表明,該方法已達(dá)到較為先進(jìn)的結(jié)果。目前,該算法已在阿里媽媽創(chuàng)意中心素材庫(kù)上線,相關(guān)代碼已開源,歡迎關(guān)注&試用體驗(yàn)。

? 關(guān)于我們

我們是阿里媽媽智能創(chuàng)作與AI應(yīng)用團(tuán)隊(duì),專注于圖片、視頻、文案等各種形式創(chuàng)意的智能制作與投放,產(chǎn)品覆蓋阿里媽媽內(nèi)外多條業(yè)務(wù)線,歡迎各業(yè)務(wù)方關(guān)注與業(yè)務(wù)合作。同時(shí),真誠(chéng)歡迎具備CV、NLP相關(guān)背景同學(xué)加入,一起擁抱 AIGC 時(shí)代!感興趣同學(xué)歡迎投遞簡(jiǎn)歷加入我們。

投遞鏈接(點(diǎn)擊下方↓閱讀原文):https://talent.taotian.com/off-campus/position-detail?lang=zh&positionId=1049709

? 參考文獻(xiàn)

[1] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bj?rn Ommer. 2022. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 10684–10695.

[2] Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. 2015. Deep unsupervised learning using nonequilibrium thermodynamics. In International Conference on Machine Learning. PMLR, 2256–2265.

[3] Jonathan Ho, Ajay Jain, and Pieter Abbeel. 2020. Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems 33 (2020), 6840–6851.

[4] Alexander Quinn Nichol and Prafulla Dhariwal. 2021. Improved denoising diffusion probabilistic models. In International Conference on Machine Learning. PMLR, 8162–8171.

[5] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. 2015. U-net: Convolu- tional networks for biomedical image segmentation. In Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III 18. Springer, 234–241.

[6] Jonathan Ho and Tim Salimans. 2022. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598 (2022).

[7] Lo?c Dehan, Wiebe Van Ranst, Patrick Vandewalle, and Toon Goedemé. 2022. Complete and temporally consistent video outpainting. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 687–695.

END

bb37ec8c6d65fad8a497a5ce8f1730b5.gif

也許你還想看

🔥《計(jì)算機(jī)視覺 in 阿里媽媽》文章合集

ACM MM’23 | 4篇論文解析阿里媽媽廣告創(chuàng)意算法最新進(jìn)展

營(yíng)銷文案的“瑞士軍刀”:阿里媽媽智能文案多模態(tài)、多場(chǎng)景探索

實(shí)現(xiàn)"模板自由"?阿里媽媽全自動(dòng)無模板圖文創(chuàng)意生成

告別拼接模板 —— 阿里媽媽動(dòng)態(tài)描述廣告創(chuàng)意

如何快速選對(duì)創(chuàng)意 —— 阿里媽媽廣告創(chuàng)意優(yōu)選

化繁為簡(jiǎn),精工細(xì)作——阿里媽媽直播智能剪輯技術(shù)詳解

CVPR 2023 | 基于內(nèi)容融合的字體生成方法

CVPR 2023 | 基于無監(jiān)督域自適應(yīng)方法的海報(bào)布局生成

關(guān)注「阿里媽媽技術(shù)」,了解更多~

d8c030587f283194ec762b10f9c3d57f.gif

喜歡要“分享”,好看要“點(diǎn)贊”哦?~

http://m.risenshineclean.com/news/61731.html

相關(guān)文章:

  • ts wordpress網(wǎng)站優(yōu)化建議
  • 網(wǎng)站流量 名詞洛陽(yáng)seo網(wǎng)絡(luò)推廣
  • wordpress更改前端引用關(guān)鍵詞優(yōu)化軟件哪家好
  • 阿里巴巴網(wǎng)站圖片怎么做國(guó)際時(shí)事新聞2022最新
  • 旅游網(wǎng)站開發(fā)團(tuán)隊(duì)百度廣告投放代理商
  • 南充網(wǎng)站建設(shè)公司seo 公司
  • 南通做網(wǎng)站的推廣普通話的文字內(nèi)容
  • 中國(guó)建設(shè)銀行新聞網(wǎng)站最近一周熱點(diǎn)新聞
  • 手機(jī)端企業(yè)網(wǎng)站源碼下載推廣產(chǎn)品的方式有哪些
  • notepad做網(wǎng)站網(wǎng)絡(luò)seo啥意思
  • 局域網(wǎng)網(wǎng)站開發(fā)濟(jì)南seo外包公司
  • 外包網(wǎng)站建設(shè)費(fèi)用包括網(wǎng)站備份如何制作網(wǎng)頁(yè)鏈接教程
  • wordpress 制作模板seo優(yōu)化培訓(xùn)多少錢
  • asp網(wǎng)站 seob站推廣入口2023
  • 專做短篇的網(wǎng)站百度站長(zhǎng)工具域名查詢
  • 建網(wǎng)站程序怎么寫中小型企業(yè)網(wǎng)站設(shè)計(jì)與開發(fā)
  • 網(wǎng)站開發(fā)常見畢業(yè)設(shè)計(jì)題目互聯(lián)網(wǎng)營(yíng)銷顧問
  • 建設(shè)銀行網(wǎng)站點(diǎn)擊次數(shù)百度風(fēng)云榜游戲
  • wordpress調(diào)用7天熱門文章seo優(yōu)化交流
  • 網(wǎng)站中文域名好嗎廣州seo推廣培訓(xùn)
  • 完備的網(wǎng)站建設(shè)怎么找百度客服
  • 下載中心免費(fèi)下載seo搜索引擎優(yōu)化方案
  • 公司名被注冊(cè)網(wǎng)站網(wǎng)站seo優(yōu)化檢測(cè)
  • 哪里有免費(fèi)的ppt模板下載網(wǎng)站免費(fèi)seo教程資源
  • 大型自適應(yīng)的網(wǎng)站開發(fā)互動(dòng)營(yíng)銷案例100
  • 做旅游的網(wǎng)站的目的和意義什么是引流推廣
  • 網(wǎng)站建設(shè)就問山東聚搜網(wǎng)絡(luò)f南寧網(wǎng)絡(luò)推廣有幾家
  • 企業(yè)自己做網(wǎng)站營(yíng)銷培訓(xùn)心得體會(huì)
  • 重慶建網(wǎng)站的公司集中在哪里百度醫(yī)生
  • qq空間認(rèn)證的網(wǎng)站后臺(tái)根目錄青島設(shè)計(jì)優(yōu)化公司