域名 做網(wǎng)站和郵箱迅雷磁力鏈bt磁力天堂下載
Sora:scalable diffusion models with transformers 文生視頻模型
Sora:視頻生成模型60s,視頻中體現(xiàn)一定的物理邏輯
時空patch,是Sora創(chuàng)新的核心。
Sora 到底是不是物理引擎甚至世界模型?數(shù)據(jù)驅(qū)動的物理引擎
帆船在水里跟隨水流浮力上下起伏體現(xiàn)物理邏輯
生成模型的方法包括GAN、自回歸、擴(kuò)散模型。它們都有各自的優(yōu)勢和局限性。
目前市面上文生視頻模型的主流技術(shù)路線主要有兩種:
(1)一種基于Transformer模型的技術(shù)路線,即從文本及圖像中生成
(2)另一種則是基于擴(kuò)散模型(Diffusion model),如 Runway
Sora融合了Diffusion和Transformer架構(gòu),結(jié)合在一起的Diffusion Transformer模型,
通過擴(kuò)散模型(DALL-E3)和轉(zhuǎn)換器架構(gòu)(ChatGPT)組合,Sora不用預(yù)測序列中的下一個文本,
而是預(yù)測序列中的下一個“Patch”。
Sora引入的,是一種全新的范式轉(zhuǎn)變——新的建模技術(shù)和靈活性,可以處理各種時間、縱橫比和分辨率。
文生圖像/視頻常見爆火模型
Dall-E 2021.1 Open AI 文生圖模型
Midjourney 2022.3 文生圖模型
Stability AI 2023 文生圖模型
Runway Stable Diffusion 2022 文生圖模型
gen-2 文生視頻模型 2023.3 文本、圖片、文本+圖片直接生成視頻
Pika 2023.11.28 文生視頻模型 支持生成3D動畫、2D動漫、卡通等多種畫風(fēng)的視頻
Sora 2024.2.16 Open AI 文生視頻模型