由于這個(gè)狂野的穩(wěn)定擴(kuò)散更新生成式人工智能可以變得更加活躍
StableDiffusion的開發(fā)者StabilityAI正在預(yù)覽一種新的生成式AI,它可以創(chuàng)建帶有文本提示的短片視頻。
它被恰當(dāng)?shù)胤Q為“穩(wěn)定視頻擴(kuò)散”,由兩個(gè)AI模型(稱為SVD和SVD-XT)組成,能夠創(chuàng)建576x1,024像素分辨率的剪輯。用戶將能夠自定義幀速率速度以在3至30FPS之間運(yùn)行。視頻的長(zhǎng)度取決于選擇哪一個(gè)雙胞胎模型。如果您選擇SVD,內(nèi)容將播放14幀,而SVD-XT會(huì)將其擴(kuò)展至25幀。根據(jù)HuggingFace上的官方列表,長(zhǎng)度并不重要,因?yàn)殇秩镜募糨嬙诮Y(jié)束前只會(huì)播放大約四秒鐘。
該公司在其YouTube頻道上發(fā)布了一段視頻,展示了StableVideoDiffusion的功能,并且內(nèi)容質(zhì)量出奇的高。它們當(dāng)然不是你在Meta的Make-A-Video等其他AI上看到的噩夢(mèng)燃料。在我們看來,最令人印象深刻的是冰龍演示。你可以看到龍鱗的大量細(xì)節(jié),再加上后面的山脈看起來就像是畫中的東西。正如您可以想象的那樣,動(dòng)畫相當(dāng)有限,因?yàn)榕臄z對(duì)象只能慢慢地?fù)u頭。在其他演示中也可以看到同樣的情況。這要么是一個(gè)僵硬的步行循環(huán),要么是一個(gè)緩慢的平移鏡頭。
據(jù)報(bào)道,穩(wěn)定視頻擴(kuò)散無法“實(shí)現(xiàn)完美的照片級(jí)真實(shí)感”,無法生成“清晰的文本”,而且它在處理面部時(shí)也遇到困難。StabilityAI網(wǎng)站上的另一個(gè)演示確實(shí)表明,其模型能夠渲染人臉,沒有任何奇怪的缺陷,因此可以根據(jù)具體情況進(jìn)行處理。
請(qǐng)記住,該項(xiàng)目仍處于早期階段。很明顯,該模型還沒有準(zhǔn)備好廣泛發(fā)布,也沒有任何計(jì)劃這樣做。StabilityAI強(qiáng)調(diào),穩(wěn)定視頻擴(kuò)散目前并不意味著“用于現(xiàn)實(shí)世界或商業(yè)應(yīng)用”。事實(shí)上,它目前“僅用于研究目的”。我們對(duì)開發(fā)商對(duì)其技術(shù)非常謹(jǐn)慎并不感到驚訝。去年發(fā)生了一起事件,StabilityDiffusion的模型在網(wǎng)上泄露,導(dǎo)致不良行為者利用它來創(chuàng)建深度偽造圖像。
可用性
如果您有興趣嘗試StableVideoDiffusion,您可以通過在公司網(wǎng)站上填寫表格來進(jìn)入候補(bǔ)名單。目前尚不清楚何時(shí)允許人們進(jìn)入,但預(yù)覽將包括文本轉(zhuǎn)視頻界面。與此同時(shí),您可以查看人工智能的并了解該項(xiàng)目背后的所有細(xì)節(jié)。
在深入研究該文檔后,我們發(fā)現(xiàn)有趣的一件事是它提到使用“可公開訪問的視頻數(shù)據(jù)集”作為一些培訓(xùn)材料??紤]到今年早些時(shí)候GettyIges就數(shù)據(jù)抓取指控StabilityAI,聽到這樣的說法并不奇怪??磥韴F(tuán)隊(duì)正在努力更加小心,以免再樹敵。
目前還沒有關(guān)于穩(wěn)定視頻擴(kuò)散何時(shí)啟動(dòng)的消息。幸運(yùn)的是,還有其他選擇。請(qǐng)務(wù)必查看TechRadar的2023年最佳AI視頻制作者列表。
標(biāo)簽: