谷歌的新AI工具可以為無(wú)聲視頻添加聲音
我今年見過的最瘋狂的人工智能發(fā)展是微軟的VASA-1技術(shù)。該公司開發(fā)的人工智能模型可以將帶有音頻文件的單個(gè)人物圖像轉(zhuǎn)換為該人說話的動(dòng)態(tài)視頻。雖然VASA-1尚未作為商業(yè)產(chǎn)品提供,但演示令人驚嘆。它可能永遠(yuǎn)不會(huì),因?yàn)槿藗兒苋菀诪E用這種人工智能工具。
VASA-1于4月中旬亮相?,F(xiàn)在,差不多兩個(gè)月后,谷歌Deepmind推出了一項(xiàng)類似的人工智能技術(shù)。它沒有商業(yè)名稱,谷歌將其描述為視頻轉(zhuǎn)音頻(V2A)技術(shù)。這也意味著它不是一款你可以親自嘗試的商業(yè)人工智能產(chǎn)品。
V2A可讓您通過單個(gè)文本提示生成音頻以匹配無(wú)聲視頻片段。Google的演示令人驚嘆。
正如谷歌在博客中解釋的那樣,視頻轉(zhuǎn)音頻工具“使同步視聽生成成為可能”。谷歌提供了大量示例來(lái)展示V2A技術(shù)。下面列出了其中一些示例,并附上了谷歌用于生成視頻音頻的提示。
音頻提示:電影、驚悚片、恐怖片、音樂、緊張感、氛圍、混凝土上的腳步聲
谷歌表示:“V2A將視頻像素與自然語(yǔ)言文本提示相結(jié)合,為屏幕上的操作生成豐富的音景。”并指出V2A可以與Veo配對(duì)。這是谷歌在I/O2024上推出的視頻生成模型。Veo是OpenAI的Sora和其他類似產(chǎn)品的直接競(jìng)爭(zhēng)對(duì)手。
谷歌表示,V2A技術(shù)可以提供“戲劇性的配樂、逼真的音效或與視頻角色和基調(diào)相匹配的對(duì)話”。該技術(shù)可用于制作配樂,谷歌提供了一個(gè)非常令人興奮的潛在用途:視頻轉(zhuǎn)音頻可以為無(wú)聲電影添加聲音,這將是令人難以置信的。
音頻提示:音樂會(huì)舞臺(tái)上的鼓手被閃爍的燈光和歡呼的人群包圍
然而,正如谷歌在博客中稍后解釋的那樣,語(yǔ)音生成并不完美。雖然V2A不需要你手動(dòng)對(duì)齊音頻和視頻,但仍存在局限性,尤其是在語(yǔ)音方面:
我們還在改進(jìn)涉及語(yǔ)音的視頻的唇形同步。V2A嘗試根據(jù)輸入的轉(zhuǎn)錄文本生成語(yǔ)音,并將其與角色的唇形動(dòng)作同步。但配對(duì)視頻生成模型可能不以轉(zhuǎn)錄文本為條件。這會(huì)導(dǎo)致不匹配,通常會(huì)導(dǎo)致奇怪的唇形同步,因?yàn)橐曨l模型不會(huì)生成與轉(zhuǎn)錄文本相匹配的嘴部動(dòng)作。
音頻提示:音樂、文字記錄:“這只火雞看起來(lái)棒極了,我好餓”
谷歌還表示,它正在尋求創(chuàng)意社區(qū)對(duì)視頻轉(zhuǎn)音頻技術(shù)的反饋,以確保V2A產(chǎn)生積極影響。為了防止濫用,谷歌將其SynthID工具包添加到V2A研究中,以給AI生成的內(nèi)容添加水印。
目前尚不清楚V2A何時(shí)向公眾開放,但谷歌表示這項(xiàng)新技術(shù)將經(jīng)過嚴(yán)格測(cè)試。若要了解V2A在當(dāng)前開發(fā)階段的潛力,您可以在此鏈接中找到更多演示片段。
標(biāo)簽: