擴(kuò)展通用視頻識別的語言圖像預(yù)訓(xùn)練模型
視頻識別用于眾多視覺應(yīng)用,例如微視頻推薦、運(yùn)動視頻分析或自動駕駛。語言圖像預(yù)訓(xùn)練在解決這一任務(wù)方面顯示出巨大的潛力。然而,直接訓(xùn)練語言-視頻模型需要大規(guī)模的視頻-文本預(yù)訓(xùn)練數(shù)據(jù)。
arXiv.org 最近的一篇論文提出了一種用于視頻時間建模的新架構(gòu)。為視頻時間建模提出了新穎的跨幀通信注意。它輕巧高效,可以無縫插入現(xiàn)有的語言圖像預(yù)訓(xùn)練模型。
研究人員設(shè)計(jì)了一種特定于視頻的提示技術(shù),以自動生成實(shí)例級文本表示。實(shí)驗(yàn)證明了該方法在各種學(xué)習(xí)配置下的優(yōu)越性和良好的泛化能力。
對比語言-圖像預(yù)訓(xùn)練在從網(wǎng)絡(luò)規(guī)模數(shù)據(jù)學(xué)習(xí)視覺-文本聯(lián)合表示方面取得了巨大成功,展示了對各種圖像任務(wù)的顯著“零樣本”泛化能力。然而,如何將這種新的語言-圖像預(yù)訓(xùn)練方法有效地?cái)U(kuò)展到視頻領(lǐng)域仍然是一個懸而未決的問題。在這項(xiàng)工作中,我們提出了一種簡單而有效的方法,將預(yù)訓(xùn)練的語言圖像模型直接應(yīng)用于視頻識別,而不是從頭開始預(yù)訓(xùn)練一個新模型。更具體地說,為了捕捉幀在時間維度上的長期依賴關(guān)系,我們提出了一種跨幀注意機(jī)制,可以顯式地跨幀交換信息。這樣的模塊是輕量級的,可以無縫地插入到預(yù)訓(xùn)練的語言圖像模型中。而且,我們提出了一種特定于視頻的提示方案,該方案利用視頻內(nèi)容信息來生成有區(qū)別的文本提示。大量實(shí)驗(yàn)表明,我們的方法是有效的,并且可以推廣到不同的視頻識別場景。特別是,在完全監(jiān)督的設(shè)置下,我們的方法在 Kinectics-400 上實(shí)現(xiàn)了 87.1% 的 top-1 準(zhǔn)確率,而與 Swin-L 和 ViViT-H 相比,使用的 FLOP 減少了 12 倍。在零樣本實(shí)驗(yàn)中,我們的方法在兩種流行協(xié)議下的 top-1 準(zhǔn)確度方面超過了當(dāng)前最先進(jìn)的方法 +7.6% 和 +14.9%。在少鏡頭場景中,當(dāng)標(biāo)記的數(shù)據(jù)極其有限時,我們的方法比以前的最佳方法好 +32.1% 和 +23.1%。代碼和模型可在 它利用視頻內(nèi)容信息來生成有區(qū)別的文本提示。大量實(shí)驗(yàn)表明,我們的方法是有效的,并且可以推廣到不同的視頻識別場景。特別是,在完全監(jiān)督的設(shè)置下,我們的方法在 Kinectics-400 上實(shí)現(xiàn)了 87.1% 的 top-1 準(zhǔn)確率,而與 Swin-L 和 ViViT-H 相比,使用的 FLOP 減少了 12 倍。
標(biāo)簽: