欧美色在线视频播放 视频,国产精品亚洲精品日韩已方,日本特级婬片中文免费看,亚洲 另类 在线 欧美 制服

<td id="8pdsg"><strong id="8pdsg"></strong></td>
<mark id="8pdsg"><menu id="8pdsg"><acronym id="8pdsg"></acronym></menu></mark>
<noscript id="8pdsg"><progress id="8pdsg"></progress></noscript>

    1. 首頁 >人工智能 > 正文

    擴(kuò)展通用視頻識別的語言圖像預(yù)訓(xùn)練模型

    視頻識別用于眾多視覺應(yīng)用,例如微視頻推薦、運(yùn)動視頻分析或自動駕駛。語言圖像預(yù)訓(xùn)練在解決這一任務(wù)方面顯示出巨大的潛力。然而,直接訓(xùn)練語言-視頻模型需要大規(guī)模的視頻-文本預(yù)訓(xùn)練數(shù)據(jù)。

    arXiv.org 最近的一篇論文提出了一種用于視頻時間建模的新架構(gòu)。為視頻時間建模提出了新穎的跨幀通信注意。它輕巧高效,可以無縫插入現(xiàn)有的語言圖像預(yù)訓(xùn)練模型。

    研究人員設(shè)計(jì)了一種特定于視頻的提示技術(shù),以自動生成實(shí)例級文本表示。實(shí)驗(yàn)證明了該方法在各種學(xué)習(xí)配置下的優(yōu)越性和良好的泛化能力。

    對比語言-圖像預(yù)訓(xùn)練在從網(wǎng)絡(luò)規(guī)模數(shù)據(jù)學(xué)習(xí)視覺-文本聯(lián)合表示方面取得了巨大成功,展示了對各種圖像任務(wù)的顯著“零樣本”泛化能力。然而,如何將這種新的語言-圖像預(yù)訓(xùn)練方法有效地?cái)U(kuò)展到視頻領(lǐng)域仍然是一個懸而未決的問題。在這項(xiàng)工作中,我們提出了一種簡單而有效的方法,將預(yù)訓(xùn)練的語言圖像模型直接應(yīng)用于視頻識別,而不是從頭開始預(yù)訓(xùn)練一個新模型。更具體地說,為了捕捉幀在時間維度上的長期依賴關(guān)系,我們提出了一種跨幀注意機(jī)制,可以顯式地跨幀交換信息。這樣的模塊是輕量級的,可以無縫地插入到預(yù)訓(xùn)練的語言圖像模型中。而且,我們提出了一種特定于視頻的提示方案,該方案利用視頻內(nèi)容信息來生成有區(qū)別的文本提示。大量實(shí)驗(yàn)表明,我們的方法是有效的,并且可以推廣到不同的視頻識別場景。特別是,在完全監(jiān)督的設(shè)置下,我們的方法在 Kinectics-400 上實(shí)現(xiàn)了 87.1% 的 top-1 準(zhǔn)確率,而與 Swin-L 和 ViViT-H 相比,使用的 FLOP 減少了 12 倍。在零樣本實(shí)驗(yàn)中,我們的方法在兩種流行協(xié)議下的 top-1 準(zhǔn)確度方面超過了當(dāng)前最先進(jìn)的方法 +7.6% 和 +14.9%。在少鏡頭場景中,當(dāng)標(biāo)記的數(shù)據(jù)極其有限時,我們的方法比以前的最佳方法好 +32.1% 和 +23.1%。代碼和模型可在 它利用視頻內(nèi)容信息來生成有區(qū)別的文本提示。大量實(shí)驗(yàn)表明,我們的方法是有效的,并且可以推廣到不同的視頻識別場景。特別是,在完全監(jiān)督的設(shè)置下,我們的方法在 Kinectics-400 上實(shí)現(xiàn)了 87.1% 的 top-1 準(zhǔn)確率,而與 Swin-L 和 ViViT-H 相比,使用的 FLOP 減少了 12 倍。

    標(biāo)簽:

    免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!