欧美色在线视频播放视频,国产精品亚洲精品日韩已方,日本特级婬片中文免费看,亚洲另类在线欧美制服

<td id="8pdsg"><strong id="8pdsg"></strong></td>

<mark id="8pdsg"><menu id="8pdsg"><acronym id="8pdsg"></acronym></menu></mark>

<pre id="ouba2"><abbr id="ouba2"></abbr></pre>

擴(kuò)展通用視頻識別的語言圖像預(yù)訓(xùn)練模型

發(fā)布日期：2022-08-10 16:45:52 來源：編輯：

視頻識別用于眾多視覺應(yīng)用，例如微視頻推薦、運(yùn)動視頻分析或自動駕駛。語言圖像預(yù)訓(xùn)練在解決這一任務(wù)方面顯示出巨大的潛力。然而，直接訓(xùn)練語言-視頻模型需要大規(guī)模的視頻-文本預(yù)訓(xùn)練數(shù)據(jù)。

arXiv.org 最近的一篇論文提出了一種用于視頻時間建模的新架構(gòu)。為視頻時間建模提出了新穎的跨幀通信注意。它輕巧高效，可以無縫插入現(xiàn)有的語言圖像預(yù)訓(xùn)練模型。

研究人員設(shè)計(jì)了一種特定于視頻的提示技術(shù)，以自動生成實(shí)例級文本表示。實(shí)驗(yàn)證明了該方法在各種學(xué)習(xí)配置下的優(yōu)越性和良好的泛化能力。

對比語言-圖像預(yù)訓(xùn)練在從網(wǎng)絡(luò)規(guī)模數(shù)據(jù)學(xué)習(xí)視覺-文本聯(lián)合表示方面取得了巨大成功，展示了對各種圖像任務(wù)的顯著“零樣本”泛化能力。然而，如何將這種新的語言-圖像預(yù)訓(xùn)練方法有效地?cái)U(kuò)展到視頻領(lǐng)域仍然是一個懸而未決的問題。在這項(xiàng)工作中，我們提出了一種簡單而有效的方法，將預(yù)訓(xùn)練的語言圖像模型直接應(yīng)用于視頻識別，而不是從頭開始預(yù)訓(xùn)練一個新模型。更具體地說，為了捕捉幀在時間維度上的長期依賴關(guān)系，我們提出了一種跨幀注意機(jī)制，可以顯式地跨幀交換信息。這樣的模塊是輕量級的，可以無縫地插入到預(yù)訓(xùn)練的語言圖像模型中。而且，我們提出了一種特定于視頻的提示方案，該方案利用視頻內(nèi)容信息來生成有區(qū)別的文本提示。大量實(shí)驗(yàn)表明，我們的方法是有效的，并且可以推廣到不同的視頻識別場景。特別是，在完全監(jiān)督的設(shè)置下，我們的方法在 Kinectics-400 上實(shí)現(xiàn)了 87.1% 的 top-1 準(zhǔn)確率，而與 Swin-L 和 ViViT-H 相比，使用的 FLOP 減少了 12 倍。在零樣本實(shí)驗(yàn)中，我們的方法在兩種流行協(xié)議下的 top-1 準(zhǔn)確度方面超過了當(dāng)前最先進(jìn)的方法 +7.6% 和 +14.9%。在少鏡頭場景中，當(dāng)標(biāo)記的數(shù)據(jù)極其有限時，我們的方法比以前的最佳方法好 +32.1% 和 +23.1%。代碼和模型可在它利用視頻內(nèi)容信息來生成有區(qū)別的文本提示。大量實(shí)驗(yàn)表明，我們的方法是有效的，并且可以推廣到不同的視頻識別場景。特別是，在完全監(jiān)督的設(shè)置下，我們的方法在 Kinectics-400 上實(shí)現(xiàn)了 87.1% 的 top-1 準(zhǔn)確率，而與 Swin-L 和 ViViT-H 相比，使用的 FLOP 減少了 12 倍。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場無關(guān)。財(cái)經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。如有侵權(quán)請聯(lián)系刪除！

上一篇:使用點(diǎn)對像素提示調(diào)整用于點(diǎn)云分析的預(yù)訓(xùn)練圖像模型

下一篇:機(jī)器人手臂正在取代商店的貨架儲存器

<pre id="38m3k"><abbr id="38m3k"></abbr></pre>