人工智能系統(tǒng)學(xué)習(xí)跨視頻音頻和文本共享的概念
機(jī)器學(xué)習(xí)模型可以在沒(méi)有人類(lèi)幫助的情況下識(shí)別視頻剪輯中的動(dòng)作并對(duì)其進(jìn)行標(biāo)記。人類(lèi)通過(guò)不同方式的組合來(lái)觀察世界,例如視覺(jué)、聽(tīng)覺(jué)和我們對(duì)語(yǔ)言的理解。另一方面,機(jī)器通過(guò)算法可以處理的數(shù)據(jù)來(lái)解釋世界。
因此,當(dāng)機(jī)器“看到”一張照片時(shí),它必須將該照片編碼為可用于執(zhí)行圖像分類(lèi)等任務(wù)的數(shù)據(jù)。當(dāng)輸入有多種格式(如視頻、音頻剪輯和圖像)時(shí),此過(guò)程會(huì)變得更加復(fù)雜。
麻省理工學(xué)院的研究人員開(kāi)發(fā)了一種機(jī)器學(xué)習(xí)技術(shù),該技術(shù)學(xué)習(xí)以一種捕獲在視覺(jué)和音頻模式之間共享的概念的方式來(lái)表示數(shù)據(jù)。他們的模型可以識(shí)別視頻中某些動(dòng)作發(fā)生的位置并對(duì)其進(jìn)行標(biāo)記。麻省理工學(xué)院新聞插圖
“這里的主要挑戰(zhàn)是,機(jī)器如何調(diào)整這些不同的模式?作為人類(lèi),這對(duì)我們來(lái)說(shuō)很容易。我們看到一輛汽車(chē),然后聽(tīng)到汽車(chē)駛過(guò)的聲音,我們知道這些是一回事。但對(duì)于機(jī)器學(xué)習(xí)來(lái)說(shuō),這并不是那么簡(jiǎn)單,”計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室 (CSAIL) 的研究生、解決這個(gè)問(wèn)題的論文的第一作者 Alexander Liu 說(shuō)。
Liu 和他的合作者開(kāi)發(fā)了一種人工智能技術(shù),該技術(shù)學(xué)習(xí)以捕捉視覺(jué)和音頻模式之間共享的概念的方式來(lái)表示數(shù)據(jù)。例如,他們的方法可以了解到視頻中嬰兒哭泣的動(dòng)作與音頻剪輯中的口語(yǔ)“哭泣”有關(guān)。
利用這些知識(shí),他們的機(jī)器學(xué)習(xí)模型可以識(shí)別視頻中某個(gè)動(dòng)作發(fā)生的位置并對(duì)其進(jìn)行標(biāo)記。
在跨模態(tài)檢索任務(wù)中,它比其他機(jī)器學(xué)習(xí)方法表現(xiàn)更好,這些任務(wù)涉及查找一段數(shù)據(jù),如視頻,與以另一種形式(如口語(yǔ))給出的用戶(hù)查詢(xún)相匹配。他們的模型還使用戶(hù)更容易了解為什么機(jī)器認(rèn)為它檢索到的視頻與他們的查詢(xún)匹配。
有朝一日,這種技術(shù)可以用來(lái)幫助機(jī)器人通過(guò)感知來(lái)了解世界上的概念,就像人類(lèi)一樣。
與劉一起參與論文的是 CSAIL 博士后 SouYoung Jin;研究生 Cheng-I Jeff Lai 和 Andrew Rouditchenko;Aude Oliva,CSAIL 高級(jí)研究科學(xué)家,MIT-IBM Watson AI 實(shí)驗(yàn)室主任;和資深作者詹姆斯格拉斯,高級(jí)研究科學(xué)家和 CSAIL 口語(yǔ)系統(tǒng)小組的負(fù)責(zé)人。該研究將在計(jì)算語(yǔ)言學(xué)協(xié)會(huì)年會(huì)上發(fā)表。
學(xué)習(xí)表征
研究人員將他們的工作重點(diǎn)放在表示學(xué)習(xí)上,這是一種機(jī)器學(xué)習(xí)形式,旨在轉(zhuǎn)換輸入數(shù)據(jù)以使其更容易執(zhí)行分類(lèi)或預(yù)測(cè)等任務(wù)。
表示學(xué)習(xí)模型獲取原始數(shù)據(jù),例如視頻及其相應(yīng)的文本字幕,并通過(guò)提取特征或?qū)σ曨l中對(duì)象和動(dòng)作的觀察來(lái)對(duì)它們進(jìn)行編碼。然后它將這些數(shù)據(jù)點(diǎn)映射到一個(gè)網(wǎng)格中,稱(chēng)為嵌入空間。該模型將相似的數(shù)據(jù)聚集在一起作為網(wǎng)格中的單個(gè)點(diǎn)。這些數(shù)據(jù)點(diǎn)或向量中的每一個(gè)都由一個(gè)單獨(dú)的單詞表示。
例如,一個(gè)人雜耍的視頻剪輯可能會(huì)映射到一個(gè)標(biāo)有“雜耍”的向量。
研究人員對(duì)模型進(jìn)行了限制,使其只能使用 1000 個(gè)單詞來(lái)標(biāo)記向量。該模型可以決定要將哪些動(dòng)作或概念編碼到單個(gè)向量中,但它只能使用 1,000 個(gè)向量。模型選擇它認(rèn)為最能代表數(shù)據(jù)的詞。
他們的方法不是將來(lái)自不同模態(tài)的數(shù)據(jù)編碼到單獨(dú)的網(wǎng)格上,而是采用共享的嵌入空間,其中兩個(gè)模態(tài)可以一起編碼。這使模型能夠從兩種模式中學(xué)習(xí)表示之間的關(guān)系,例如顯示一個(gè)人雜耍的視頻和一個(gè)人說(shuō)“雜耍”的錄音。
為了幫助系統(tǒng)處理來(lái)自多種模式的數(shù)據(jù),他們?cè)O(shè)計(jì)了一種算法,引導(dǎo)機(jī)器將相似的概念編碼到同一個(gè)向量中。
“如果有一個(gè)關(guān)于豬的視頻,模型可能會(huì)將‘豬’這個(gè)詞分配給 1000 個(gè)向量中的一個(gè)。然后,如果模型聽(tīng)到有人在音頻剪輯中說(shuō)出“豬”這個(gè)詞,它仍應(yīng)使用相同的向量對(duì)其進(jìn)行編碼,”劉解釋道。
更好的獵犬
他們使用三個(gè)數(shù)據(jù)集在跨模態(tài)檢索任務(wù)中測(cè)試了該模型:一個(gè)包含視頻剪輯和文本字幕的視頻-文本數(shù)據(jù)集,一個(gè)包含視頻剪輯和語(yǔ)音音頻字幕的視頻-音頻數(shù)據(jù)集,以及一個(gè)包含圖像和語(yǔ)音音頻的圖像-音頻數(shù)據(jù)集字幕。
例如,在視頻-音頻數(shù)據(jù)集中,模型選擇了 1000 個(gè)單詞來(lái)表示視頻中的動(dòng)作。然后,當(dāng)研究人員向其提供音頻查詢(xún)時(shí),該模型試圖找到與這些口語(yǔ)最匹配的剪輯。
“就像谷歌搜索一樣,你輸入一些文本,機(jī)器會(huì)嘗試告訴你正在搜索的最相關(guān)的內(nèi)容。只有我們?cè)谙蛄靠臻g中這樣做,”劉說(shuō)。
與他們比較的模型相比,他們的技術(shù)不僅更有可能找到更好的匹配,而且更容易理解。
因?yàn)樵撃P椭荒苁褂每偣?1,000 個(gè)單詞來(lái)標(biāo)記向量,所以用戶(hù)可以更容易地看到機(jī)器用來(lái)推斷視頻和口語(yǔ)單詞相似的單詞。劉說(shuō),這可以使模型更容易應(yīng)用于現(xiàn)實(shí)世界的情況,在這種情況下,用戶(hù)了解它如何做出決策至關(guān)重要。
該模型仍有一些限制,他們希望在未來(lái)的工作中解決。一方面,他們的研究一次集中在兩種模式的數(shù)據(jù)上,但在現(xiàn)實(shí)世界中,人類(lèi)會(huì)同時(shí)遇到許多數(shù)據(jù)模式,劉說(shuō)。
“我們知道 1,000 個(gè)單詞在這種數(shù)據(jù)集上有效,但我們不知道它是否可以推廣到現(xiàn)實(shí)世界的問(wèn)題,”他補(bǔ)充道。
此外,他們數(shù)據(jù)集中的圖像和視頻包含簡(jiǎn)單的對(duì)象或直接的動(dòng)作;現(xiàn)實(shí)世界的數(shù)據(jù)要混亂得多。他們還想確定當(dāng)輸入的多樣性更廣泛時(shí),他們的方法擴(kuò)大規(guī)模的效果如何。
標(biāo)簽: