新算法解鎖計(jì)算機(jī)視覺的高分辨率見解
想象一下你自己看了一會(huì)兒繁忙的街道,然后嘗試勾畫出你從記憶中看到的場(chǎng)景。大多數(shù)人都可以畫出汽車、人和人行橫道等主要物體的大致位置,但幾乎沒有人能夠以像素完美的精度畫出每個(gè)細(xì)節(jié)。大多數(shù)現(xiàn)代計(jì)算機(jī)視覺算法也是如此:它們非常擅長(zhǎng)捕捉場(chǎng)景的高級(jí)細(xì)節(jié),但在處理信息時(shí)會(huì)丟失細(xì)粒度的細(xì)節(jié)。
現(xiàn)在,麻省理工學(xué)院的研究人員創(chuàng)建了一個(gè)名為“FeatUp”的系統(tǒng),可以讓算法同時(shí)捕獲場(chǎng)景的所有高級(jí)和低級(jí)細(xì)節(jié)——幾乎就像計(jì)算機(jī)視覺的激光近視手術(shù)一樣。
當(dāng)計(jì)算機(jī)通過查看圖像和視頻來(lái)學(xué)習(xí)“看”時(shí),它們會(huì)通過稱為“特征”的東西建立對(duì)場(chǎng)景中內(nèi)容的“想法”。為了創(chuàng)建這些功能,深度網(wǎng)絡(luò)和視覺基礎(chǔ)模型將圖像分解為小方塊網(wǎng)格,并將這些方塊作為一個(gè)組進(jìn)行處理,以確定照片中發(fā)生了什么。每個(gè)小方塊通常由16到32個(gè)像素組成,因此這些算法的分辨率比它們處理的圖像要小得多。在嘗試總結(jié)和理解照片時(shí),算損失大量像素清晰度。
FeatUp算法可以阻止這種信息丟失并提高任何深度網(wǎng)絡(luò)的分辨率,而不會(huì)影響速度或質(zhì)量。這使得研究人員能夠快速、輕松地提高任何新的或現(xiàn)有算法的分辨率。例如,想象一下嘗試解釋肺癌檢測(cè)算法的預(yù)測(cè),以定位腫瘤。在使用類激活圖(CAM)等方法解釋算法之前應(yīng)用FeatUp,可以根據(jù)模型產(chǎn)生腫瘤可能所在位置的更加詳細(xì)的(16-32x)視圖。
FeatUp不僅可以幫助從業(yè)者理解他們的模型,還可以改進(jìn)一系列不同的任務(wù),例如對(duì)象檢測(cè)、語(yǔ)義分割(為帶有對(duì)象標(biāo)簽的圖像中的像素分配標(biāo)簽)和深度估計(jì)。它通過提供更準(zhǔn)確、高分辨率的功能來(lái)實(shí)現(xiàn)這一目標(biāo),這對(duì)于構(gòu)建從自動(dòng)駕駛到醫(yī)學(xué)成像等視覺應(yīng)用至關(guān)重要。
“所有計(jì)算機(jī)視覺的本質(zhì)都在于這些從深度學(xué)習(xí)架構(gòu)的深處出現(xiàn)的深層智能特征?,F(xiàn)代算法的巨大挑戰(zhàn)在于,它們將大圖像縮小為非常小的‘智能’特征網(wǎng)格,獲得智能見解,但失去了更精細(xì)的細(xì)節(jié),”麻省理工學(xué)院博士馬克·漢密爾頓說。麻省理工學(xué)院計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL)附屬機(jī)構(gòu)電氣工程和計(jì)算機(jī)科學(xué)專業(yè)的學(xué)生,??也是該項(xiàng)目論文的共同主要作者。
“FeatUp有助于實(shí)現(xiàn)兩全其美:高度智能的表示與原始圖像的分辨率。這些高分辨率功能顯著提高了一系列計(jì)算機(jī)視覺任務(wù)的性能,從增強(qiáng)對(duì)象檢測(cè)和改進(jìn)深度預(yù)測(cè)到更深入地了解您的圖像通過高分辨率分析來(lái)了解網(wǎng)絡(luò)的決策過程。”
分辨率復(fù)興
隨著這些大型人工智能模型變得越來(lái)越普遍,越來(lái)越需要解釋它們?cè)谧鍪裁?、在看什么以及在想什么?/p>
但FeatUp究竟如何發(fā)現(xiàn)這些細(xì)粒度的細(xì)節(jié)呢?奇怪的是,秘密就在于搖擺不定的圖像。
特別是,F(xiàn)eatUp會(huì)應(yīng)用微小的調(diào)整(例如將圖像向左或向右移動(dòng)幾個(gè)像素),并觀察算法如何響應(yīng)圖像的這些輕微移動(dòng)。這會(huì)產(chǎn)生數(shù)百個(gè)略有不同的深度特征圖,這些圖可以組合成一個(gè)清晰的、高分辨率的深度特征集。
“我們想象存在一些高分辨率特征,當(dāng)我們擺動(dòng)它們并模糊它們時(shí),它們將與擺動(dòng)圖像中的所有原始低分辨率特征相匹配。我們的目標(biāo)是學(xué)習(xí)如何細(xì)化低分辨率特征使用這個(gè)‘游戲’將特征轉(zhuǎn)化為高分辨率特征,讓我們知道我們做得有多好,”漢密爾頓說。
這種方法類似于算法如何通過確保預(yù)測(cè)的3D對(duì)象與用于創(chuàng)建它的所有2D照片匹配來(lái)從多個(gè)2D圖像創(chuàng)建3D模型。在FeatUp的例子中,他們預(yù)測(cè)了一個(gè)高分辨率特征圖,該特征圖與通過抖動(dòng)原始圖像形成的所有低分辨率特征圖一致。
該團(tuán)隊(duì)指出,PyTorch中提供的標(biāo)準(zhǔn)工具不足以滿足他們的需求,因此引入了一種新型的深層網(wǎng)絡(luò)層,以尋求快速高效的解決方案。他們的自定義層是一種特殊的聯(lián)合雙邊上采樣操作,其效率比PyTorch中的簡(jiǎn)單實(shí)現(xiàn)高100倍以上。
該團(tuán)隊(duì)還表明,這個(gè)新層可以改進(jìn)各種不同的算法,包括語(yǔ)義分割和深度預(yù)測(cè)。該層提高了網(wǎng)絡(luò)處理和理解高分辨率細(xì)節(jié)的能力,為使用它的任何算法帶來(lái)了顯著的性能提升。
“另一個(gè)應(yīng)用是小對(duì)象檢索,我們的算法可以精確定位對(duì)象。例如,即使在雜亂的道路場(chǎng)景中,使用FeatUp豐富的算法也可以看到微小的對(duì)象,如交通錐、反光鏡、燈光和坑洼,它們的低位“分辨率表兄弟失敗了。這表明它有能力將粗糙的特征增強(qiáng)為精細(xì)的信號(hào),”博士斯蒂芬妮·傅(StephanieFu)說。加州大學(xué)伯克利分校的學(xué)生,也是新FeatUp論文的另一位共同主要作者。
“這對(duì)于時(shí)間敏感的任務(wù)尤其重要,例如在無(wú)人駕駛汽車中精確定位雜亂的高速公路上的交通標(biāo)志。這不僅可以通過將廣泛的猜測(cè)轉(zhuǎn)化為精確的定位來(lái)提高此類任務(wù)的準(zhǔn)確性,而且還可能使這些系統(tǒng)更加準(zhǔn)確可靠、可解釋且值得信賴。”
下一步是什么?
關(guān)于未來(lái)的愿望,該團(tuán)隊(duì)強(qiáng)調(diào)FeatUp在研究界內(nèi)外的潛在廣泛采用,類似于數(shù)據(jù)增強(qiáng)實(shí)踐。
傅說:“我們的目標(biāo)是使這種方法成為深度學(xué)習(xí)的基本工具,豐富模型以更詳細(xì)地感知世界,而不會(huì)出現(xiàn)傳統(tǒng)高分辨率處理的計(jì)算效率低下的情況。”
康奈爾大學(xué)計(jì)算機(jī)科學(xué)教授NoahSnavely(未參與這項(xiàng)研究)表示:“FeatUp通過以全圖像分辨率生成視覺表示,代表著在使視覺表示變得真正有用??方面取得了巨大進(jìn)步。”
“在過去的幾年里,學(xué)習(xí)的視覺表現(xiàn)已經(jīng)變得非常好,但它們幾乎總是以非常低的分辨率生成——你可能會(huì)放入一張漂亮的全分辨率照片,然后得到一個(gè)微小的、郵票大小的特征網(wǎng)格。如果你想在產(chǎn)生全分辨率輸出的應(yīng)用程序中使用這些功能,這就是一個(gè)問題。FeatUp通過將超分辨率的經(jīng)典思想與現(xiàn)代學(xué)習(xí)方法相結(jié)合,以創(chuàng)造性的方式解決了這個(gè)問題,從而產(chǎn)生了漂亮的高分辨率特征圖。”
“我們希望這個(gè)簡(jiǎn)單的想法能夠得到廣泛的應(yīng)用。它提供了我們以前認(rèn)為只能是低分辨率的圖像分析的高分辨率版本,”麻省理工學(xué)院電氣工程和計(jì)算機(jī)教授、資深作者WilliamT.Freen說道??茖W(xué)教授和CSAIL成員。
主要作者Fu和Hamilton由麻省理工學(xué)院博士陪同。學(xué)生LauraBrandt和AxelFeldnn,以及ZhoutongZhu博士,都是MITCSAIL的現(xiàn)任或前任附屬機(jī)構(gòu)。
標(biāo)簽: