在沒有3D監(jiān)督的情況下學(xué)習(xí)3D對(duì)象形狀和布局
可以通過每個(gè)對(duì)象的3D形狀和空間中對(duì)象的3D布局來指定3D場(chǎng)景。然而,直接測(cè)量3D結(jié)構(gòu)通常是不切實(shí)際的;因此,從2D圖像推斷3D場(chǎng)景的形狀和布局是計(jì)算機(jī)視覺中的一個(gè)基本問題。
arXiv.org最近的一篇論文提出了一種從單個(gè)圖像預(yù)測(cè)復(fù)雜場(chǎng)景中的3D對(duì)象形狀和布局的方法。它在訓(xùn)練期間不使用地面實(shí)況形狀或布局,多視圖圖像中的對(duì)象輪廓用于學(xué)習(xí)。
預(yù)測(cè)3D形狀的MeshR-CNN增加了一個(gè)布局網(wǎng)絡(luò),該網(wǎng)絡(luò)估計(jì)每個(gè)對(duì)象的3D位置。三個(gè)數(shù)據(jù)集的結(jié)果展示了可擴(kuò)展多視圖監(jiān)督的實(shí)用性。該方法可擴(kuò)展到具有許多對(duì)象的復(fù)雜、逼真的場(chǎng)景,并且可以從嘈雜的真實(shí)世界視頻中學(xué)習(xí),而無需昂貴的地面實(shí)況。
3D場(chǎng)景由一組對(duì)象組成,每個(gè)對(duì)象都有一個(gè)形狀和一個(gè)布局,給出了它們?cè)诳臻g中的位置。從2D圖像中理解3D場(chǎng)景是一個(gè)重要目標(biāo),在機(jī)器人和圖形學(xué)中都有應(yīng)用。雖然最近在從單個(gè)圖像預(yù)測(cè)3D形狀和布局方面取得了進(jìn)展,但大多數(shù)方法依賴于3D地面實(shí)況進(jìn)行訓(xùn)練,而大規(guī)模收集的成本很高。我們克服了這些限制,并提出了一種無需任何地面實(shí)況形狀或布局信息即可學(xué)習(xí)預(yù)測(cè)對(duì)象的3D形狀和布局的方法:相反,我們依賴于具有2D監(jiān)督的多視圖圖像,可以更輕松地大規(guī)模收集。通過對(duì)3DWarehouse、Hypersim和ScanNet的廣泛實(shí)驗(yàn),我們證明了我們的方法可以擴(kuò)展到真實(shí)圖像的大型數(shù)據(jù)集,并且與依賴3D地面實(shí)況的方法相比具有優(yōu)勢(shì)。在無法獲得可靠的3D地面實(shí)況的Hypersim和ScanNet上,我們的方法優(yōu)于在較小和較少多樣化數(shù)據(jù)集上訓(xùn)練的監(jiān)督方法。
標(biāo)簽: