ThreeDWorld交通挑戰(zhàn)物理現(xiàn)實(shí)化人工智能的視覺(jué)引導(dǎo)任務(wù)和運(yùn)動(dòng)規(guī)劃基準(zhǔn)
3D虛擬環(huán)境的最新發(fā)展讓我們可以訓(xùn)練和評(píng)估AI算法。然而,以往的研究大多針對(duì)視覺(jué)導(dǎo)航,并未關(guān)注物理交互。
最近arXiv.org上的一篇論文提出了一項(xiàng)新的嵌入式AI任務(wù)。代理必須在現(xiàn)實(shí)的虛擬環(huán)境中移動(dòng)和改變各種對(duì)象的狀態(tài)。特別是,具有兩個(gè)九自由度臂的代理必須探索虛擬房屋,尋找分散在不同房間的物體,并將它們帶到所需的位置。此外,容器被放置在房子里。代理可以使用它們一次傳輸兩個(gè)以上的對(duì)象。
為訓(xùn)練開(kāi)發(fā)了一個(gè)完全基于物理的API。結(jié)果表明,純強(qiáng)化學(xué)習(xí)模型難以完成任務(wù)?;诜謱右?guī)劃的代理取得了更好的結(jié)果,但仍然無(wú)法解決任務(wù)。
我們引入了一個(gè)視覺(jué)引導(dǎo)和物理驅(qū)動(dòng)的任務(wù)和運(yùn)動(dòng)規(guī)劃基準(zhǔn),我們稱之為T(mén)hreeDWorld運(yùn)輸挑戰(zhàn)。在這個(gè)挑戰(zhàn)中,一個(gè)配備了兩個(gè)9自由度關(guān)節(jié)臂的實(shí)體代理在模擬的物理家庭環(huán)境中隨機(jī)生成。代理需要找到散落在房子周圍的一小組物體,撿起它們,然后將它們運(yùn)送到所需的最終位置。我們還在房屋周圍放置容器,這些容器可用作幫助有效運(yùn)輸物品的工具。為了完成任務(wù),實(shí)體代理必須計(jì)劃一系列動(dòng)作,以在面對(duì)現(xiàn)實(shí)的物理約束時(shí)改變大量對(duì)象的狀態(tài)。我們使用ThreeDWorld模擬構(gòu)建了這個(gè)基準(zhǔn)挑戰(zhàn):一個(gè)虛擬3D環(huán)境,其中所有對(duì)象都響應(yīng)物理,以及可以使用完全物理驅(qū)動(dòng)的導(dǎo)航和交互API控制的位置。我們?cè)谶@個(gè)基準(zhǔn)上評(píng)估了幾個(gè)現(xiàn)有的代理。實(shí)驗(yàn)結(jié)果表明:1)純RL模型難以應(yīng)對(duì)這一挑戰(zhàn);2)基于分層規(guī)劃的代理可以傳輸一些對(duì)象,但離解決這個(gè)任務(wù)還很遠(yuǎn)。我們預(yù)計(jì)該基準(zhǔn)將使研究人員能夠?yàn)槲锢硎澜玳_(kāi)發(fā)更智能的物理驅(qū)動(dòng)機(jī)器人。
標(biāo)簽: