通過(guò)無(wú)模型強(qiáng)化學(xué)習(xí)在20分鐘內(nèi)學(xué)會(huì)走路
發(fā)布日期:2022-08-24 16:38:44 來(lái)源: 編輯:
強(qiáng)化學(xué)習(xí)(RL)是學(xué)習(xí)機(jī)器人技能的完美方法。然而,現(xiàn)實(shí)世界的訓(xùn)練需要很多時(shí)間;因此,開(kāi)發(fā)了復(fù)雜的模擬系統(tǒng)。
最近在arXiv.org上發(fā)表的一篇論文著重于機(jī)器人運(yùn)動(dòng)的任務(wù)。結(jié)果表明,通過(guò)在任務(wù)設(shè)置和算法實(shí)現(xiàn)中的幾個(gè)精心設(shè)計(jì)決策,四足機(jī)器人可以在20分鐘內(nèi)學(xué)會(huì)使用深度RL從頭開(kāi)始??行走。
研究人員不使用新穎的算法組件或任何其他意想不到的創(chuàng)新,而是仔細(xì)實(shí)施幾個(gè)現(xiàn)有算法框架之一,結(jié)合深度學(xué)習(xí)包和仔細(xì)的設(shè)計(jì)決策。
該論文表明,現(xiàn)有組件的仔細(xì)組合可以實(shí)現(xiàn)在現(xiàn)實(shí)世界中直接學(xué)習(xí)運(yùn)動(dòng)技能,而訓(xùn)練時(shí)間比之前的工作報(bào)告的要短得多。
標(biāo)簽: