研究機器人足球中的強化學(xué)習(xí)和模擬到真實的框架
在“超小型足球”中,由三個機器人組成的兩支球隊相互爭奪進(jìn)球。通常針對每種情況對機器人的行為進(jìn)行編程。強化學(xué)習(xí)可以用來提高機器人的能力;但是,由于硬件的退化以及能源和時間的消耗,現(xiàn)實世界中的培訓(xùn)是不切實際的。
最近的一項研究提出了從模擬到真實訓(xùn)練的框架。在這種情況下,將對機器人進(jìn)行模擬訓(xùn)練,并將學(xué)習(xí)到的策略轉(zhuǎn)移到現(xiàn)實世界中。結(jié)果表明,與人為設(shè)計的策略相比,此策略可導(dǎo)致更廣泛的行為,但攻擊速度較慢且精確度較低。2019年拉丁美洲機器人大賽評估了強化學(xué)習(xí)的有效性。在這里,這是第一次由強化學(xué)習(xí)訓(xùn)練的機器人團(tuán)隊贏得了由人為設(shè)計政策操作的團(tuán)隊的勝利。
本文介紹了一個名為VSSS-RL的開放框架,用于研究機器人足球中的強化學(xué)習(xí)(RL)和模擬到現(xiàn)實,重點是IEEE超小型足球(VSSS)聯(lián)盟。我們提出了一個模擬環(huán)境,在該環(huán)境中,可以訓(xùn)練連續(xù)或離散控制策略來控制足球代理商的完整行為,并提供一種基于域自適應(yīng)的模擬到真實的方法,以使所獲得的策略適用于真實的機器人。我們的結(jié)果表明,受過訓(xùn)練的策略學(xué)會了各種各樣的行為,而這些行為很難通過手工控制策略來實現(xiàn)。借助VSSS-RL,我們在2019年拉丁美洲機器人大賽(LARC)中擊敗了人為設(shè)計的政策,在21個團(tuán)隊中排名第四,是成功在此競賽中成功應(yīng)用強化學(xué)習(xí)(RL)的第一人。
標(biāo)簽: 機器人足球