通過模擬過去學(xué)習(xí)做什么
使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)策略需要手工編寫?yīng)剟?lì)函數(shù)或從人類反饋中學(xué)習(xí)。arXiv.org 上最近的一篇論文建議通過提取環(huán)境中已經(jīng)存在的信息來簡化流程。
可以推斷用戶已經(jīng)針對(duì)自己的偏好進(jìn)行了優(yōu)化。代理應(yīng)該采取與用戶必須完成的相同操作才能導(dǎo)致觀察到的狀態(tài)。因此,需要在時(shí)間上進(jìn)行逆向模擬。該模型使用監(jiān)督學(xué)習(xí)來學(xué)習(xí)逆策略和逆動(dòng)力學(xué)模型以執(zhí)行反向模擬。然后找到可以從單個(gè)狀態(tài)觀察中有意義地更新的獎(jiǎng)勵(lì)表示。
結(jié)果表明,使用這種方法可以減少學(xué)習(xí)中的人工輸入。該模型成功地模仿策略,只訪問從這些策略中采樣的幾個(gè)狀態(tài)。
由于獎(jiǎng)勵(lì)函數(shù)很難指定,最近的工作重點(diǎn)是從人類反饋中學(xué)習(xí)策略。然而,此類方法受到獲取此類反饋的費(fèi)用的阻礙。最近的工作提出,代理可以訪問一個(gè)有效免費(fèi)的信息源:在人類活動(dòng)過的任何環(huán)境中,狀態(tài)已經(jīng)針對(duì)人類偏好進(jìn)行了優(yōu)化,因此代理可以從狀態(tài)中提取有關(guān)人類想要什么的信息. 這種學(xué)習(xí)原則上是可能的,但需要模擬所有可能導(dǎo)致觀察到的狀態(tài)的過去軌跡。這在網(wǎng)格世界中是可行的,但我們?nèi)绾螌⑵鋽U(kuò)展到復(fù)雜的任務(wù)?在這項(xiàng)工作中,我們展示了通過將學(xué)習(xí)到的特征編碼器與學(xué)習(xí)到的逆模型相結(jié)合,我們可以使代理能夠及時(shí)向后模擬人類行為,以推斷他們必須做什么。給定從該技能的最佳策略采樣的單個(gè)狀態(tài),所得算法能夠在 MuJoCo 環(huán)境中重現(xiàn)特定技能。
標(biāo)簽: