欧美色在线视频播放 视频,国产精品亚洲精品日韩已方,日本特级婬片中文免费看,亚洲 另类 在线 欧美 制服

<td id="8pdsg"><strong id="8pdsg"></strong></td>
<mark id="8pdsg"><menu id="8pdsg"><acronym id="8pdsg"></acronym></menu></mark>
<noscript id="8pdsg"><progress id="8pdsg"></progress></noscript>

    首頁(yè) >> 人工智能 >

    研究機(jī)器人足球中的強(qiáng)化學(xué)習(xí)和模擬到真實(shí)的框架

    2021-02-20 14:00:40 來(lái)源: 用戶: 

    在“超小型足球”中,由三個(gè)機(jī)器人組成的兩支球隊(duì)相互爭(zhēng)奪進(jìn)球。通常針對(duì)每種情況對(duì)機(jī)器人的行為進(jìn)行編程。強(qiáng)化學(xué)習(xí)可以用來(lái)提高機(jī)器人的能力;但是,由于硬件的退化以及能源和時(shí)間的消耗,現(xiàn)實(shí)世界中的培訓(xùn)是不切實(shí)際的。

    最近的一項(xiàng)研究提出了從模擬到真實(shí)訓(xùn)練的框架。在這種情況下,將對(duì)機(jī)器人進(jìn)行模擬訓(xùn)練,并將學(xué)習(xí)到的策略轉(zhuǎn)移到現(xiàn)實(shí)世界中。結(jié)果表明,與人為設(shè)計(jì)的策略相比,此策略可導(dǎo)致更廣泛的行為,但攻擊速度較慢且精確度較低。2019年拉丁美洲機(jī)器人大賽評(píng)估了強(qiáng)化學(xué)習(xí)的有效性。在這里,這是第一次由強(qiáng)化學(xué)習(xí)訓(xùn)練的機(jī)器人團(tuán)隊(duì)贏得了由人為設(shè)計(jì)政策操作的團(tuán)隊(duì)的勝利。

    本文介紹了一個(gè)名為VSSS-RL的開放框架,用于研究機(jī)器人足球中的強(qiáng)化學(xué)習(xí)(RL)和模擬到現(xiàn)實(shí),重點(diǎn)是IEEE超小型足球(VSSS)聯(lián)盟。我們提出了一個(gè)模擬環(huán)境,在該環(huán)境中,可以訓(xùn)練連續(xù)或離散控制策略來(lái)控制足球代理商的完整行為,并提供一種基于域自適應(yīng)的模擬到真實(shí)的方法,以使所獲得的策略適用于真實(shí)的機(jī)器人。我們的結(jié)果表明,受過訓(xùn)練的策略學(xué)會(huì)了各種各樣的行為,而這些行為很難通過手工控制策略來(lái)實(shí)現(xiàn)。借助VSSS-RL,我們?cè)?019年拉丁美洲機(jī)器人大賽(LARC)中擊敗了人為設(shè)計(jì)的政策,在21個(gè)團(tuán)隊(duì)中排名第四,是成功在此競(jìng)賽中成功應(yīng)用強(qiáng)化學(xué)習(xí)(RL)的第一人。

      免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!

     
    分享:
    最新文章
    站長(zhǎng)推薦