欧美色在线视频播放 视频,国产精品亚洲精品日韩已方,日本特级婬片中文免费看,亚洲 另类 在线 欧美 制服

<td id="8pdsg"><strong id="8pdsg"></strong></td>
<mark id="8pdsg"><menu id="8pdsg"><acronym id="8pdsg"></acronym></menu></mark>
<noscript id="8pdsg"><progress id="8pdsg"></progress></noscript>

    首頁(yè) >> 人工智能 >

    強(qiáng)化學(xué)習(xí)算法的元學(xué)習(xí)框架

    2021-02-22 11:30:55 來(lái)源: 用戶: 

    當(dāng)前的強(qiáng)化學(xué)習(xí)算法使用規(guī)則集進(jìn)行工作,根據(jù)該規(guī)則集,通過(guò)觀察當(dāng)前環(huán)境狀態(tài)來(lái)不斷更新代理的參數(shù)。提高這些算法效率的一種可能方法是使用自動(dòng)從可用數(shù)據(jù)中發(fā)現(xiàn)更新規(guī)則,同時(shí)使算法適應(yīng)特定的環(huán)境條件。這個(gè)研究方向仍然提出了很多挑戰(zhàn)。

    在arXiv.org上發(fā)表的最新論文中,作者提議創(chuàng)建元學(xué)習(xí)平臺(tái),該平臺(tái)可以發(fā)現(xiàn)整個(gè)更新規(guī)則,包括預(yù)測(cè)目標(biāo)(或值函數(shù))以及通過(guò)與一組環(huán)境交互從中學(xué)習(xí)的方法。在他們的實(shí)驗(yàn)中,研究人員使用一組三個(gè)不同的元訓(xùn)練環(huán)境來(lái)嘗試元學(xué)習(xí)完整的強(qiáng)化學(xué)習(xí)更新規(guī)則,從而證明了這種方法的可行性以及其自動(dòng)化和加速新機(jī)器學(xué)習(xí)算法發(fā)現(xiàn)的潛力。

    本文首次嘗試通過(guò)共同發(fā)現(xiàn)“預(yù)測(cè)內(nèi)容”和“如何進(jìn)行引導(dǎo)”來(lái)元學(xué)習(xí)完整的RL更新規(guī)則,從而取代了現(xiàn)有的RL概念(例如價(jià)值函數(shù)和TD學(xué)習(xí))。一小組玩具環(huán)境的結(jié)果表明,發(fā)現(xiàn)的LPG可以在預(yù)測(cè)中保留豐富的信息,這對(duì)于有效的引導(dǎo)非常重要。我們認(rèn)為,這只是完全數(shù)據(jù)驅(qū)動(dòng)的RL算法發(fā)現(xiàn)的開(kāi)始;從我們的程序生成環(huán)境到新的高級(jí)體系結(jié)構(gòu)和替代的產(chǎn)生經(jīng)驗(yàn)的方法,有許多很有希望的方向來(lái)擴(kuò)展我們的工作。從玩具領(lǐng)域到Atari游戲的徹底概括表明,從與環(huán)境的互動(dòng)中發(fā)現(xiàn)有效的RL算法可能是可行的,

      免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!

     
    分享:
    最新文章
    站長(zhǎng)推薦