欧美色在线视频播放 视频,国产精品亚洲精品日韩已方,日本特级婬片中文免费看,亚洲 另类 在线 欧美 制服

<td id="8pdsg"><strong id="8pdsg"></strong></td>
<mark id="8pdsg"><menu id="8pdsg"><acronym id="8pdsg"></acronym></menu></mark>
<noscript id="8pdsg"><progress id="8pdsg"></progress></noscript>

    首頁 >> 人工智能 >

    強化學(xué)習(xí)算法的元學(xué)習(xí)框架

    2021-02-22 11:30:55 來源: 用戶: 

    當前的強化學(xué)習(xí)算法使用規(guī)則集進行工作,根據(jù)該規(guī)則集,通過觀察當前環(huán)境狀態(tài)來不斷更新代理的參數(shù)。提高這些算法效率的一種可能方法是使用自動從可用數(shù)據(jù)中發(fā)現(xiàn)更新規(guī)則,同時使算法適應(yīng)特定的環(huán)境條件。這個研究方向仍然提出了很多挑戰(zhàn)。

    在arXiv.org上發(fā)表的最新論文中,作者提議創(chuàng)建元學(xué)習(xí)平臺,該平臺可以發(fā)現(xiàn)整個更新規(guī)則,包括預(yù)測目標(或值函數(shù))以及通過與一組環(huán)境交互從中學(xué)習(xí)的方法。在他們的實驗中,研究人員使用一組三個不同的元訓(xùn)練環(huán)境來嘗試元學(xué)習(xí)完整的強化學(xué)習(xí)更新規(guī)則,從而證明了這種方法的可行性以及其自動化和加速新機器學(xué)習(xí)算法發(fā)現(xiàn)的潛力。

    本文首次嘗試通過共同發(fā)現(xiàn)“預(yù)測內(nèi)容”和“如何進行引導(dǎo)”來元學(xué)習(xí)完整的RL更新規(guī)則,從而取代了現(xiàn)有的RL概念(例如價值函數(shù)和TD學(xué)習(xí))。一小組玩具環(huán)境的結(jié)果表明,發(fā)現(xiàn)的LPG可以在預(yù)測中保留豐富的信息,這對于有效的引導(dǎo)非常重要。我們認為,這只是完全數(shù)據(jù)驅(qū)動的RL算法發(fā)現(xiàn)的開始;從我們的程序生成環(huán)境到新的高級體系結(jié)構(gòu)和替代的產(chǎn)生經(jīng)驗的方法,有許多很有希望的方向來擴展我們的工作。從玩具領(lǐng)域到Atari游戲的徹底概括表明,從與環(huán)境的互動中發(fā)現(xiàn)有效的RL算法可能是可行的,

      免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔。 如有侵權(quán)請聯(lián)系刪除!

     
    分享:
    最新文章
    站長推薦