研究人員教機(jī)器人人類想要什么
在電腦游戲中,賽車應(yīng)該被優(yōu)化,以提高其速度,同時(shí)沿著賽道行駛,然后汽車將踏板推到金屬上,然后繼續(xù)轉(zhuǎn)彎。說明書上沒有告訴汽車直行,所以是臨時(shí)起意的。
這個(gè)例子——在電腦游戲中很有趣,但在生活中并不多——是一個(gè)促使斯坦福大學(xué)研究人員建立更好的方法來設(shè)定自主系統(tǒng)目標(biāo)的例子。
計(jì)算機(jī)科學(xué)和電氣工程助理教授多爾薩薩迪格和她的實(shí)驗(yàn)室將機(jī)器人設(shè)定目標(biāo)的兩種不同方法結(jié)合到一個(gè)過程中,在模擬和實(shí)際實(shí)驗(yàn)中,它們的表現(xiàn)都優(yōu)于單個(gè)部分。研究人員在6月24日的機(jī)器人學(xué):科學(xué)與系統(tǒng)會(huì)議上介紹了這項(xiàng)工作。
計(jì)算機(jī)科學(xué)研究生、《安迪帕蘭》的主要作者安迪帕蘭說:“未來,我完全希望世界上會(huì)有更多的自治系統(tǒng),它們需要理解什么是好的或壞的概念。紙?!爸陵P(guān)重要的是,如果我們想在未來部署這些自治系統(tǒng),那么我們必須這樣做?!?
一種新的團(tuán)隊(duì)向機(jī)器人提供指令的系統(tǒng)——稱為獎(jiǎng)勵(lì)功能——結(jié)合了演示(人類向機(jī)器人展示該做什么)和用戶偏好調(diào)查,在用戶偏好調(diào)查中,人們回答關(guān)于他們希望機(jī)器人如何行為的問題。
扎迪格說:“示威是有益的,但可能會(huì)帶來干擾。另一方面,偏好最多只能提供一點(diǎn)信息,但更準(zhǔn)確?!薄拔覀兊哪繕?biāo)是充分利用兩個(gè)世界的優(yōu)勢(shì),更智能地合并這兩個(gè)來源的數(shù)據(jù),以更好地理解人類偏好的獎(jiǎng)勵(lì)功能?!?
鄭重聲明:本文版權(quán)歸原作者所有。轉(zhuǎn)載文章只是為了傳播更多的信息。如果作者信息標(biāo)注有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除。謝謝你。
標(biāo)簽: