深度學(xué)習(xí)網(wǎng)絡(luò)可能更喜歡人類的聲音
數(shù)字革命是建立在二進(jìn)制的基礎(chǔ)上的,這些不可見的 1 和 0 稱為位。計(jì)算機(jī)更喜歡用二進(jìn)制數(shù)“說話”的觀點(diǎn)很少受到質(zhì)疑。根據(jù)哥倫比亞工程公司的新研究,這種情況可能即將改變。
一個(gè)新的 美國國家科學(xué)基金會(huì)資助的研究由機(jī)械工程師三Hod Lipson和研究員陳博園證明,如果它們與人類語言的聲音文件,而不是數(shù)字?jǐn)?shù)據(jù)標(biāo)簽編程,人工智能系統(tǒng)可能會(huì)達(dá)到更高的性能水平。
研究人員發(fā)現(xiàn),“訓(xùn)練標(biāo)簽”由聲音文件組成的神經(jīng)網(wǎng)絡(luò)在識(shí)別圖像中的對(duì)象方面達(dá)到了比另一個(gè)使用簡(jiǎn)單二進(jìn)制輸入以更傳統(tǒng)方式編程的網(wǎng)絡(luò)更高的性能水平。
“要了解為什么這一發(fā)現(xiàn)很重要,”Lipson 說,“了解神經(jīng)網(wǎng)絡(luò)通常是如何編程的,以及為什么使用人聲是一項(xiàng)激進(jìn)的實(shí)驗(yàn)是很有用的。”
二進(jìn)制數(shù)的語言簡(jiǎn)潔而精確地傳達(dá)信息。相比之下,人類口語更具有音調(diào)和模擬性,并且在以數(shù)字文件形式捕獲時(shí),是非二進(jìn)制的。由于數(shù)字是將數(shù)據(jù)數(shù)字化的有效方式,因此程序員在開發(fā)神經(jīng)網(wǎng)絡(luò)時(shí)很少偏離數(shù)字驅(qū)動(dòng)的過程。
Lipson 和 Chen 推測(cè),如果系統(tǒng)被“訓(xùn)練”為識(shí)別物體,例如,通過使用世界上進(jìn)化程度最高的聲音之一——人類說出特定單詞的聲音,神經(jīng)網(wǎng)絡(luò)可能會(huì)學(xué)得更快更好。
該團(tuán)隊(duì)以一種新穎的方式建立了實(shí)驗(yàn)神經(jīng)網(wǎng)絡(luò)。他們?yōu)樗峁┝艘粋€(gè)數(shù)據(jù)表,其中包含一張動(dòng)物或物體的照片,以及一個(gè)人類對(duì)所描繪的動(dòng)物或物體的單詞發(fā)音的音頻文件。沒有 1 和 0。
起初,研究人員驚訝地發(fā)現(xiàn)他們的預(yù)感是正確的——音頻文件和二進(jìn)制 1 和 0 之間沒有明顯的優(yōu)勢(shì)??刂粕窠?jīng)網(wǎng)絡(luò)和實(shí)驗(yàn)神經(jīng)網(wǎng)絡(luò)的表現(xiàn)同樣出色,大約 92% 的時(shí)間都能正確識(shí)別照片中描繪的動(dòng)物或物體。為了仔細(xì)檢查他們的結(jié)果,研究人員再次進(jìn)行了實(shí)驗(yàn)并得到了相同的結(jié)果。
將于 5 月 3 日在 國際學(xué)習(xí)代表會(huì)議上公布的結(jié)果是利普森哥倫比亞創(chuàng)意機(jī)器實(shí)驗(yàn)室更廣泛努力的一部分,該實(shí)驗(yàn)室旨在創(chuàng)造能夠通過與其他機(jī)器和人類互動(dòng)而不是通過與其他機(jī)器和人類互動(dòng)來理解周圍世界的機(jī)器人。用精心預(yù)處理的數(shù)據(jù)直接編程。
標(biāo)簽: