OpenAI揭示了新的文本轉(zhuǎn)語(yǔ)音模型既有希望也有危險(xiǎn)
OpenAI不斷突破人工智能技術(shù)的界限。首先,它發(fā)布了一款只需描述即可生成數(shù)字圖像的工具。然后,它推出了Sora,一種可以生成好萊塢品質(zhì)的動(dòng)態(tài)視頻的技術(shù)。現(xiàn)在,它正在進(jìn)軍語(yǔ)音娛樂(lè)領(lǐng)域。
OpenAI的最新功能是用非常像人類的聲音大聲朗讀文本。人工智能領(lǐng)域的這一突破標(biāo)志著一次重大飛躍,但也引發(fā)了人們對(duì)深度造假潛力的擔(dān)憂(來(lái)自彭博社)。
該公司已經(jīng)公布了測(cè)試此功能的早期結(jié)果,并提供了演示,您可以在此處收聽(tīng)。這種文本轉(zhuǎn)語(yǔ)音模型被稱為語(yǔ)音引擎,目前正處于有限的試用階段,大約有10名開(kāi)發(fā)人員。OpenAI選擇了謹(jǐn)慎的態(tài)度,而不是廣泛發(fā)布。
根據(jù)政策制定者和教育工作者等利益相關(guān)者的反饋,OpenAI決定縮減其最初的推出規(guī)模。該公司承認(rèn)生成類人語(yǔ)音存在嚴(yán)重風(fēng)險(xiǎn),尤其是在選舉年等敏感時(shí)期。
該公司在博客文章中寫道:
我們認(rèn)識(shí)到,生成類似于人們聲音的言論存在嚴(yán)重風(fēng)險(xiǎn),這在選舉年尤其值得關(guān)注。我們正在與來(lái)自政府、媒體、娛樂(lè)、教育、民間社會(huì)等領(lǐng)域的美國(guó)和國(guó)際合作伙伴合作,以確保我們?cè)诮ㄔO(shè)過(guò)程中吸收他們的反饋。
與以前的音頻項(xiàng)目不同,語(yǔ)音引擎因其能夠以驚人的準(zhǔn)確性模仿個(gè)人聲音、捕捉節(jié)奏和語(yǔ)調(diào)的細(xì)微差別而脫穎而出。它只需要15秒就能一個(gè)人的聲音。
OpenAI的合作伙伴包括Lifespan的NornPrince神經(jīng)科學(xué)研究所,該研究所使用該技術(shù)幫助患者進(jìn)行語(yǔ)音康復(fù)。例如,它被用來(lái)幫助一位因腦腫瘤而難以清晰說(shuō)話的年輕患者恢復(fù)言語(yǔ)。人工智能從學(xué)校項(xiàng)目的早期錄音中學(xué)習(xí)。
除了在醫(yī)療保健領(lǐng)域的應(yīng)用之外,定制語(yǔ)音模型還引起了Spotify等公司的注意,該公司看到了將播客等音頻內(nèi)容翻譯成多種語(yǔ)言的潛力。然而,OpenAI強(qiáng)調(diào)使用該技術(shù)的道德準(zhǔn)則,包括獲得原始演講者的同意以及向聽(tīng)眾披露人工智能生成的內(nèi)容。
標(biāo)簽: