欧美色在线视频播放 视频,国产精品亚洲精品日韩已方,日本特级婬片中文免费看,亚洲 另类 在线 欧美 制服

<td id="8pdsg"><strong id="8pdsg"></strong></td>
<mark id="8pdsg"><menu id="8pdsg"><acronym id="8pdsg"></acronym></menu></mark>
<noscript id="8pdsg"><progress id="8pdsg"></progress></noscript>

    首頁 >> 人工智能 >

    研究人員提出了新的更有效的自動語音識別模型

    2022-09-06 16:33:36 來源: 用戶: 

    Siri和AmazonAlexa等流行的語音助手已經(jīng)向更廣泛的公眾推出了自動語音識別(ASR)。盡管已有數(shù)十年的歷史,但ASR模型仍難以保持一致性和可靠性,尤其是在嘈雜的環(huán)境中。中國研究人員開發(fā)了一種框架,可有效提高ASR針對日常聲學(xué)環(huán)境混亂的性能。

    香港科技大學(xué)和微眾銀行的研究人員提出了一個新的框架——語音語義預(yù)訓(xùn)練(PSP),并展示了他們的新模型對合成高噪聲語音數(shù)據(jù)集的魯棒性。

    他們的研究于8月28日發(fā)表在CAAI人工智能研究上。

    “魯棒性是ASR長期面臨的挑戰(zhàn),”香港科技大學(xué)計算機科學(xué)與工程系的XueyangWu說。“我們希望以低成本提高中國ASR系統(tǒng)的穩(wěn)健性。”

    ASR使用機器學(xué)習(xí)和其他人工智能技術(shù)將語音自動翻譯成文本,用于語音激活系統(tǒng)和轉(zhuǎn)錄軟件等用途。但新的以消費者為中心的應(yīng)用程序越來越多地要求語音識別更好地工作——處理更多的語言和口音,并在視頻會議和現(xiàn)場采訪等現(xiàn)實生活中更可靠地執(zhí)行。

    傳統(tǒng)上,訓(xùn)練包含ASR的聲學(xué)和語言模型需要大量特定于噪聲的數(shù)據(jù),這可能會耗費時間和成本。

    聲學(xué)模型(AM)將單詞變成“音素”,它們是基本聲音的序列。語言模型(LM)將音素解碼為自然語言句子,通常有兩個步驟:一個快速但相對較弱的LM生成一組候選句子,而一個強大但計算量大的LM從候選句子中選擇最佳句子。

    “傳統(tǒng)的學(xué)習(xí)模型對嘈雜的聲學(xué)模型輸出并不穩(wěn)健,尤其是對于具有相同發(fā)音的中文和弦詞,”吳說。“如果第一遍學(xué)習(xí)模型解碼不正確,第二遍就很難彌補。”

    新提出的框架PSP可以更容易地恢復(fù)錯誤分類的單詞。通過預(yù)訓(xùn)練將AM輸出與完整上下文信息一起直接轉(zhuǎn)換為句子的模型,研究人員可以幫助LM從AM的嘈雜輸出中有效地恢復(fù)。

    PSP框架允許模型通過稱為噪聲感知課程的預(yù)訓(xùn)練機制進行改進,該機制逐漸引入新技能,從簡單開始并逐漸轉(zhuǎn)向更復(fù)雜的任務(wù)。

    “我們提出的方法中最關(guān)鍵的部分,即噪聲感知課程學(xué)習(xí),模擬了人類如何從嘈雜的語音中識別句子的機制,”吳說。

    預(yù)熱是第一階段,研究人員在干凈的音素序列上預(yù)訓(xùn)練音素轉(zhuǎn)換器,該音素序列僅從未標(biāo)記的文本數(shù)據(jù)轉(zhuǎn)換而來,以減少注釋時間。這個階段“預(yù)熱”模型,初始化基本參數(shù)以將音素序列映射到單詞。

    在第二階段,自我監(jiān)督學(xué)習(xí)中,傳感器從自我監(jiān)督訓(xùn)練技術(shù)和功能生成的更復(fù)雜的數(shù)據(jù)中學(xué)習(xí)。最后,生成的語音到單詞轉(zhuǎn)換器使用真實世界的語音數(shù)據(jù)進行微調(diào)。

    研究人員通過實驗證明了他們的框架在從工業(yè)場景和合成噪聲中收集的兩個真實數(shù)據(jù)集上的有效性。結(jié)果表明,PSP框架有效地改進了傳統(tǒng)的ASR流水線,將第一個數(shù)據(jù)集的相對字符錯誤率降低了28.63%,第二個數(shù)據(jù)集降低了26.38%。

    在接下來的步驟中,研究人員將使用更大的未配對數(shù)據(jù)集研究更有效的PSP預(yù)訓(xùn)練方法,以最大限度地提高抗噪LM預(yù)訓(xùn)練的有效性。

      免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!

     
    分享:
    最新文章
    站長推薦