欧美色在线视频播放 视频,国产精品亚洲精品日韩已方,日本特级婬片中文免费看,亚洲 另类 在线 欧美 制服

<td id="8pdsg"><strong id="8pdsg"></strong></td>
<mark id="8pdsg"><menu id="8pdsg"><acronym id="8pdsg"></acronym></menu></mark>
<noscript id="8pdsg"><progress id="8pdsg"></progress></noscript>

    首頁 >> 人工智能 >

    基于擴散網(wǎng)的瞬態(tài)噪聲環(huán)境語音活動檢測

    2021-08-05 15:58:31 來源: 用戶: 

    語音活動檢測是一項必須將音頻信號分割為語音和靜音部分的任務(wù)。當(dāng)前的方法在嘈雜的環(huán)境中難以完成任務(wù),尤其是瞬態(tài)噪聲。最近在 arXiv.org 上的一項研究提出了一種新算法,可以解決以前方法的局限性。

    語音和非語音音頻幀的空間模式是通過 Diffusion Maps 方法獨立學(xué)習(xí)的。它通過將高維數(shù)據(jù)點映射到嵌入低維空間的流形來執(zhí)行非線性降維。這讓語音的內(nèi)在結(jié)構(gòu)與瞬態(tài)和背景噪聲的結(jié)構(gòu)不同。五個對比實驗證實,所提出的算法增強了語音活動檢測性能,并且比競爭方法具有更好的泛化能力。

    我們在瞬態(tài)和靜態(tài)噪聲的聲學(xué)環(huán)境中解決語音活動檢測問題,這在現(xiàn)實生活中經(jīng)常發(fā)生。我們通過獨立學(xué)習(xí)語音和非語音音頻幀的底層幾何結(jié)構(gòu)來利用其獨特的空間模式。這個過程是通過一個基于深度編碼器-解碼器的神經(jīng)網(wǎng)絡(luò)架構(gòu)來完成的。這種結(jié)構(gòu)涉及一個編碼器,它將具有時間信息的光譜特征映射到它們的低維表示,這些表示是通過應(yīng)用擴散圖方法生成的。編碼器饋送解碼器,將嵌入的數(shù)據(jù)映射回高維空間。通過將解碼器連接到編碼器來獲得一個深度神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)被訓(xùn)練為將語音與非語音幀分離,類似于已知的擴散網(wǎng)絡(luò)架構(gòu)。實驗結(jié)果表明,與競爭的語音活動檢測方法相比,性能有所提高。在準(zhǔn)確性、魯棒性和泛化能力方面都實現(xiàn)了改進(jìn)。我們的模型以實時方式執(zhí)行,并且可以集成到基于音頻的通信系統(tǒng)中。我們還提出了一種批處理算法,它為離線應(yīng)用程序獲得了更高的準(zhǔn)確性。

      免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!

     
    分享:
    最新文章
    站長推薦