欧美色在线视频播放 视频,国产精品亚洲精品日韩已方,日本特级婬片中文免费看,亚洲 另类 在线 欧美 制服

<td id="8pdsg"><strong id="8pdsg"></strong></td>
<mark id="8pdsg"><menu id="8pdsg"><acronym id="8pdsg"></acronym></menu></mark>
<noscript id="8pdsg"><progress id="8pdsg"></progress></noscript>

    首頁 >> 人工智能 >

    會議中主動發(fā)言者檢測的音視頻融合策略

    2022-06-24 16:58:51 來源: 用戶: 

    主動說話者檢測是檢測在給定時間說話的人的任務(wù)。在這種情況下,交流不僅通過語音進(jìn)行,還通過非語言符號進(jìn)行。因此,純音頻方法可能不夠高效。

    arXiv.org最近的一篇論文提出了一種依賴于音頻信息與視頻信息相結(jié)合的方法。

    研究人員合并視覺和音頻特征以獲得穩(wěn)健的最終檢測。分析了兩種可能的音頻分析方法:一種具有神經(jīng)網(wǎng)絡(luò)的監(jiān)督方法和一種具有揚聲器分割和聚類方法的無監(jiān)督方法。基于3DCNN的純視覺說話者分類器應(yīng)用于視覺模態(tài)。

    研究人員比較了兩種融合:樸素融合和基于注意力模塊的融合。結(jié)果表明,合并視覺和音頻模式比我們的基于視頻的系統(tǒng)具有更高的性能。

    會議是專業(yè)環(huán)境中的常見活動,賦予語音助理高級功能以促進(jìn)會議管理仍然具有挑戰(zhàn)性。在這種情況下,像主動說話者檢測這樣的任務(wù)可以為模擬會議參與者之間的交互提供有用的見解。受我們與高級會議助手相關(guān)的應(yīng)用程序上下文的啟發(fā),我們希望結(jié)合音頻和視頻信息以實現(xiàn)最佳性能。在本文中,我們提出了兩種不同類型的融合來檢測主動說話者,通過神經(jīng)網(wǎng)絡(luò)結(jié)合兩種視覺模式和一種音頻模式。為了進(jìn)行比較,還使用了用于音頻特征提取的經(jīng)典無監(jiān)督方法。我們期望以每個參與者的面部為中心的視覺數(shù)據(jù)非常適合基于對嘴唇和面部手勢的檢測來檢測語音活動。因此,我們的基線系統(tǒng)使用視覺數(shù)據(jù),我們選擇了3D卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)對于同時編碼外觀和運動是有效的。為了改進(jìn)這個系統(tǒng),我們通過使用CNN或無監(jiān)督揚聲器分類系統(tǒng)處理音頻流來補充視覺信息。我們通過光流運動添加視覺模態(tài)信息,進(jìn)一步改進(jìn)了這個系統(tǒng)。我們使用公開且最先進(jìn)的基準(zhǔn)評估了我們的提案:AMI語料庫。我們分析了每個系統(tǒng)對合并的貢獻(xiàn),以確定給定的參與者當(dāng)前是否在講話。我們還討論了我們獲得的結(jié)果。此外,我們已經(jīng)證明,對于我們的應(yīng)用程序上下文,添加運動信息可以大大提高性能。最后,我們證明了基于注意力的融合在降低標(biāo)準(zhǔn)偏差的同時提高了性能。

      免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!

     
    分享:
    最新文章
    站長推薦