文字轉(zhuǎn)語音技術(shù)(語音技術(shù))
大家好,來寶來為大家解答以下問題,文字轉(zhuǎn)語音技術(shù),語音技術(shù)很多人還不知道,今天讓我們一起來看看吧!
1、 什么是語音識別技術(shù)?
2、 語音識別技術(shù)(Speech recognition technology)是一種讓機器通過識別和理解的過程,將語音信號轉(zhuǎn)換成相應(yīng)的文本或命令,即讓機器理解人類語音的高技術(shù)。
3、 也就是說,如果電腦裝有“語音識別”程序組,那么當(dāng)你的語音通過轉(zhuǎn)換裝置輸入電腦并進(jìn)行數(shù)字化存儲后,語音識別程序就會開始將你輸入的語音樣本與預(yù)存的語音樣本進(jìn)行比對。聲音對比完成后,計算機會輸入它認(rèn)為最“形象”的聲音樣本的序號,這樣它就能知道你剛才讀的聲音的意思,然后執(zhí)行這個命令。說起來容易,但是真正建立一個高識別率的語音識別程序組是非常困難和專業(yè)的。全世界的學(xué)者都還在努力研究最好的方法。學(xué)者們發(fā)展了許多方法來解決這個問題,如傅立葉變換、倒譜參數(shù)等。以至于現(xiàn)在的語音識別系統(tǒng)已經(jīng)達(dá)到了可以接受的程度,而且識別度越來越高。
4、 計算機語音識別的過程與人類語音識別的過程基本相同。目前,主流的語音識別技術(shù)都是基于統(tǒng)計模式識別的基本理論。一個完整的語音識別系統(tǒng)大致可以分為三個部分:
5、 (1)語音特征提?。耗康氖菑恼Z音波形中提取隨時間變化的語音特征序列。
6、 (2)聲學(xué)模型和模式匹配(識別算法):聲學(xué)模型是識別系統(tǒng)的底層模型,是語音識別系統(tǒng)最關(guān)鍵的部分。聲學(xué)模型通常通過訓(xùn)練獲得的語音特征來生成,目的是為每個發(fā)音建立發(fā)音模板。在識別過程中,將未知語音特征與聲學(xué)模型(模式)進(jìn)行匹配和比較,并計算未知語音的特征向量序列與每個發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計與語言發(fā)音的特點密切相關(guān)。聲學(xué)模型單元(單詞發(fā)音模型、半音節(jié)模型或音素模型)的大小對語音訓(xùn)練數(shù)據(jù)量、系統(tǒng)識別率和靈活性有很大影響。
7、 (3)語義理解:計算機從語法和語義上分析識別結(jié)果。理解語言的含義,以便做出相應(yīng)的反應(yīng)。通常通過語言模型來實現(xiàn)。
8、 所謂“語音識別”,就是利用電子計算機等機械設(shè)備來識別人說話的意思和內(nèi)容。20世紀(jì)50年代,有人提出了“聽寫打印機”的設(shè)想??梢哉f這是語音識別技術(shù)最早的構(gòu)想。
9、 語音識別技術(shù)經(jīng)歷了語音識別、語音合成和自然語音合成三個階段。原則上,計算機識別人的語言似乎并不難。其實困難還是很多的。比如,不同的人讀同一個單詞時發(fā)出的聲音,聲學(xué)特性并不完全相同;即使是同一個人,同一個詞在不同情況下的發(fā)音也是不同的。此外,人們說話往往脫離語法,有時夾雜一些俗語或省略一些詞語,語速不一。所有這些東西,在我們聽別人說的時候似乎都不是問題,但是機器要理解卻非常困難。近年來,由于計算機功能日益強大,存儲技術(shù)、語音算法技術(shù)和信號處理技術(shù)的巨大進(jìn)步,以及軟件編程水平的提高,語音識別技術(shù)取得了突破性進(jìn)展,使其廣泛應(yīng)用成為可能。
10、 語音識別技術(shù)的應(yīng)用主要包括以下兩個方面。一個是用于人機交流。目前這一領(lǐng)域應(yīng)用的呼聲很高,因為用鍵盤鼠標(biāo)與電子計算機交流的方式,把很多非專業(yè)人士,尤其是不懂英語或不熟悉漢語拼音的人擋在了門外,從而影響了電子計算機的進(jìn)一步普及。隨著語音識別技術(shù)的采用,人與計算機之間的交互方式發(fā)生了變化。人們只需動動嘴就可以打開或關(guān)閉程序,改變工作界面。電腦人性化的結(jié)果就是解放了人的雙手,讓每個人都能操作和應(yīng)用電腦。電話仍然是目前使用最廣泛的通訊工具。通過電話和語音識別系統(tǒng)的配合,可以實現(xiàn)語音撥號、電話購物、銀行業(yè)務(wù)、股票交易、互聯(lián)網(wǎng)上的信息檢索或電子處理。很快,可以根據(jù)主人的密碼接通電話、打開收音機、通過聲紋識別來訪者身份的安全系統(tǒng)也將得到應(yīng)用。
11、 語音識別技術(shù)的另一個應(yīng)用是語音輸入和合成語音輸出。現(xiàn)在,已經(jīng)出現(xiàn)了一種語音軟件,可以將口述文稿輸入電腦,并按照指定的格式進(jìn)行編排,比鍵盤輸入快2 ~ 4倍。裝有語音軟件的計算機還可以通過語音合成“讀出”計算機中各種語言的文件,這將大大促進(jìn)遠(yuǎn)程通信和網(wǎng)絡(luò)電話的發(fā)展。
12、 目前,語音技術(shù)主要應(yīng)用于電子商務(wù)、客戶服務(wù)、教育培訓(xùn)等領(lǐng)域。對于節(jié)省人力和時間,提高工作效率會起到明顯的作用。目前,可以實現(xiàn)自動翻譯的語音識別系統(tǒng)也在研究和改進(jìn)中。
13、 語音識別是一門交叉學(xué)科。近二十年來,語音識別技術(shù)取得了顯著的進(jìn)步,并開始從實驗室走向市場。據(jù)預(yù)測,未來10年,語音識別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療保健、家庭服務(wù)、消費電子等各個領(lǐng)域。
本文講解到此結(jié)束,希望對大家有所幫助。
標(biāo)簽: