欧美色在线视频播放 视频,国产精品亚洲精品日韩已方,日本特级婬片中文免费看,亚洲 另类 在线 欧美 制服

<td id="8pdsg"><strong id="8pdsg"></strong></td>
<mark id="8pdsg"><menu id="8pdsg"><acronym id="8pdsg"></acronym></menu></mark>
<noscript id="8pdsg"><progress id="8pdsg"></progress></noscript>

    1. 首頁 >資訊 > 正文

    語音識別:您的智能手機變得更智能

    當(dāng)我們還是孩子的時候,我和我的朋友們經(jīng)常玩一個游戲,我們在游戲中幻想哪些星際迷航技術(shù)最有可能是我們生活中的現(xiàn)實世界發(fā)明。輸送機和經(jīng)紗驅(qū)動-不太可能。但是通訊器、聲控計算機和通用翻譯器是非??赡艿?。

    當(dāng)語音識別出現(xiàn)在電腦桌面上時,這似乎是一個好主意——但對大多數(shù)人來說,它不能代替鍵盤和鼠標(biāo)?,F(xiàn)在,語音識別技術(shù)正在一個全新的環(huán)境中使用:手機。它的存在進一步促進了它在桌面上的使用和發(fā)展。

    語音識別最早作為一種原始技術(shù)出現(xiàn)在20世紀(jì)50年代,那只是一種好奇。20世紀(jì)60年代初,IBM的鞋盒設(shè)備可以識別16個口語單詞,并對簡單的數(shù)學(xué)請求做出響應(yīng),例如“三加四的總數(shù)”。

    Dragon Systems的口授可能是PC的第一個語音識別程序,它是在20世紀(jì)80年代早期為DOS計算機發(fā)布的。它只能識別單個單詞,一次只能說一個。隨著時間的推移,它演變成了龍的自然語音的產(chǎn)物(現(xiàn)在是第11版,歸Nuance Communications所有),可以用正常的會話聲音和速度轉(zhuǎn)錄口語文本。

    桌面上的語音識別有兩大局限。首先,為了使程序高度準(zhǔn)確,必須訓(xùn)練它識別用戶的語音模式。Windows Vista和Windows7的原生語音仍然需要用戶培訓(xùn)期,才能對文本技術(shù)和第三方產(chǎn)品(如Long Nature Speech)有用。

    第二個限制是鍵盤的普及。大多數(shù)人習(xí)慣于打字而不是說話,因此語音控制面臨著與德沃夏克鍵盤布局相同的困難障礙。普通老QWERTY現(xiàn)成好用,為什么還要學(xué)用dvorak?

    負責(zé)為各種環(huán)境開發(fā)語音識別技術(shù)的微軟TellMe團隊高級產(chǎn)品經(jīng)理Abhi release非常贊同這一點:“在桌面環(huán)境下,用戶可以輕松使用其他交互方式,即鍵盤和鼠標(biāo),所以使用語音主要針對語音愛好者。

    更廣泛的應(yīng)用所需要的語音控制計算是兩件事——開箱即用更好,演講已經(jīng)是王道。其中一個地方長期以來一直在崛起:手機。

    Nuance產(chǎn)品管理和營銷副總裁Matt Revis解釋了桌面和移動環(huán)境的區(qū)別:“桌面是完全專注于桌面用例的靜態(tài)環(huán)境,因此桌面語音遵循任務(wù)流:支持辦公應(yīng)用、Web瀏覽、通信等。在移動領(lǐng)域,說話更多的是支持各種生活方式:專業(yè)人士出門、出去玩、免提(通話)等等。

    Gartner分析師Tuong阮源也認(rèn)為,聲音在移動環(huán)境中更有意義?!皬氖褂媒嵌葋砜?,”他說,“語音識別在手持設(shè)備上的價值要大得多。它增加了一種方便直觀的輸入法。

    Nguyen補充說,這當(dāng)然是正確的,如果一個簡單陳述的替代方法是挖掘大量菜單或?qū)刮⑿〉钠聊绘I盤:“隨著純觸摸設(shè)備(沒有物理按鍵)的使用越來越多,語音識別被用來增強數(shù)據(jù)輸入/輸入。它還支持免提要求或立法”。

    (故事在下一頁繼續(xù))

    語音識別是通過建立口語統(tǒng)計模型來實現(xiàn)的?!盀榱俗R別口語單詞,”谷歌產(chǎn)品經(jīng)理阿米爾馬內(nèi)(Amir Mane)說,“我們比較了輸入語音和語言的統(tǒng)計模型,試圖找到最接近的匹配——系統(tǒng)對用戶所說內(nèi)容的最佳猜測?!?

    語言的統(tǒng)計模型需要大量的存儲空間才能實用。馬內(nèi)說:“(它們)必須涵蓋一種語言的所有基本聲音(音素)、所有單詞和所有不同的方式,這些在口語中可以聯(lián)系在一起。此外,還有口音、性別和年齡差異、地區(qū)發(fā)音、選詞(“汽水”對“可樂”對“流行”)等等。

    曼恩指出,谷歌語音搜索的統(tǒng)計模型需要三個要素:聲學(xué)模型、語言模型和詞匯。他說:“聲學(xué)模型是通過轉(zhuǎn)錄語音記錄和口語內(nèi)容,并使用這兩者來創(chuàng)建電話表示,這是特定語言中所有單詞的基本組成部分。

    語言模型包括找出哪些單詞可能跟在其他單詞后面,并將它們用作提高識別準(zhǔn)確性的方法。馬內(nèi)解釋說:“在‘帝國反擊’這個詞后面會加上‘國家’或‘打擊’(例如《帝國反擊戰(zhàn)》),而不是‘多樣化’或‘番石榴’。從該領(lǐng)域收集數(shù)據(jù)有助于不斷改進語言模型和詞匯。

    谷歌不是唯一的眾包公司。語音識別應(yīng)用Vlingo將cookie放在用戶的手機上,根據(jù)用戶自己的反饋和類似揚聲器的模型不斷構(gòu)建語音模型。

    標(biāo)簽:

    免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!