長(zhǎng)期以來(lái),人們一直有一個(gè)夢(mèng)想,那就是希望能夠用語(yǔ)音控制和操作身邊的各種機(jī)器。特別是隨著個(gè)人通訊時(shí)代的到來(lái),各種PDA、手機(jī)和掌上電腦開(kāi)始普及化,人們更是期望在它們微小的鍵盤(pán)上免去煩瑣的按鍵操作,而直接用語(yǔ)音進(jìn)行查詢(xún)、輸入或撥號(hào)等。天朗"一呼通"正是利用語(yǔ)音識(shí)別這一核心技術(shù)而開(kāi)發(fā)的嵌入式語(yǔ)音查詢(xún)和撥號(hào)軟件。
嵌入式語(yǔ)音識(shí)別引擎采用了清華大學(xué)王作英教授提出的具有國(guó)際領(lǐng)先水平的DDBHMM(基于段長(zhǎng)分布的HMM)模型和算法,比傳統(tǒng)的HMM方法更完美,具有識(shí)別率高識(shí)別速度快的優(yōu)點(diǎn);建立了漢語(yǔ)連續(xù)語(yǔ)音識(shí)別的整體模型;采用了快速算法, 具有實(shí)時(shí)率好的特性;核心技術(shù)連續(xù)三屆獲國(guó)家863測(cè)試冠軍;將識(shí)別系統(tǒng)的算法和模型針對(duì)嵌入式設(shè)備的特點(diǎn)進(jìn)行了進(jìn)一步優(yōu)化,使之達(dá)到最佳效果;加入了穩(wěn)健的語(yǔ)音識(shí)別算法。
由于采用 DDBHMM方法, 所以具有較大的詞匯擴(kuò)充能力,方便增加和刪除特定的命令詞匯,并在詞匯增多的情況下基本不影響實(shí)時(shí)性。
嵌入式語(yǔ)音識(shí)別引擎的主要功能及特性如下:
1)快速準(zhǔn)確的識(shí)別非特定人的連續(xù)語(yǔ)音,識(shí)別率如下:
在普通辦公室環(huán)境下,對(duì)于普通話口音:
對(duì)于200詞表,首選識(shí)別率98%以上,三選識(shí)別率在99%以上;
對(duì)于1000詞表,首選識(shí)別率95%以上,三選識(shí)別率在98%以上;
2)識(shí)別速度完全可以達(dá)到實(shí)時(shí);
3)支持動(dòng)態(tài)地增加或刪除識(shí)別詞匯,具有較強(qiáng)的詞匯擴(kuò)充能力;
4)可以同時(shí)支持不同的子命令詞表,用戶(hù)可以動(dòng)態(tài)切換子命令詞表,從而可以靈活地編寫(xiě)程序;
5) 持中英文混合詞表的識(shí)別;
6) 持對(duì)多音字的處理;
7) 支持動(dòng)態(tài)標(biāo)注中文和英文;
8)能夠提供識(shí)別結(jié)果的置信度信息,方便進(jìn)行拒識(shí)或其他操作;
9)具備較強(qiáng)的抗噪能力;
10)具有簡(jiǎn)單方便的編程接口,便于ISV廠商進(jìn)行應(yīng)用層的開(kāi)發(fā)。
天朗語(yǔ)音公司供稿 CTI論壇編輯