語(yǔ)音識別,就是讓機器通過(guò)分析和理解過(guò)程把語(yǔ)音信號轉變?yōu)橄鄳奈谋净蛎畹募舛思夹g(shù)。語(yǔ)音識別是一門(mén)交叉學(xué)科,所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽(tīng)覺(jué)機理、人工智能等等。語(yǔ)音識別技術(shù)與語(yǔ)音合成技術(shù)一同成為實(shí)現人機語(yǔ)音通信,建立有聽(tīng)和講能力的語(yǔ)音系統所必需的兩項關(guān)鍵技術(shù)。
捷通華聲ASR核心引擎是針對特定語(yǔ)言的識別軟件模塊,該軟件模塊是整個(gè)ASR軟件的核心模塊。核心模塊接收其他模塊的設置,并根據設置內容對語(yǔ)音數據進(jìn)行識別,并將識別結果列表返回給調用模塊。返回的識別結果列表,包含一組識別結果--識別信心值對,以供調用模塊使用。
捷通華聲ASR語(yǔ)音識別技術(shù)具有以下特點(diǎn):
- 支持語(yǔ)種:廣泛支持中英文識別;
- 識別率:高針對漢語(yǔ)普通話(huà),連續語(yǔ)音識別率可以達到90%以上,支持語(yǔ)音打斷功能與端點(diǎn)檢測功能;
- 識別速度:采用實(shí)時(shí)識別方式,實(shí)現語(yǔ)音數據的傳輸和識別的同步,實(shí)時(shí)率可達0.5以下。
- 可定制:定制模型的識別率可達到95%以上
- 詞表長(cháng)度:大詞表長(cháng)度可達到百萬(wàn)以上(可根據需要擴展);
- 音頻格式:用于進(jìn)行語(yǔ)音識別的輸入語(yǔ)音格式為:16K*8Bit A-Law、16K*8 Bit u-Law、16K*16 Bit PCM;
- 識別方式:支持詞表識別、語(yǔ)法識別和自由說(shuō)識別。
- 語(yǔ)法功能:可以在加載多個(gè)語(yǔ)法文件的情況下,同時(shí)激活多個(gè)語(yǔ)法文件,讀取單個(gè)詞條,從多個(gè)語(yǔ)法文件中得出單個(gè)詞條的識別結果。
- 支持云端識別和本地端識別。