問(wèn):何先生對語(yǔ)音識別不同的應用領(lǐng)域有什么想法?
何國濤:ASR技術(shù)可以應用在很多領(lǐng)域:
·移動(dòng)互聯(lián)網(wǎng):盡管目前還沒(méi)有明晰獲利前景,但在未來(lái)卻有極大的市場(chǎng)潛能。這塊的競爭已經(jīng)白熱化,許多實(shí)力玩家,像百度,騰訊,科大訊飛,云之聲,等等正在爭斗,未來(lái)還會(huì )有更多人加入進(jìn)來(lái)。
·企業(yè)呼叫中心:要進(jìn)入這個(gè)市場(chǎng),企業(yè)不僅要有領(lǐng)先的ASR語(yǔ)音識別技術(shù),同時(shí)還要有專(zhuān)業(yè)知識。普強則是這個(gè)領(lǐng)域的佼佼者。
·車(chē)載導航:這個(gè)領(lǐng)域ASR語(yǔ)音識別技術(shù)是必須的。銷(xiāo)售周期比較長(cháng),但是你一旦進(jìn)入這個(gè)市場(chǎng),你就擁有能做十年的客戶(hù)。
·教育領(lǐng)域:要有很強的政府背景和專(zhuān)業(yè)知識。科大訊飛在這塊有壓倒性的優(yōu)勢。
·聲紋識別領(lǐng)域:增強系統安全性能,這是今年語(yǔ)音識別的主要收入增長(cháng)點(diǎn)。
·醫療保健領(lǐng)域:應用到電子病歷中,可自動(dòng)實(shí)現把醫生的聲音轉換成文本。這一領(lǐng)域也是若干發(fā)達國家在語(yǔ)音識別的主要收入領(lǐng)域。
由于擁有領(lǐng)先的語(yǔ)音識別技術(shù),普強已經(jīng)做好了進(jìn)入這些領(lǐng)域的準備。普強將先鎖定在企業(yè)客戶(hù)這塊。當我們在這個(gè)領(lǐng)域做到最好時(shí),我們再繼續滲透到其它版塊。
普強目前擁有:
千語(yǔ)語(yǔ)音平臺:向企業(yè)提供語(yǔ)音識別服務(wù)
千語(yǔ)語(yǔ)音云平臺:為手機互聯(lián)網(wǎng)應用提供的語(yǔ)音識別云服務(wù)
普強智能語(yǔ)音分析系統:為企業(yè)提供360度大數據分析(語(yǔ)音,視頻,文學(xué)數據等)
問(wèn):ASR語(yǔ)音識別技術(shù)有哪些難點(diǎn)?
李全忠:語(yǔ)音識別技術(shù)要求快速,準確。語(yǔ)音識別目前還達不到百分百準確,達到完美的距離還很遠。因為中文5千字中發(fā)音有406個(gè),是最難辨識的語(yǔ)種,例如(wu),可以是吳、無(wú)、吾、梧、蜈等。同樣文字各地方言發(fā)音不一,便會(huì )增加難度,所以語(yǔ)音辯識應用的成功關(guān)鍵,更傾向是專(zhuān)業(yè)能力。人類(lèi)有眼睛,耳朵,文字來(lái)幫助識別,語(yǔ)音識別是只通過(guò)能“聽(tīng)”來(lái)完成,有限的聲音數據要用來(lái)識別聲音的同時(shí)也要區分不同的背景雜音,需要花時(shí)間和精力去完善核心算法和積累數據。為了使每個(gè)垂直領(lǐng)域達到最優(yōu)的識別效果,我們都需要積累經(jīng)驗去適當調整算法和采集選擇數據,例如為呼叫中心的電話(huà)信道建立模型與移動(dòng)互聯(lián)網(wǎng)的聲學(xué)模型是不一樣的。
問(wèn):ASR技術(shù)怎么應用在智能家居設備和穿戴設備上?
何國濤:在可穿戴設備上,語(yǔ)音識別技術(shù)將是必備技術(shù)之一,但是要應用ASR技術(shù)到可穿戴設備,我們首先要解決能耗問(wèn)題,這類(lèi)設備一般沒(méi)有太多電能。
一個(gè)成功的案例是:低功耗的語(yǔ)音喚醒技術(shù)。它通過(guò)只針對特定人和少數命令詞的識別解決了低能耗的問(wèn)題,成功應用在許多嵌入式產(chǎn)品中,例如:手機語(yǔ)音喚醒,寵物語(yǔ)音鎖鏈(鎖鏈回答寵物主人的叫喚)等。