近日,科大訊飛正式發(fā)布四川話(huà)語(yǔ)音識別技術(shù),識別準確率超過(guò)85%,達到實(shí)用水準,方言識別獲得突破,將首先應用于手機輸入法產(chǎn)品,年內或將繼續發(fā)布上海話(huà)、閩南話(huà)等方言識別技術(shù)。
蘋(píng)果Siri在語(yǔ)音識別技術(shù)領(lǐng)域引領(lǐng)了一次革命,但遠遠不夠。語(yǔ)音識別技術(shù)要全面影響人機交互,必須要讓語(yǔ)音識別技術(shù)普及到每一個(gè)國家、每一個(gè)地區、每一個(gè)人。特別是當前智能終端的高速發(fā)展,可穿戴設備、無(wú)人駕駛汽車(chē)、智能電視、智能家居……更需要懂得不同地域自然人的語(yǔ)言。
德國知名學(xué)者威廉。馮。洪堡曾說(shuō)過(guò):“每種語(yǔ)言都反映了一個(gè)民族的精神和智慧。”盡管文字、圖片、動(dòng)作、表情等能傳遞人們的思想,但語(yǔ)言是其中最重要的媒介,是人類(lèi)文明多樣化成果的載體。保護民族語(yǔ)言和搶救瀕危語(yǔ)言就是保護多樣性的民族文化,同時(shí)也是保障各民族成員的平等權利。
我國56個(gè)民族有多達129種獨立語(yǔ)言,特定使用區域和人群具有不同發(fā)音、詞匯和語(yǔ)法體系,除了統一標準的普通話(huà),諸多地方方言素有“十里不同音”之說(shuō)。針對這一現象科大訊飛最新研發(fā)了前沿的方言語(yǔ)音識別技術(shù),讓機器能夠聽(tīng)懂粵語(yǔ)、四川話(huà)、東北話(huà)、上海話(huà)、閩南話(huà)、湖南話(huà)、河南話(huà)等各地方言,極大滿(mǎn)足了各行業(yè)需求。
那么,科大訊飛此項技術(shù)是如何突破方言識別難題的?從基本層面來(lái)看,普通話(huà)有400個(gè)單音節聲音,根據聲調予以區別;而方言發(fā)音則相對復雜,需要根據不同發(fā)音特性采用不同的特征識別方法,大致為:聲類(lèi)特征識別、韻類(lèi)特征識別、調類(lèi)特征識別和方言詞匯識別。科大訊飛針對方言定制出專(zhuān)有語(yǔ)音識別引擎,使用純正的方言語(yǔ)料庫進(jìn)行訓練,確保能夠用于口音較重的方言用戶(hù)使用。
從2012年起,訊飛語(yǔ)音云在聲學(xué)和語(yǔ)言建模中取得很多成果,同時(shí)在噪音和口音等方面都突破了技術(shù)難題,在全行業(yè)遙遙領(lǐng)先。“方言語(yǔ)音識別”是公司在云計算語(yǔ)音聽(tīng)寫(xiě)技術(shù)基礎上,為擴大語(yǔ)音使用群體,滿(mǎn)足不同地域用戶(hù)自然便捷的語(yǔ)音使用需求而進(jìn)行的技術(shù)創(chuàng )新,具有自適應性和穩定性。該技術(shù)成果將形成明顯的差異化競爭優(yōu)勢,為公司主營(yíng)業(yè)務(wù)帶來(lái)積極影響,還能提高相關(guān)應用的用戶(hù)黏性。
一般而言語(yǔ)音識別技術(shù)最先應用于語(yǔ)音撥號、語(yǔ)音導航、室內設備控制、簡(jiǎn)單的聽(tīng)寫(xiě)數據錄入等,但此次方言語(yǔ)音識別技術(shù)將率先應用于手機輸入法,并逐步推廣到其他應用中。目前,智能手機和平板電腦都已拋棄鼠標鍵盤(pán),語(yǔ)音輸入正成為日常習慣,對老人和小孩都很適用;同時(shí),手機輸入法作為移動(dòng)互聯(lián)網(wǎng)新型入口,面向休閑娛樂(lè )、商務(wù)辦公、人際交流、教育教學(xué)等生活中的方方面面,具有海量的使用人群,能夠更快的提升應用能力。因此,手機輸入法是語(yǔ)音應用的最好形態(tài)。
方言語(yǔ)音識別技術(shù)是繼離線(xiàn)語(yǔ)音之后科大訊飛又一次率先推出的革命性技術(shù),除了支持中文普通話(huà)、英文,方言語(yǔ)音識別能夠讓更多用戶(hù)擁有近乎完美、沒(méi)有錯誤的語(yǔ)音輸入體驗。