“語(yǔ)音識別”作為一場(chǎng)解放雙手的革命,幾十年來(lái)一直備受推崇,但這場(chǎng)革命總是處在不溫不火的狀態(tài),從電腦到手機,再到如今的車(chē)機,“語(yǔ)言識別”一直是叫好不叫座。這樣“溫水煮青蛙”的狀態(tài)什么時(shí)候才能改變?“語(yǔ)音識別”將是下一個(gè)互聯(lián)網(wǎng)的入口?它會(huì )掀起車(chē)機領(lǐng)域的變革嗎?帶著(zhù)這些疑問(wèn),筆者采訪(fǎng)了專(zhuān)注人機交互語(yǔ)音識別的企業(yè)——車(chē)音網(wǎng)首席執行官王力劭。
語(yǔ)音識別——車(chē)機革命從這里興起
數據采集 提高用戶(hù)感受度
“沒(méi)有任何一種引擎可以說(shuō)把方言語(yǔ)音識別處理好,這是由人們采集的語(yǔ)音量來(lái)決定的。”
車(chē)音網(wǎng)一直致力于人機交互的語(yǔ)音識別系統的研發(fā)和推廣,而車(chē)音網(wǎng)提出的自然語(yǔ)言識別概念一直為外界所津津樂(lè )道。何為自然語(yǔ)言識別?通俗的來(lái)說(shuō)就是可以識別人們的日常語(yǔ)言習慣,你講普通話(huà)也好,講方言也好,系統都能識別出你要表達的意思,這就是在最自然的狀態(tài)下達到了人機交互的目的。
方言的語(yǔ)音識別到底準還是不準呢?如何提升用戶(hù)體驗度?王力劭解釋說(shuō),語(yǔ)音識別還是機器學(xué)習技術(shù)的一種,因為計算機沒(méi)有聯(lián)想能力,它只能按你告訴它的規則去做。所以識別不是完全靠程序來(lái)實(shí)現的,還要靠采集到的大量同一句話(huà)的不同波形,建立龐大的語(yǔ)音信息資源庫來(lái)實(shí)現。在普通話(huà)語(yǔ)系里有各種各樣的樣本,當采集的某一個(gè)樣本跟之前的聲音很像,可能落在之前采集的樣本里,系統就能識別這句話(huà)。當采集到十萬(wàn)、百萬(wàn)、千萬(wàn)個(gè)人說(shuō)話(huà)的樣本后,覆蓋面就非常廣了。作為這方面的先行者,王總又補充道,采集的樣本必須分布合理,根據地域、年齡段、性別將其區分。所以采集的樣本越多,機器識別的就越準確。
在方言識別方面,車(chē)音網(wǎng)把方言按語(yǔ)系來(lái)劃分,如廣東話(huà)、上海話(huà)、閩南話(huà)等。但是同一語(yǔ)系不同地區的人方言也會(huì )有很大的區別,為此王總打了一個(gè)比方,就像同樣講英語(yǔ),北美地區的、非洲地區的和亞洲地區的講起來(lái)的感覺(jué)也是不盡相同,所以在采集數據時(shí)就要求覆蓋面廣,一個(gè)語(yǔ)系內不同地區的方言都要采集到。而車(chē)音網(wǎng)在英語(yǔ)識別方面也采集了很多地區英語(yǔ)口音的樣本,這些樣本主要來(lái)自于東南亞地區。所以王總不無(wú)感慨的說(shuō):“沒(méi)有一種引擎可以說(shuō)自己的方言語(yǔ)音識別處理的好,更多的還要依賴(lài)于研究團隊采集的語(yǔ)音量。”
十年磨一劍 成就技術(shù)壁壘
“這三輪數據的采集就是現在車(chē)音網(wǎng)的核心,一個(gè)公司低下頭一直這樣踏踏實(shí)實(shí)地干不是件容易的事。”
上千萬(wàn)的語(yǔ)音樣本采集聽(tīng)起來(lái)就是一項持久而艱辛的工作,在這個(gè)過(guò)程中車(chē)音網(wǎng)花費了多少時(shí)間、多少精力,這些都是他人不知道的。王力劭說(shuō),國外最早出現的語(yǔ)音識別是IBM ViaVoice ,就是一個(gè)人對著(zhù)機器不停地說(shuō)話(huà),訓練機器的次數越多,機器的識別率越高。但是這種方式只針對特定的人,換一個(gè)人就不行了。特定的人不需要采集語(yǔ)樣,只需要不停地訓練就可以了,機器運算相對來(lái)說(shuō)也簡(jiǎn)單多了。可以說(shuō),IBM ViaVoice所帶來(lái)的不用雙手的輸入方式,是一場(chǎng)解放雙手的革命。車(chē)音網(wǎng)做語(yǔ)音識別是從99年開(kāi)始的,是中國最早一批研究非特定人語(yǔ)音識別技術(shù)的企業(yè),那時(shí)他們在做模擬推演時(shí)發(fā)現,即使能夠采集來(lái)數據,機器也沒(méi)有那么大的計算能力,服務(wù)器性能低下,根本無(wú)法進(jìn)行系統開(kāi)發(fā),所以決定投入大量的精力進(jìn)行語(yǔ)音采集。
語(yǔ)音的采集也不是一件容易的事,當時(shí)車(chē)音網(wǎng)想到的就是最原始的方法——雇人,全國各地找代表收集語(yǔ)音樣本。他們制定了一套采集標準,有明確的區間劃分,然后整理了一份大約50句話(huà)的腳本。這50句話(huà)也是經(jīng)過(guò)了一番研究確定的,正常人在讀這50句話(huà)時(shí),可以把聲音的鏈接方式、發(fā)聲規律、特征點(diǎn)概括出來(lái)。這個(gè)苦力活一直干到2004年,從今天的眼光來(lái)看,當年做這件事是一個(gè)非常明智的決定。這項工作依靠融資和風(fēng)投耗費了幾千萬(wàn)的資金,但是獲得的語(yǔ)音量是非常廣的,并且都是按照車(chē)音網(wǎng)自己的規范來(lái)的。而這一點(diǎn),如今的多數創(chuàng )業(yè)公司已經(jīng)很難做到了,資金消耗動(dòng)輒上億,風(fēng)投也會(huì )更加謹慎評估了。所以說(shuō)采集的數據也成為車(chē)音網(wǎng)語(yǔ)音識別的一個(gè)壁壘。
2001年,車(chē)音網(wǎng)開(kāi)始跟多家電信運營(yíng)商合作,負責語(yǔ)音點(diǎn)歌、語(yǔ)音查詢(xún)等,并且上線(xiàn)了一系列電子系統,和一些城市的114也展開(kāi)了合作,這樣他們就可以收集到大量的8K信道的數據,8K數據是最基本電話(huà)通道的數據。現在人們很容易收集到16K的聲音,如微信等軟件,但16k的聲音和電話(huà)里的不同,所以現在一些公司缺乏8K數據采集的機會(huì ), 8K的數據是稀缺的。