
在第二屆聲紋識別產(chǎn)業(yè)發(fā)展與創(chuàng )新研討會(huì )上,中國科學(xué)院院士、清華大學(xué)人工智能研究院院長(cháng)張鈸首次談到第三代人工智能與聲紋識別產(chǎn)業(yè),本文為張鈸院士發(fā)言?xún)热菘偨Y,全文約2900字。
我們?yōu)槭裁刺岢龅谌斯ぶ悄埽?/strong>
它與聲紋識別產(chǎn)業(yè)有什么關(guān)系?
人工智能這60年間一共做了兩件事。
一是發(fā)展第一代人工智能,就是大家比較熟悉的符號模型,也叫知識驅動(dòng)。
基本思路是:智能來(lái)自何處?來(lái)自知識,知識是人類(lèi)智能的源泉。這是最早建立人工智能的時(shí)候所建立的基本思想。這個(gè)思想對聲音的處理,就是對語(yǔ)音識別,包括聲紋都有一些影響。
第一代人工智能時(shí)期
大概在70、80年代基本上統治了人工智能,所以人工智能對各個(gè)領(lǐng)域都有影響。對聲音處理的主要影響是大家試圖通過(guò)發(fā)聲和聽(tīng)覺(jué)的機理來(lái)建立計算模型。早期做過(guò)很多努力,但是并沒(méi)有成功。主要原因是我們對人類(lèi)聽(tīng)覺(jué)機理了解的很少,這也是人工智能遇到的最大困難。我們對智能是什么到現在為止還沒(méi)有一個(gè)公認的科學(xué)定義,但是我們要在這種情況下去搞人工智能,怎么搞?這就出現一個(gè)很大的問(wèn)題。
當初大家覺(jué)得可以搞人工智能,就認為人類(lèi)的智能來(lái)自于知識,知識在很多情況下可以用自然語(yǔ)言表達出來(lái)。根據這個(gè)思路,對比如醫療診斷或者其他的領(lǐng)域都做了一些所謂以知識為基礎的推理系統,這就是大家非常熟悉的專(zhuān)家系統。它的基本思路就是認為人類(lèi)的知識可以用自然語(yǔ)言表達出來(lái),因此我們可以把這些知識表達在計算機里頭,計算機對知識進(jìn)行加工,這是第一代人工智能。
第一代人工智能到到90年代以前不是特別成功,90年代以后人工智能有了很多新的發(fā)展,給知識驅動(dòng)的方法也帶來(lái)新的活力。
第二個(gè)就是現在大家非常熟悉的連接主義或者深度學(xué)習。
第二代人工智能時(shí)期
講的簡(jiǎn)單一點(diǎn)就是基于大數據的深度學(xué)習。90年代后,第一代人工智能進(jìn)入低潮開(kāi)始衰退,正好第二代人工智能引起了高潮。
深度學(xué)習為什么現在這么受歡迎,一個(gè)非常重要的原因是,原來(lái)輸進(jìn)去的語(yǔ)音和圖像必須人工抽取特征,然后把這些特征輸到神經(jīng)網(wǎng)絡(luò )去,對它進(jìn)行分類(lèi)。有了深度學(xué)習以后有了很大改變,只需要輸入原始的信息就可以了。聲音基本上可以用原始的波形輸進(jìn)去,圖像可以輸入原始的像素組成的點(diǎn)陣,由網(wǎng)絡(luò )自動(dòng)抽取特征。這樣一來(lái)就使得深度學(xué)習變成了一個(gè)大眾化的工具,不要求你有專(zhuān)業(yè)領(lǐng)域的知識,誰(shuí)都可以用。
過(guò)去搞人臉識別必須知道抽取臉部哪部分的特征最有效。現在你只要把組成人臉的像素輸進(jìn)去就可以。換句話(huà)講,以前搞人臉識別,大部分時(shí)間要花去研究特征的提取,現在有了深度學(xué)習,這一部分的工作完全不需要了,這也給語(yǔ)音識別帶來(lái)很大的影響。
語(yǔ)音識別在2011年以前,基本上正確率是80%,誤識率20%,幾乎不能用。到2015年的時(shí)候超過(guò)95%,到了2017年的時(shí)候,所有商業(yè)應用的語(yǔ)音識別系統全是用深度學(xué)習,包括亞馬遜、微軟、我們國家的百度、訊飛,都是用同一原理-深度學(xué)習。所以大家做到的水平基本上都差不多,在95%以上。
那么我們再看一下第一二代人工智能的局限性。這些局限性對產(chǎn)業(yè)的發(fā)展影響非常大,首先應用場(chǎng)景就有很大的局限,應用場(chǎng)景必須要滿(mǎn)足一下這5個(gè)條件:

必須具有豐富的知識或者大量的數據。如果這兩個(gè)都沒(méi)有,就做不了人工智能。第一代人工智能認為智能的資源是來(lái)自知識,這是人工智能創(chuàng )建人一致的認識。深度學(xué)習的發(fā)展,大家又認識到到數據對人工智能的重要性。人工處理數據的能力遠不如計算機,相反,計算機處理數據的能力則遠超過(guò)人類(lèi),這也是深度學(xué)習成功的原因所在。
如果符合豐富的知識或經(jīng)驗、完全信息、確定性、靜態(tài)、單領(lǐng)域和單任務(wù)這5個(gè)條件,人工智能完全可以做到超過(guò)人類(lèi)。即使問(wèn)題非常復雜,比如圍棋,但它完全符合這5個(gè)條件,所以計算機戰勝人類(lèi)理所當然。只要符合這5個(gè)條件,就算今天超不過(guò),明天計算機肯定會(huì )超過(guò)。
這5個(gè)條件的限制是非常嚴格的,很多問(wèn)題不滿(mǎn)足這些條件。
對語(yǔ)音識別來(lái)講,如果有噪聲,就不滿(mǎn)足“確定性”這一條件。所以在有噪聲的情況下,語(yǔ)音識別的性能就會(huì )降低非常多。
最后一個(gè)非常重要的問(wèn)題是人工智能安全。
目前的人工智能技術(shù),特別是基于大數據的深度學(xué)習算法具有4個(gè)不:不安全、不可信、不可靠,不易推廣。
安全問(wèn)題對語(yǔ)音區別也有很大的影響。剛才說(shuō)過(guò),深度學(xué)習給語(yǔ)音識別帶來(lái)非常大的好處,它的識別率原來(lái)幾乎不能用,到現在完全可以商用。但語(yǔ)音識別技術(shù)也非常脆弱和非常不安全。
下面的例子用來(lái)說(shuō)明語(yǔ)音識別的脆弱性。
英文(語(yǔ)音)原話(huà)是這樣:“沒(méi)有數據集這篇文章是沒(méi)用的”,如果在這句話(huà)加上一點(diǎn)點(diǎn)噪聲,人聽(tīng)起來(lái)完全一樣沒(méi)有變。計算機聽(tīng)起來(lái)卻變成完全不同的話(huà)——“好的,谷歌瀏覽evil。com”。
換句話(huà)講,非常不安全,非常容易受攻擊,這就非常危險。
為什么現在聲紋識別比較魯棒?這個(gè)問(wèn)題我是從鄭方老師那里受到啟發(fā)。聲紋現在沒(méi)有完全使用基于大數據的深度學(xué)習方法,據鄭老師講使用深度學(xué)習效果并不太好。
為什么聲紋識別到現在為止還沒(méi)有找到一個(gè)非常有效的攻擊手段?原因之一可能在這里,就是運用了多種的預處理方法,“預處理”實(shí)際上體現了某種知識的運用。所以目前來(lái)講我認為聲紋識別帶有第三代人工智能的一些特點(diǎn),所以它相對來(lái)講比較魯棒。
我們提倡第三代人工智能。
第三代人工智能一共是三句話(huà):
1.構建可解釋和魯棒的人工智能理論和方法。
2.發(fā)展安全、可信、可靠和可擴展的人工智能技術(shù)。(就是把目前人工智能四個(gè)缺陷的“不”去掉)
3.推動(dòng)AI的創(chuàng )新應用。
我們要解決AI的產(chǎn)業(yè)問(wèn)題,必須解決前面講的兩個(gè)問(wèn)題,不解決的話(huà)AI的產(chǎn)業(yè)的是很難做大做強。解決問(wèn)題的思路也比較簡(jiǎn)單,即把知識驅動(dòng)與數據驅動(dòng)結合起來(lái)。結合起來(lái)的效果是什么?即充分利用了以下4個(gè)要素:知識、數據、算法和算力。
第一代人工智能使用了知識、算法和算力,當時(shí)算力很差,所以第一代人工智能不是很成功。第二代人工智能,我們把重點(diǎn)瞄準后面三個(gè)要素,數據、算法和算力。第二代人工智能之所以比較成功,由于這三個(gè)要素都很給力。

充分利用四個(gè)要素說(shuō)起來(lái)容易做起來(lái)卻非常難,因為知識和數據表現形式完全不一樣。另外,知識很難獲取,我們剛才說(shuō)做人工智能的困難在哪?智能本身都沒(méi)搞清楚怎么去做人工智能?當前多數人走的是:Brain inspired computing(腦啟發(fā)下計算)的道路,有的把它翻譯成“類(lèi)腦計算”,讓大家以為是個(gè)全新的東西。
大家都很關(guān)注人工智能的產(chǎn)業(yè)化,我這里列出的人工智能獨角獸企業(yè)(來(lái)自胡潤統計),全世界共40家,其中美國占20家,中國占15家,我國穩居老二地位。其他英國、日本、以色列等國家相對都很少。但無(wú)論是國內還是國際企業(yè)都面臨進(jìn)一步做大做強的挑戰。
如何把聲紋產(chǎn)業(yè)做大做強?我認為主要是要尋找新的應用場(chǎng)景。我們團隊現在正在把語(yǔ)音識別或聲紋識別技術(shù)應用到呼吸系統的診斷上,取得很好的效果,也可以考慮把聲音識別的技術(shù)用到診斷機械故障等等。
清華大學(xué)人工智能研究院目前已經(jīng)成立了9個(gè)中心,其中兩個(gè)偏重于基礎研究,一個(gè)是從機器學(xué)習的角度,一個(gè)是從知識處理的角度。我認為,知識和數據是驅動(dòng)人工智能往前發(fā)展的兩個(gè)輪子。