AI是Artificial Intelligence的縮寫，也就是我們所說的人工智能。

　　自從2016年Alpha Go戰(zhàn)勝李世石，人類好像就跑步進入了智能時代。

　　就在當(dāng)年，《浪潮之巔》的作者吳軍又出版了一本書，就叫《智能時代》。不過，值得一提的是，這本書有個副標(biāo)題叫“大數(shù)據(jù)與智能革命重新定義未來”。

　　那么，智能時代跟FreeSWITCH什么關(guān)系呢？嚴(yán)格來說，其實沒什么關(guān)系。你看，我今天又標(biāo)題黨了。

　　FreeSWITCH是一個軟交換系統(tǒng)，或者更科普一點說就是個電話系統(tǒng)。雖然在智能手機時代，更多的人都在使用互聯(lián)網(wǎng)，上微信，但電話，永遠是更方便更直接的交流方式。而FreeSWITCH里，跟AI搭邊的，就是ASR和TTS。

　　FreeSWITCH很早的版本就有ASR和TTS接口。是的，F(xiàn)reeSWITCH本身其實并不做ASR和TTS。

　　那么，什么是ASR和TTS？

　　ASR的全稱是Automatic Speech Recognition，即自動語音識別。TTS的全稱是Text To Speech，即文本到語音的轉(zhuǎn)換�？梢钥闯�，它們是相對的，說得再土一點就是「語音轉(zhuǎn)文字」和「文字轉(zhuǎn)語音」。

　　然而，ASR和TTS本來跟人工智能也沒有關(guān)系。但是，在智能時代，它們就有了關(guān)系。我們先來看TTS。

　　據(jù)說早在17世紀(jì)就有法國人研發(fā)機械式的說話裝置。直到19世紀(jì)，貝爾實驗室對語音合成技術(shù)的研究，才開啟年代語音合成技術(shù)的發(fā)展。1939年，貝爾實驗室制作出第一個電子語音合成器VODER。是一種利用共振峰原理所制作的合成器。 1960年，瑞典語言學(xué)家G. Fant則提出利用線性預(yù)測編碼技術(shù)（LPC）來作為語音合成分析技術(shù)，并推動了日后的發(fā)展。后來1980年代Moulines E和Charpentier F提出新的語音合成演算法PSOLA，此技術(shù)可以合成比較自然的語音。

　　偉大的物理學(xué)家與宇宙學(xué)家霍金離開我們了，但他的發(fā)音（用語音合成技術(shù)實現(xiàn)的）卻永遠留在了我們的腦子里�；艚�21歲時患上肌肉萎縮性側(cè)索硬化癥（盧伽雷氏癥），全身癱瘓，不能言語。

　　劍橋精益通訊公司（Cambridge Adaptive Communication）」的David Mason 幫他在電動輪椅子上裝了一款語音合成器，據(jù)說是由加州電腦專家花托茲（Walt Woltosz）于1985年幫他研發(fā)的。發(fā)音很有機器人的感覺，而且還帶有美國口音。

　　TTS的大力發(fā)展還是在20世紀(jì)90年代，隨著計算機計算和存儲能力的大幅提升，通過使用大語料庫和波形拼接方法，可以合成高質(zhì)量的人聲。到了21世紀(jì)，語音合成技術(shù)更是飛速發(fā)展，音色和情感的加入，使合成的語音更加自然和有個性。

　　目前，最高水準(zhǔn)的TTS應(yīng)該是谷歌的Tacotron 2了：

　　https://research.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html

　　https://www.androidpolice.com/2017/12/28/googles-new-text-speech-system-sounds-convincingly-human/

　　嗯，我聽了一直，確實難以分辨是否是機器還是真人發(fā)音了。

　　tacotron2

　　來自FreeSWITCH中文社區(qū)

　　00:0000:07

　　由于每篇文章只能放一個語音，因此，我將兩段語音連在一起了。你能分辨出哪段是真人，哪是機器嗎？

　　另外，上面我還附加了一段中文的Wavenet產(chǎn)生的語音。Tacotron 2應(yīng)該也是基于Wavenet技術(shù)實現(xiàn)的。

　　再說ASR。ASR是人機交互很關(guān)鍵的一環(huán)。一直以來，ASR只是一個夢想和玩具，直到蘋果手機上Siri的出現(xiàn)，才算真正進入了千家萬戶。

　　以下內(nèi)容抄自維基百科：

　　早在計算機發(fā)明之前，自動語音識別的設(shè)想就已經(jīng)被提上了議事日程，早期的聲碼器可被視作語音識別及合成的雛形。而1920年代生產(chǎn)的"Radio Rex"玩具狗可能是最早的語音識別器，當(dāng)這只狗的名字被呼喚的時候，它能夠從底座上彈出來[2]。最早的基于電子計算機的語音識別系統(tǒng)是由AT&T貝爾實驗室開發(fā)的Audrey語音識別系統(tǒng)，它能夠識別10個英文數(shù)字。其識別方法是跟蹤語音中的共振峰。該系統(tǒng)得到了98%的正確率。[3]。到1950年代末，倫敦學(xué)院（Colledge of London）的Denes已經(jīng)將語法概率加入語音識別中。

　　1960年代，人工神經(jīng)網(wǎng)絡(luò)被引入了語音識別。這一時代的兩大突破是線性預(yù)測編碼Linear Predictive Coding （LPC），及動態(tài)時間規(guī)整Dynamic Time Warp技術(shù)。

　　語音識別技術(shù)的最重大突破是隱含馬爾科夫模型Hidden Markov Model的應(yīng)用。從Baum提出相關(guān)數(shù)學(xué)推理，經(jīng)過Rabiner等人的研究，卡內(nèi)基梅隆大學(xué)的李開復(fù)最終實現(xiàn)了第一個基于隱馬爾科夫模型的大詞匯量語音識別系統(tǒng)Sphinx。此后嚴(yán)格來說語音識別技術(shù)并沒有脫離HMM框架。

　　說到卡內(nèi)基梅隆大學(xué)，確實對TTS和ASR的貢獻很大。FreeSWITCH內(nèi)部的兩個模塊`mod_flite`（TTS）和`mod_pockerspinx`（ASR）底層庫就都出自于這個大學(xué)的研究。

　　OK，好像終于回到我們的主題了。時間可以抹平一切。自從Siri出現(xiàn)后，好像市面上一下子出了一堆令人眼花燎亂的ASR產(chǎn)品。它們有一個共同的特點：都是出現(xiàn)在智能時代。

　　隨著「大數(shù)據(jù)」的不斷積累，「深度學(xué)習(xí)」和「神經(jīng)網(wǎng)絡(luò)」的不斷進步，更「聰明」的ASR是歷史進步的必然結(jié)果。

　　我們來看一下這些產(chǎn)品吧：

Siri
Nuance
Google Now
GCloud （google）
Watson （IBM）
Polly （Amazon）
Cortana （Microsoft）
迅飛語音
百度語音
阿里語音
騰迅語音
……

　　當(dāng)然，F(xiàn)reeSWITCH并不僅僅能合成和識別語音，什么人臉啊，人民幣啊，統(tǒng)統(tǒng)都能識別。還記得那篇「如何優(yōu)雅地在夏威夷海灘上寫代碼」嗎？

　　嗯，最后回到我們的主題。我們的工程師閑得腚疼，為每種提供在線語音API的服務(wù)寫了一個ASR及（或）TTS接口的模塊�？吹秸Z音識別需要VAD（Voice　Activity Detection，嗯，比較低級的功能，就是檢測你是不是在說話），就連夜寫了一個VAD庫。我跟他們說了，寫歸寫，如果賣不出去，估計下個月工資要給他們發(fā)西北風(fēng)了。

　　好在，萬眾期待的XSWITCH平臺也即將對外發(fā)布了。很抱歉讓很多朋友等了一年，但這次，我們有點認(rèn)真了。

　　愚人節(jié)都要過去了，真相還會遠嗎？

　　點擊：https://jinshuju.net/f/RO2b3l ；填表，獲取內(nèi)測名額和相關(guān)細節(jié)（包括ASR和TTS的）。由于我們的「云」平臺現(xiàn)在還不怎么「智能」，實際上每加一個賬號我們都是手工操作的，誰來了都得排隊……