• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 新聞 > 文章精選 >
     首頁(yè) > 新聞 > 文章精選 >

    AI時(shí)代、FreeSWITCH能做什么?

    2019-01-08 16:29:10   作者:Seven Du   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      AI是Artificial Intelligence的縮寫(xiě),也就是我們所說(shuō)的人工智能。
      自從2016年Alpha Go戰勝李世石,人類(lèi)好像就跑步進(jìn)入了智能時(shí)代。
      就在當年,《浪潮之巔》的作者吳軍又出版了一本書(shū),就叫《智能時(shí)代》。不過(guò),值得一提的是,這本書(shū)有個(gè)副標題叫“大數據與智能革命重新定義未來(lái)”。
      那么,智能時(shí)代跟FreeSWITCH什么關(guān)系呢?嚴格來(lái)說(shuō),其實(shí)沒(méi)什么關(guān)系。你看,我今天又標題黨了。
      FreeSWITCH是一個(gè)軟交換系統,或者更科普一點(diǎn)說(shuō)就是個(gè)電話(huà)系統。雖然在智能手機時(shí)代,更多的人都在使用互聯(lián)網(wǎng),上微信,但電話(huà),永遠是更方便更直接的交流方式。而FreeSWITCH里,跟AI搭邊的,就是ASR和TTS。
      FreeSWITCH很早的版本就有ASR和TTS接口。是的,FreeSWITCH本身其實(shí)并不做ASR和TTS。
      那么,什么是ASR和TTS?
      ASR的全稱(chēng)是Automatic Speech Recognition,即自動(dòng)語(yǔ)音識別。TTS的全稱(chēng)是Text To Speech,即文本到語(yǔ)音的轉換。可以看出,它們是相對的,說(shuō)得再土一點(diǎn)就是「語(yǔ)音轉文字」和「文字轉語(yǔ)音」。
      然而,ASR和TTS本來(lái)跟人工智能也沒(méi)有關(guān)系。但是,在智能時(shí)代,它們就有了關(guān)系。我們先來(lái)看TTS。
      據說(shuō)早在17世紀就有法國人研發(fā)機械式的說(shuō)話(huà)裝置。直到19世紀,貝爾實(shí)驗室對語(yǔ)音合成技術(shù)的研究,才開(kāi)啟年代語(yǔ)音合成技術(shù)的發(fā)展。1939年,貝爾實(shí)驗室制作出第一個(gè)電子語(yǔ)音合成器VODER。是一種利用共振峰原理所制作的合成器。 1960年,瑞典語(yǔ)言學(xué)家G. Fant則提出利用線(xiàn)性預測編碼技術(shù)(LPC)來(lái)作為語(yǔ)音合成分析技術(shù),并推動(dòng)了日后的發(fā)展。后來(lái)1980年代Moulines E和Charpentier F提出新的語(yǔ)音合成演算法PSOLA,此技術(shù)可以合成比較自然的語(yǔ)音。
      偉大的物理學(xué)家與宇宙學(xué)家霍金離開(kāi)我們了,但他的發(fā)音(用語(yǔ)音合成技術(shù)實(shí)現的)卻永遠留在了我們的腦子里。霍金21歲時(shí)患上肌肉萎縮性側索硬化癥(盧伽雷氏癥),全身癱瘓,不能言語(yǔ)。
      劍橋精益通訊公司(Cambridge Adaptive Communication)」的David Mason 幫他在電動(dòng)輪椅子上裝了一款語(yǔ)音合成器,據說(shuō)是由加州電腦專(zhuān)家花托茲(Walt Woltosz)于1985年幫他研發(fā)的。發(fā)音很有機器人的感覺(jué),而且還帶有美國口音。
      TTS的大力發(fā)展還是在20世紀90年代,隨著(zhù)計算機計算和存儲能力的大幅提升,通過(guò)使用大語(yǔ)料庫和波形拼接方法,可以合成高質(zhì)量的人聲。到了21世紀,語(yǔ)音合成技術(shù)更是飛速發(fā)展,音色和情感的加入,使合成的語(yǔ)音更加自然和有個(gè)性。
      目前,最高水準的TTS應該是谷歌的Tacotron 2了:
      https://research.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html
      https://www.androidpolice.com/2017/12/28/googles-new-text-speech-system-sounds-convincingly-human/
      嗯,我聽(tīng)了一直,確實(shí)難以分辨是否是機器還是真人發(fā)音了。
      tacotron2
      來(lái)自FreeSWITCH中文社區
      00:0000:07
      由于每篇文章只能放一個(gè)語(yǔ)音,因此,我將兩段語(yǔ)音連在一起了。你能分辨出哪段是真人,哪是機器嗎?
      另外,上面我還附加了一段中文的Wavenet產(chǎn)生的語(yǔ)音。Tacotron 2應該也是基于Wavenet技術(shù)實(shí)現的。
      再說(shuō)ASR。ASR是人機交互很關(guān)鍵的一環(huán)。一直以來(lái),ASR只是一個(gè)夢(mèng)想和玩具,直到蘋(píng)果手機上Siri的出現,才算真正進(jìn)入了千家萬(wàn)戶(hù)。
      以下內容抄自維基百科:
      早在計算機發(fā)明之前,自動(dòng)語(yǔ)音識別的設想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語(yǔ)音識別及合成的雛形。而1920年代生產(chǎn)的"Radio Rex"玩具狗可能是最早的語(yǔ)音識別器,當這只狗的名字被呼喚的時(shí)候,它能夠從底座上彈出來(lái)[2]。最早的基于電子計算機的語(yǔ)音識別系統是由AT&T貝爾實(shí)驗室開(kāi)發(fā)的Audrey語(yǔ)音識別系統,它能夠識別10個(gè)英文數字。其識別方法是跟蹤語(yǔ)音中的共振峰。該系統得到了98%的正確率。[3]。到1950年代末,倫敦學(xué)院(Colledge of London)的Denes已經(jīng)將語(yǔ)法概率加入語(yǔ)音識別中。
      1960年代,人工神經(jīng)網(wǎng)絡(luò )被引入了語(yǔ)音識別。這一時(shí)代的兩大突破是線(xiàn)性預測編碼Linear Predictive Coding (LPC), 及動(dòng)態(tài)時(shí)間規整Dynamic Time Warp技術(shù)。
      語(yǔ)音識別技術(shù)的最重大突破是隱含馬爾科夫模型Hidden Markov Model的應用。從Baum提出相關(guān)數學(xué)推理,經(jīng)過(guò)Rabiner等人的研究,卡內基梅隆大學(xué)的李開(kāi)復最終實(shí)現了第一個(gè)基于隱馬爾科夫模型的大詞匯量語(yǔ)音識別系統Sphinx。此后嚴格來(lái)說(shuō)語(yǔ)音識別技術(shù)并沒(méi)有脫離HMM框架。
      說(shuō)到卡內基梅隆大學(xué),確實(shí)對TTS和ASR的貢獻很大。FreeSWITCH內部的兩個(gè)模塊`mod_flite`(TTS)和`mod_pockerspinx`(ASR)底層庫就都出自于這個(gè)大學(xué)的研究。
      OK,好像終于回到我們的主題了。時(shí)間可以抹平一切。自從Siri出現后,好像市面上一下子出了一堆令人眼花燎亂的ASR產(chǎn)品。它們有一個(gè)共同的特點(diǎn):都是出現在智能時(shí)代。
      隨著(zhù)「大數據」的不斷積累,「深度學(xué)習」和「神經(jīng)網(wǎng)絡(luò )」的不斷進(jìn)步,更「聰明」的ASR是歷史進(jìn)步的必然結果。
      我們來(lái)看一下這些產(chǎn)品吧:
    • Siri
    • Nuance
    • Google Now
    • GCloud (google)
    • Watson (IBM)
    • Polly  (Amazon)
    • Cortana (Microsoft)
    • 迅飛語(yǔ)音
    • 百度語(yǔ)音
    • 阿里語(yǔ)音
    • 騰迅語(yǔ)音
    • ……
      當然,FreeSWITCH并不僅僅能合成和識別語(yǔ)音,什么人臉啊,人民幣啊,統統都能識別。還記得那篇「如何優(yōu)雅地在夏威夷海灘上寫(xiě)代碼」嗎?
      嗯,最后回到我們的主題。我們的工程師閑得腚疼,為每種提供在線(xiàn)語(yǔ)音API的服務(wù)寫(xiě)了一個(gè)ASR及(或)TTS接口的模塊。看到語(yǔ)音識別需要VAD(Voice Activity Detection,嗯,比較低級的功能,就是檢測你是不是在說(shuō)話(huà)),就連夜寫(xiě)了一個(gè)VAD庫。我跟他們說(shuō)了,寫(xiě)歸寫(xiě),如果賣(mài)不出去,估計下個(gè)月工資要給他們發(fā)西北風(fēng)了。
      好在,萬(wàn)眾期待的XSWITCH平臺也即將對外發(fā)布了。很抱歉讓很多朋友等了一年,但這次,我們有點(diǎn)認真了。
      愚人節都要過(guò)去了,真相還會(huì )遠嗎?
      點(diǎn)擊:https://jinshuju.net/f/RO2b3l ;填表,獲取內測名額和相關(guān)細節(包括ASR和TTS的)。由于我們的「云」平臺現在還不怎么「智能」,實(shí)際上每加一個(gè)賬號我們都是手工操作的,誰(shuí)來(lái)了都得排隊……
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    相關(guān)熱詞搜索: FreeSWITCH

    上一篇:AI時(shí)代、FreeSWITCH能做什么?

    下一篇:最后一頁(yè)

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 高密市| 杭州市| 固镇县| 商河县| 怀安县| 宝兴县| 锡林浩特市| 肥乡县| 西昌市| 疏勒县| 萍乡市| 达州市| 吉木乃县| 东丰县| 文成县| 彝良县| 台北县| 榕江县| 从化市| 益阳市| 绍兴市| 苍溪县| 田林县| 山阴县| 开江县| 共和县| 奉化市| 图木舒克市| 深泽县| 苍溪县| 碌曲县| 海原县| 宁安市| 慈溪市| 松溪县| 隆回县| 会东县| 若尔盖县| 循化| 华蓥市| 靖边县| http://444 http://444 http://444 http://444 http://444 http://444