• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>

    語(yǔ)音識別領(lǐng)域的“潛行者”

    --專(zhuān)訪(fǎng)普強信息CEO何國濤、CTO李全忠

    2014-06-30 16:37:29   作者:   來(lái)源:21CN股票   評論:0  點(diǎn)擊:


      隨著(zhù)蘋(píng)果Siri的出現,語(yǔ)音識別技術(shù)開(kāi)始逐步走進(jìn)我們的視野。最直觀(guān)的感受,就是現在移動(dòng)互聯(lián)網(wǎng)的應用中越來(lái)越多地以語(yǔ)音識別作為新的人機交互手段。

      那么語(yǔ)音識別究竟是怎么一回事,它又是怎樣被應用并實(shí)現其價(jià)值的,通過(guò)它企業(yè)又能獲取怎樣的增值服務(wù)?帶著(zhù)這些疑問(wèn),我們走進(jìn)普強信息技術(shù)(北京)有限公司,請被譽(yù)為語(yǔ)音識別領(lǐng)域舵手的普強CEO何國濤,和CTO李全忠先生來(lái)一一解說(shuō)。

      何國濤:普強CEO,北京大學(xué)及美國雪城大學(xué)計算機碩士,曾就職于硅谷惠普實(shí)驗室及多家高科技創(chuàng )業(yè)企業(yè), 成功管理多個(gè)跨國項目。 擁有管理上億元營(yíng)收的公司經(jīng)驗。 專(zhuān)長(cháng):大規模企業(yè)級服務(wù)器, Voice XML, IVR System.現主管公司運營(yíng)。

      李全忠:普強聯(lián)合創(chuàng )始人和CTO,負責公司語(yǔ)音識別及語(yǔ)音分析技術(shù)。曾在IBM Almaden研究中心任研究員,在數據庫、數據分析、大數據處理及云計算等信息科技領(lǐng)域領(lǐng)導了多項研究項目。李全忠于1995年和1998年分別獲得北京大學(xué)計算機學(xué)士和碩士學(xué)位,隨后留學(xué)美國,在亞利桑那大學(xué)獲得計算機博士學(xué)位。

      問(wèn):現在語(yǔ)音識別技術(shù)已經(jīng)成為目前快速推廣、作用顯著(zhù)的一種技術(shù),但是對于普通用戶(hù)來(lái)說(shuō),這個(gè)概念可能更局限于諸如微信的語(yǔ)音輸入,請問(wèn)這二者有什么異同點(diǎn),語(yǔ)音識別技術(shù)究竟是怎樣的一門(mén)技術(shù)呢?

      何國濤:語(yǔ)音識別技術(shù),簡(jiǎn)單地說(shuō)就是把用戶(hù)語(yǔ)音轉換成文本。它可以適用于不同的領(lǐng)域,例如移動(dòng)互聯(lián)網(wǎng),可以讓很多人工密集的呼叫中心實(shí)現自動(dòng)化和智能化,保障信息安全的如聲紋識別類(lèi),作為大數據挖掘的語(yǔ)音分析系統,以及車(chē)聯(lián)網(wǎng)和教育產(chǎn)品等等。

      李全忠:微信的語(yǔ)音輸入只是一個(gè)應用例子。未來(lái)在我們的日常生活中會(huì )越來(lái)越多的情況下使用語(yǔ)音識別技術(shù),能夠給我們的生活工作帶來(lái)很多便捷。

      問(wèn):嗯,語(yǔ)音識別技術(shù)就是把語(yǔ)音轉換成文本的技術(shù),那語(yǔ)音識別在哪些領(lǐng)域使用的比較多,能夠為這些企業(yè)帶來(lái)哪些效益?

      何國濤:語(yǔ)音識別技術(shù)可以應用于許多不同的領(lǐng)域。現在使用最多的是移動(dòng)互聯(lián)網(wǎng)領(lǐng)域,可以直接把語(yǔ)音轉換成文字,為用戶(hù)解決了在小屏幕鍵盤(pán)輸入的困難;呼叫中心領(lǐng)域,通過(guò)采用語(yǔ)音識別技術(shù),自動(dòng)化處理大量的重復性工作,例如語(yǔ)音分析、語(yǔ)音IVR導航;導航及車(chē)聯(lián)網(wǎng),通過(guò)智能語(yǔ)音輸入,使駕駛人員能夠通過(guò)語(yǔ)音控制相應的非駕駛操作,讓駕駛人員專(zhuān)注駕駛操作,增加駕駛的安全性;教育領(lǐng)域:口語(yǔ)評測;玩具領(lǐng)域:語(yǔ)音控制;聲紋識別領(lǐng)域:增強系統安全性能,這是今年語(yǔ)音識別的主要收入增長(cháng)點(diǎn);醫療保健領(lǐng)域:應用到電子病歷中,可自動(dòng)實(shí)現醫生口述病歷及醫囑等等。

      問(wèn):確實(shí)是給我們日常生活帶來(lái)了很大的便捷,也為企業(yè)提供了有效的解決方案。作為語(yǔ)音識別領(lǐng)域的重要研發(fā)企業(yè),普強在語(yǔ)音識別領(lǐng)域有著(zhù)怎樣的技術(shù)優(yōu)勢?

      李全忠:普強目前已經(jīng)為金融、電信、保險等行業(yè)提供高準確度和高性能的電話(huà)線(xiàn)信道的 ASR(語(yǔ)音識別)引擎。

      移動(dòng)互聯(lián)網(wǎng)方面,普強早在2010年7月便與愛(ài)幫網(wǎng)推出了語(yǔ)音版的LBS手機應用,這是國內首個(gè)基于開(kāi)放語(yǔ)音云平臺下支持多操作系統的手機應用。近年來(lái),隨著(zhù)公司不斷的積累,語(yǔ)音識別的技術(shù)和產(chǎn)品都相應獲得了全方面領(lǐng)先優(yōu)勢的發(fā)展。在產(chǎn)品的聲學(xué)建模上,開(kāi)發(fā)使用了深度神經(jīng)網(wǎng)絡(luò )技術(shù);公司研發(fā)的語(yǔ)音切分技術(shù)及識別結果的置信度算法,不但為企業(yè)級應用提供準確的識別結果,同時(shí)也提供了精確的說(shuō)話(huà)人分割、時(shí)間邊界以及識別結果的置信度等信息,這些信息使企業(yè)在應用中(例如呼叫中心),更加便捷和準確地利用語(yǔ)音作為主要的交互方式,并且可以進(jìn)一步挖掘、分析和利用海量語(yǔ)音數據的內容。

     

      何國濤:普強智能語(yǔ)音分析系統可以廣泛應用于客服中心的質(zhì)檢和企業(yè)的精準營(yíng)銷(xiāo)中。該產(chǎn)品提供例如熱點(diǎn)發(fā)現,趨勢分析,自動(dòng)建模等領(lǐng)先的功能。

      普強在不斷開(kāi)發(fā)新技術(shù)的同時(shí),也在企業(yè)語(yǔ)音應用的多個(gè)領(lǐng)域,(例如保險、銀行、證券及電信等的客服中心、增值服務(wù)等)積累了海量的數據、模型信息和項目的經(jīng)驗。

      問(wèn):由此可以看出普強信息的技術(shù)實(shí)力和優(yōu)勢。目前依托語(yǔ)音識別技術(shù),普強有哪些成熟的產(chǎn)品?

      何國濤:成熟的產(chǎn)品主要有,千語(yǔ)語(yǔ)音平臺,向企業(yè)提供語(yǔ)音識別產(chǎn)品和服務(wù);千語(yǔ)語(yǔ)音云平臺,為手機互聯(lián)網(wǎng)應用提供的語(yǔ)音識別云服務(wù);普強智能語(yǔ)音分析系統,為企業(yè)提供全方位、多維度的大數據分析(語(yǔ)音,視頻,文本數據等)。

      問(wèn):您所提到的語(yǔ)音分析系統與傳統的人工分析相比,有哪些優(yōu)勢?

      何國濤:語(yǔ)音分析系統的優(yōu)勢主要有以下幾個(gè)方面。

      1. 數據覆蓋更全:很顯然,智能語(yǔ)音分析人工分析工具所難以比擬的數據覆蓋性,語(yǔ)音分析可以做到100%覆蓋,但人工分析一般抽樣比例低于5%.

      2. 數據處理能力更強:相比于人工分析,智能語(yǔ)音分析數據處理能力更高,每一個(gè)CPU線(xiàn)程每一小時(shí)可以處理分析2.6小時(shí)的錄音,而人工分析每人每一小時(shí)只能處理分析0.4小時(shí)的錄音。一般標配服務(wù)器為16核CPU,一般等同于104人。(Elwin,這里需要說(shuō)得更簡(jiǎn)單直白一些,“一般標配服務(wù)器16和CPU,一般等同于104人”,具體是什么意思?)

      3. 具有精確的分析功能:語(yǔ)音分析可以通過(guò)聚類(lèi)算法知道熱點(diǎn)業(yè)務(wù)、高頻詞匯;同時(shí)也可以通過(guò)篩選算法,在幾秒鐘內就可找到目標數據,而人工分析無(wú)法處理大數據量計算統計工作。

      4. 更具智能性:語(yǔ)音分析可以進(jìn)行大數據量的統計計算,從而找出中間的具有某個(gè)特定特性的集合,并且分析集合間的相關(guān)性,而人工分析無(wú)法進(jìn)行大數量的計算。

      5.自動(dòng)性:語(yǔ)音分析可以事先預設統計規則,并設置回溯期的數據重新統計計算,人工無(wú)法將歷史數據采用新算法計算。

      6.統計計算工具:語(yǔ)音分析具備大量的數據挖掘和分析工具,人工分析只能做簡(jiǎn)單的計算統計。

      問(wèn):與國際水平相比,國內的語(yǔ)音識別技術(shù)整體上處在一個(gè)怎樣的層次?

      何國濤:在中文語(yǔ)音識別領(lǐng)域,國內的科研院所及公司的數據積累要遠遠多于國外的同行,因此在中文的識別準確度上要好于國外。國內技術(shù)型創(chuàng )業(yè)公司(包括普強)在研發(fā)和利用新技術(shù)方面有很大的靈活性,站在技術(shù)的前沿,這同時(shí)也提高了國內語(yǔ)音技術(shù)在國內的產(chǎn)業(yè)化水平。在企業(yè)應用市場(chǎng)方面仍然落后于歐美的發(fā)達國家,但是目前處于迅速跟進(jìn)和快速發(fā)展的階段,這給語(yǔ)音產(chǎn)業(yè)的創(chuàng )業(yè)公司尤其是面向企業(yè)市場(chǎng)的公司提供了廣闊的市場(chǎng)空間。

      問(wèn):作為國內語(yǔ)音識別技術(shù)的優(yōu)秀創(chuàng )業(yè)企業(yè)之一,普強預計語(yǔ)音識別的未來(lái)發(fā)展會(huì )是怎樣的?

      李全忠:在技術(shù)方面,從簡(jiǎn)單的聲音模板匹配,到GMM/HMM,再到DNN/HMM每個(gè)新技術(shù)的發(fā)展都能給ASR的準確率帶來(lái)一個(gè)飛躍,但仍然有很多問(wèn)題需要解決,比如適應各種環(huán)境的噪音,尤其是含有人聲的背景噪聲、口音及方言的識別、以及在嵌入式設備中降低功耗等。

      普強會(huì )繼續投入大量的資源去解決這些問(wèn)題。以保證普強在技術(shù)上的領(lǐng)先地位。

      問(wèn):您認為普強未來(lái)的發(fā)展方向是怎樣的?

      何國濤:正如我之前提到的,ASR可應用在很多不同領(lǐng)域。包括:企業(yè)呼叫中心,車(chē)載導航領(lǐng)域、教育領(lǐng)域、玩具領(lǐng)域、聲紋識別領(lǐng)域和醫療保健領(lǐng)域等。普強的自主專(zhuān)利核心技術(shù)都可以支持這些領(lǐng)域。目前,我們集中資源在企業(yè)呼叫中心和移動(dòng)互聯(lián)網(wǎng)領(lǐng)域。我們的產(chǎn)品在這一領(lǐng)域有明顯的優(yōu)勢,會(huì )繼續投資現有的領(lǐng)域,同時(shí)也會(huì )在此領(lǐng)域繼續加大投入以保持我們的優(yōu)勢,當然,也會(huì )投入在車(chē)載、教育等領(lǐng)域來(lái)建立技術(shù)屏障。

    分享到: 收藏

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 西乌珠穆沁旗| 白朗县| 新乡县| 西昌市| 绩溪县| 萨迦县| 安庆市| 麻城市| 湘潭县| 富民县| 德令哈市| 开原市| 江阴市| 衢州市| 金山区| 交口县| 五常市| 广灵县| 游戏| 秀山| 台山市| 呼伦贝尔市| 杭州市| 汽车| 惠东县| 望都县| 延长县| 绥宁县| 仁布县| 手游| 二连浩特市| 康乐县| 长治县| 阿拉善盟| 如皋市| 巫山县| 关岭| 温州市| 抚松县| 无锡市| 额尔古纳市| http://444 http://444 http://444 http://444 http://444 http://444