• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
     首頁(yè) > 技術(shù) > 技術(shù)文摘 > 語(yǔ)音識別前景如何?

    語(yǔ)音識別前景如何?

    1999-12-06 00:00:00   作者:   來(lái)源:   評論:0 點(diǎn)擊:


      鄭方,1967年生于江蘇省,獲清華大學(xué)計算機科學(xué)與技術(shù)專(zhuān)業(yè)學(xué)士、碩士及博士學(xué)位。現為清華大學(xué)副教授,清華-adidsp技術(shù)研究中心主任及語(yǔ)音實(shí)驗室主任。鄭方作為主要承擔者或負責人參與了許多語(yǔ)音識別領(lǐng)域的國家重點(diǎn)攻關(guān)項目和863高科技項目并多次獲獎。另外,他還負責開(kāi)發(fā)了若干基于ti和adi的dsp語(yǔ)音識別產(chǎn)品。他的專(zhuān)業(yè)興趣包括信號處理,聲學(xué)/語(yǔ)言模型建模,孤立詞/連續語(yǔ)音識別,關(guān)鍵詞檢出,語(yǔ)音聽(tīng)寫(xiě),語(yǔ)言理解等。現為ieee會(huì )員,中國《中文信息學(xué)報》編委。他已發(fā)表40余篇有關(guān)語(yǔ)音處理的學(xué)術(shù)論文,其中數篇獲獎。



      語(yǔ)音識別雖然已經(jīng)有比較大的進(jìn)步,但必須有大的創(chuàng )新才可能有大的突破。主要包括以下幾個(gè)方面:

      1.提高系統魯棒性和自適應能力,包括語(yǔ)音特征提取、聲學(xué)模型、語(yǔ)言模型等諸多方面的魯棒性和自適應等。

      語(yǔ)音的特征提取和聲學(xué)模型對含噪語(yǔ)音、不同信道傳輸施加給語(yǔ)音的影響、不同發(fā)音人及其不同方式等要有魯棒性和自適應能力;語(yǔ)言模型對各種不同的應用領(lǐng)域要有魯棒性和自適應能力。

      2.在語(yǔ)音識別中使用語(yǔ)音學(xué)知識和語(yǔ)言學(xué)知識。語(yǔ)音模型的建立仍然是一個(gè)基本問(wèn)題,但對什么樣的發(fā)音建什么樣的模型就不僅是數學(xué)建模的問(wèn)題,還需把語(yǔ)音知識和語(yǔ)言知識結合起來(lái),以高層知識作為建模和識別的引導。這些知識不管在聲學(xué)模型部分還是在語(yǔ)言模型部分都應該盡可能應用。

      3.重視海量語(yǔ)音庫和語(yǔ)料庫的制作和標注。語(yǔ)音庫用以訓練語(yǔ)音模型,語(yǔ)料庫則用以訓練統計語(yǔ)言模型,它們的制作和標注有著(zhù)舉足輕重的地位。一個(gè)海量的、科學(xué)標注了的語(yǔ)音庫和語(yǔ)料庫對提高聲學(xué)模型和語(yǔ)言模型是非常重要的。

      4.策略型和多模態(tài)方案。在目前的技術(shù)還不是特別成熟的前提下,可能需要綜合利用各種已有技術(shù)來(lái)提高系統的整體性能。比如充分利用各種可以利用的特征、集成各種識別性能互補的若干識別器、結合語(yǔ)音識別和手寫(xiě)體文字識別,為用戶(hù)提供各種不同應用的方案。這些都是有益的解決方案。

      5.窄帶應用和口語(yǔ)對話(huà)應用。語(yǔ)音聽(tīng)寫(xiě)機之所以不能很好推廣,也許是因為目前有不少出色的漢字輸入方法,如全拼、雙拼、五筆等。但是有些場(chǎng)合,如通過(guò)帶寬很窄的電話(huà)線(xiàn)對遠程的數據庫進(jìn)行信息檢索和查詢(xún)(如天氣預報、旅游信息、股市行情、航班信息等)時(shí),語(yǔ)音識別就會(huì )發(fā)揮很大的作用,從而會(huì )有很大的應用前景。這是因為,語(yǔ)音是非常自然的方式,而且由于電話(huà)上只有數字鍵,相對于用數字鍵進(jìn)行逐級的需求確認來(lái)說(shuō),語(yǔ)音識別更具有競爭力。

      在這種應用中,需要解決的技術(shù)難點(diǎn)包括:(一)由于電話(huà)信道帶寬窄(只有3.4khz),語(yǔ)音信號的信息損失較大,電話(huà)機和信道質(zhì)量差異大,背景噪音和信道噪音種類(lèi)繁多,因此必須有性能優(yōu)異的語(yǔ)音增強、特征提取、語(yǔ)音識別與理解等算法。(二)由于說(shuō)話(huà)人的在查詢(xún)時(shí)使用的都是自然語(yǔ)言,因此必須研究口語(yǔ)現象。(三)必須研究語(yǔ)言理解技術(shù)。聽(tīng)寫(xiě)機只能解決語(yǔ)音到文本的轉換,卻不知其意;但口語(yǔ)對話(huà)系統必須有語(yǔ)言理解部分才能知道用戶(hù)的查詢(xún)需求,并有針對性地提供相應的信息。

      6.制定軟件開(kāi)發(fā)工具(sdk)。為了推廣語(yǔ)音產(chǎn)品,制定方便中間開(kāi)發(fā)人員使用sdk也非常重要。一些知名公司無(wú)不在此傾注力量,以期制定工業(yè)標準。如ibm的ibm sdk、微軟的microsoft sapi、dragon公司的dragon sdk、以及l(fā)&h公司的spark等都是用于開(kāi)發(fā)語(yǔ)音產(chǎn)品的軟件開(kāi)發(fā)工具。這也是國內研發(fā)機構需要學(xué)習和注意的地方。

    得意音通公司供稿 原文《中國計算機報》,第91期,1999年12月6日

    相關(guān)熱詞搜索:

    上一篇:第一頁(yè)

    下一篇:采用IP傳真提供增強型傳真服務(wù)

    相關(guān)閱讀:

    分享到: 收藏

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 远安县| 祁东县| 永和县| 清新县| 武定县| 灵川县| 桓台县| 康平县| 荔波县| 横山县| 宁强县| 大同县| 镇宁| 图木舒克市| 东丰县| 康乐县| 体育| 陵川县| 萨嘎县| 江永县| 丽水市| 财经| 镇巴县| 肇东市| 通辽市| 青海省| 青川县| 武川县| 宝兴县| 安达市| 乐山市| 依安县| 公安县| 余庆县| 徐水县| 赣榆县| 盖州市| 阿克陶县| 淮南市| 长子县| 敦煌市| http://444 http://444 http://444 http://444 http://444 http://444