• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁 > 資訊 > 國內 >
     首頁 > 資訊 > 國內 >

    壹鴿AI技術小貼士-語音識別前端處理介紹

    2020-06-08 10:22:30   作者:   來源:CTI論壇   評論:0  點擊:


      萬物互聯(lián)時代,語音識別被視為人機交互的新入口,人與機器人之間通過自然語言交互已成為可能,本周壹鴿科技站將在技術的角度上,為大家介紹語音識別前端處理。
      前端語音處理,利用信號處理的方法對說話人的語音進行檢測、降噪等預處理,以便得到最適合語音識別引擎處理的語音,其主要功能包括端點檢測VAD、流式語音智能斷句和噪音消除。
      一、端點檢測
      語音端點檢測是對輸入的音頻流進行分析,確定客戶說話的起點和終止點的處理過程。一旦檢測到客戶開始說話,語音開始流向識別引擎,直到檢測到客戶說話結束。這種方式能夠使得識別引擎在客戶說話的同時開始進行識別,做到最大限度的即時處理。
      1 端點檢測過程
      1、基于語音信號的特征,用能量,過零率,熵(entropy),音高(pitch)等參數(shù)以及它們的衍生參數(shù),來判斷信號流中的語音/非語音信號。
      2、在信號流中檢測到語音信號后,判斷此處是否是語句的開始或結束點。在商用語音系統(tǒng)中,由于信號多變的背景和自然對話模式而更容易使得句中有停頓(非語音),特別是在爆發(fā)聲母前總會有無聲間隙。因此,這種開始/結束的判定尤為重要。
      2 端點檢測目的
      減少識別器的數(shù)據(jù)處理量。可以大量減少信號傳輸量及識別器的運算負載,對于語音對話的實時識別有重要作用。
      拒絕非語音的信號。對非語音信號的識別不僅是一種資源浪費,而且有可能改變對話的狀態(tài),造成對用戶的困擾。
      在需要打斷(barge-in)功能的系統(tǒng)中,語音的起始點是必須的。在端點檢測找到語音的起始點時,系統(tǒng)將停止提示音的播放。完成打斷功能。
      3 端點檢測對識別系統(tǒng)的影響
      隨著語音識別應用的發(fā)展,越來越多的系統(tǒng)將打斷功能作為一種方便有效的應用模式。
      而打斷功能又直接依賴端點檢測,端點檢測對打斷功能的影響發(fā)生在判斷語音/非語音的過程出現(xiàn)錯誤時,表現(xiàn)在過于敏感的端點檢測產生的語音信號的誤警將產生錯誤的打斷。
      例如,提示音被很強的背景噪音或其它人的講話打斷,是因為端點檢測錯誤的將這些信號作為有效語音信號造成的。反之,如果端點檢測漏過了事實上的語音部分,而沒有檢測到語音,系統(tǒng)會表現(xiàn)出沒有反應。
      在用戶講話時還在播放提示音,端點檢測對識別系統(tǒng)的識別效果影響也很大。語音信號的起始點和結束點判斷有誤,有可能影響整個信號的完整性。在語句的開頭或結尾漏掉一些有用的數(shù)據(jù)。當這種情況發(fā)生時,很可能對識別的準確度有特別大影響,不完全的信息會使識別率降低。
      4 商用端點檢測應具備的特性
      端點檢測的精確度高。
      更好的背景噪聲和語音模型:使系統(tǒng)對背景噪聲,其它說話人和非語音的聲音有很好的拒絕功能。
      默認的系統(tǒng)相關參數(shù)有很好的適用性,而在有需要的現(xiàn)實環(huán)境中,可以通過系統(tǒng)調節(jié)來適應通話環(huán)境,改善端點檢測的效果。
      對信道有自適應能力:在對話開始后能很快適應當前的信道特征,使得端點檢測的準確度有進一步提高。
      獨特的識別服務器的反饋和非語音持續(xù)時間雙重結束點判定功能,有效的改善了語音結束點的判定,特別是對較長的語句效果更加突出。
      基于可靠的端點檢測技術和智能反饋,智能打斷功能不僅應該在一般的環(huán)境下工作出色,而且能有效的拒絕環(huán)境噪聲,非語音的高強噪聲(呼吸,關門等)環(huán)境中其它人的聲音。
      二 流式語音智能斷句
      現(xiàn)有的語音處理方案是先用語音活動檢測模塊對語音進行斷句,再將斷開的語音進行自動語音識別。但是,在電話語音交互場景中,VAD面臨著兩個難題:
      01如何可以成功檢測到最低能量的語音(靈敏度)?
      02如何在多變的復雜噪聲環(huán)境下成功檢測(漏檢率和虛檢率)?
      漏檢反應的是原本是語音但是沒有檢測出來,而虛檢率反應的是不是語音信號而被檢測成語音信號的概率。相對而言漏檢是不可接受的,而虛檢可以通過后端的ASR和NLP算法進一步過濾,但是虛檢會帶來系統(tǒng)資源利用率上升,以及造成響應不及時。
      對于在目標人交互語音前發(fā)生虛檢,主要問題是增加ASR識別處理數(shù)據(jù)量,如下圖所示:

      對于在目標人交互語音后發(fā)生虛檢,不僅增加ASR識別處理數(shù)據(jù)量,還會造成響應不及時。
      現(xiàn)有語音處理方案存在斷句不準確的問題,主要有兩個主要缺點:
      一是無法過濾噪音和無效的語音;
      另外就是對說話人的要求較高,中間不能有停頓,如果句間停頓時長設置的太短,容易造成截斷;句間停頓時長設置太長,又會造成響應不及時。
      如下圖所示:

      流式語音智能斷句模塊是主要由語音識別模塊、信息流聚合模塊、動態(tài)窗口設定模塊、斷句識別模塊構成。其中:
      語音識別模塊用于接收并識別語音實時流,并按照指定的頻率輸出帶有時序的語音識別結果;
      信息流聚合模塊用于對帶有時序的語音識別結果進行優(yōu)化處理,并整合經(jīng)過優(yōu)化處理后的帶有時序的語音識別結果,以形成語音識別結果序列;
      動態(tài)窗口設定模塊用于從語音識別結果序列中選擇指定范圍的文本,進而將指定范圍的文本用于斷句分析;
      斷句識別模塊用于分析指定范圍的文本的語義,并根據(jù)語義確定是否進行斷句。
      三噪音消除
      引擎具備噪音消除功能,在實際應用過程中背景噪聲對于語音識別應用是一個現(xiàn)實的挑戰(zhàn),即便說話人處理安靜的辦公室環(huán)境,在電話語音通話過程中也難免會有一定噪聲,語音識別系統(tǒng)需具備高效的噪音消除能力,以適應客戶在千差萬別的環(huán)境中使用的要求。
      關于語音識別前端處理的介紹就到這了,壹鴿科技后續(xù)將會為大家?guī)砀嘞嚓P的技術講解,敬請期待把!
     
    【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專題

    CTI論壇會員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 砀山县| 玛纳斯县| 连南| 深圳市| 临潭县| 铁岭县| 聊城市| 瑞金市| 临汾市| 白沙| 新乡县| 中阳县| 东乡族自治县| 辽阳县| 宁晋县| 郧西县| 武山县| 五大连池市| 扶绥县| 塘沽区| 永川市| 昆明市| 威信县| 景泰县| 墨竹工卡县| 南皮县| 夏津县| 仪征市| 锡林浩特市| 永修县| 沁阳市| 武安市| 惠来县| 惠安县| 巢湖市| 汉源县| 定南县| 镇康县| 通州市| 宣武区| 巫山县| http://444 http://444 http://444 http://444 http://444 http://444