• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 文章精選 >
     首頁(yè) > 資訊 > 文章精選 >

    如何從語(yǔ)音識別系統中獲得最佳效果

    2020-05-29 09:27:15   作者:   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      CTI論壇(ctiforum.com)(編譯/老秦):Voci Technologies的Rahul Shankar討論了音頻質(zhì)量,單詞錯誤率以及如何從語(yǔ)音識別系統中獲得最佳效果。
     
      在數字音頻領(lǐng)域,音頻質(zhì)量是對從電子設備輸出的音頻的準確性,保真度和清晰度的評估。
      鑒于音頻是自動(dòng)語(yǔ)音識別(ASR)系統的主要輸入,因此,音頻質(zhì)量對于最大化此類(lèi)系統的性能至關(guān)重要。
      音頻質(zhì)量越差,ASR系統的轉錄就越困難,這將導致轉錄的準確性降低。
      Rahul Shankar在Voci的部分職責包括評估客戶(hù)的音頻質(zhì)量,并向客戶(hù)提出個(gè)性化建議,以?xún)?yōu)化其音頻質(zhì)量以生成最準確的筆錄。
      因此,在本博客中,Rahul Shankar將討論最佳音頻質(zhì)量實(shí)踐,以確保您的ASR系統發(fā)揮最佳性能。
      確保高質(zhì)量的通話(huà)記錄
      如果您要錄制和制作音樂(lè ),則無(wú)需進(jìn)行任何后期處理就可以解決由于樂(lè )器錄制不佳而引起的問(wèn)題。
      不管是什么原因引起的問(wèn)題(例如,麥克風(fēng)放置不當,背景噪聲,混響問(wèn)題),如果原始錄音的質(zhì)量很差,在后期制作中就幾乎無(wú)計可施。
      這幾乎完全適用于語(yǔ)音到文本技術(shù)。與所有其他因素相比,質(zhì)量差的源音頻對字錯誤率(WER)的影響更為嚴重。
      這就是為什么。人腦具有將聽(tīng)覺(jué)注意力集中在特定刺激上的能力,同時(shí)濾除一系列其他刺激。
      例如,參加聚會(huì )的人可以專(zhuān)注于嘈雜房間中的單個(gè)對話(huà)。(鑒于這種例子的普遍性,這種能力通常被稱(chēng)為“雞尾酒會(huì )效應”。)
      ASR系統無(wú)法做我們人類(lèi)所能做到的--將注意力集中在特定的刺激上。它將所有刺激視為聲音輸入。引入失真的聲學(xué)背景(例如在上面的雞尾酒會(huì )示例中)將大大降低ASR的有效性。
      對于某些背景噪聲源(例如電視,廣播/音樂(lè ),交通噪聲等),識別引擎可能會(huì )對其進(jìn)行調整或解決。
      但是,與語(yǔ)音共享相同頻率范圍的源更具挑戰性。例如,請考慮是否有麥克風(fēng)接聽(tīng)附近的呼叫中心座席。
      一個(gè)人可以輕松地區分聲音。一個(gè)ASR系統卻會(huì )發(fā)現非常困難。ASR無(wú)法徹底可靠地濾除的任何背景噪聲都會(huì )對WER產(chǎn)生不利影響。因此,高質(zhì)量的記錄很重要。
      避免錯誤的轉碼
      代碼轉換是一種編碼形式到另一種編碼形式的直接數模轉換,即將文件從一種格式更改為另一種格式。許多呼叫記錄系統都會(huì )這樣做,以最大程度地利用數字存儲空間。
      在音頻轉碼中,有四種轉碼類(lèi)型,每種類(lèi)型對ASR轉錄的成功都有不同的影響:
    • 無(wú)損到無(wú)損
    • 無(wú)損到有損
    • 有損到有損
    • 有損到無(wú)損
      無(wú)損到無(wú)損轉碼是唯一安全且建議的轉碼形式,因為在此過(guò)程中不會(huì )丟失音頻信息。
      例如,從.wav文件轉換為.flac文件是無(wú)損壓縮的一個(gè)示例,通常用于節省磁盤(pán)空間而不影響質(zhì)量。
      磁盤(pán)上以8位/16kHz頻率運行的10分鐘單聲道。wav文件約為9.8MB,而flac壓縮后的同一文件約為5.6MB。
      相反,兩種形式的有損轉碼都會(huì )降低質(zhì)量。更糟糕的是,壓縮偽像是累積的。這意味著(zhù)無(wú)損轉碼將在每次連續轉碼過(guò)程中導致質(zhì)量的逐漸損失,這被稱(chēng)為“數字世代損失”。
      此過(guò)程是不可逆的,因此也稱(chēng)為“破壞性轉碼”。因此,強烈建議不要在有損格式之間或之內進(jìn)行有損格式的代碼轉換,并且可能會(huì )在自動(dòng)轉錄過(guò)程中產(chǎn)生問(wèn)題。
      有損到無(wú)損的轉碼(又稱(chēng)為上采樣)甚至更糟。它遭受雙重受損。此過(guò)程首先從有損文件的音頻質(zhì)量差開(kāi)始,然后增加未壓縮文件的文件大小。
      由于首先創(chuàng )建(丟失)文件的(破壞性)轉碼過(guò)程中造成的信息丟失是永久且不可逆的,因此對文件進(jìn)行無(wú)損轉碼只會(huì )增加文件大小,而不會(huì )提高質(zhì)量。
      明智地選擇編解碼器
      這有點(diǎn)技術(shù)性,但是在研究通話(huà)記錄技術(shù)時(shí),它是一項重要功能。
      語(yǔ)音編碼的目標是在給定的比特率下使失真最小化,或在可接受的失真度下使比特率最小化。
      但是,作為這種失真的客觀(guān)衡量指標的信噪比(SNR)與感知的語(yǔ)音質(zhì)量并沒(méi)有很好的關(guān)聯(lián)。
      因此,語(yǔ)音編碼器的性能通常使用主觀(guān)評分方法來(lái)衡量,該方法稱(chēng)為平均意見(jiàn)評分(MOS)。
      MOS的測量范圍為0-5.4.0-4.5的值稱(chēng)為“收費質(zhì)量”,代表用戶(hù)完全滿(mǎn)意。
      這是公用電話(huà)交換網(wǎng)(PSTN,我們都知道的標準電話(huà)網(wǎng))的正常值。它也是大多數VoIP電話(huà)服務(wù)提供商的基準。
      即使仍可理解,MOS得分等于或低于3.6,也被許多用戶(hù)認為是不可接受的。
      G711是實(shí)現最佳ASR性能的理想編解碼器。從理論上講,沒(méi)有任何編解碼器可以比G711更好地執行,因為它提供了最佳的質(zhì)量,沒(méi)有壓縮和最低的算法延遲。
      在無(wú)法使用G711的情況下,應使用在MOS評估中始終穩定在4.0以上的編解碼器,例如G726,G722.1和GSM-EFR。
      聲明:版權所有 非合作媒體謝絕轉載
      原文網(wǎng)址:https://www.callcentrehelper.com/get-best-speech-recognition-system-158324.htm
     
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 青岛市| 浪卡子县| 青海省| 虹口区| 嘉鱼县| 陵水| 台安县| 齐河县| 松原市| 库车县| 乌鲁木齐县| 轮台县| 乐亭县| 榆林市| 舞阳县| 垦利县| 泰来县| 迭部县| 九江县| 虹口区| 安宁市| 丰城市| 彭山县| 黑山县| 德江县| 扬州市| 金堂县| 建德市| 赣州市| 治县。| 云安县| 屏东县| 历史| 凌源市| 阿拉善右旗| 岗巴县| 家居| 托克逊县| 如皋市| 锡林浩特市| 岑溪市| http://444 http://444 http://444 http://444 http://444 http://444