首頁(yè)>>廠(chǎng)商>>語(yǔ)音識別與合成>>科大訊飛

語(yǔ)音界面設計感想一二

陳焱 2004/08/31

  作為一家專(zhuān)業(yè)的語(yǔ)音及語(yǔ)言技術(shù)提供商,科大訊飛公司專(zhuān)門(mén)成立了一個(gè)部門(mén)進(jìn)行語(yǔ)音應用的嘗試性開(kāi)發(fā)和應用跟蹤。用戶(hù)體驗作為一個(gè)重要的環(huán)節貫穿每一個(gè)新的CTI應用系統從最初的開(kāi)發(fā)設計到最后走向最終用戶(hù)的全過(guò)程。在眾多的用戶(hù)體驗中,我們注意到語(yǔ)音界面的設計直接影響到了整個(gè)系統的易用性、高效性和用戶(hù)對系統服務(wù)的直觀(guān)感受即系統的親切性。在這里,我們將一些關(guān)于語(yǔ)音界面設計的感想表述出來(lái)和CTI界的朋友們一同分享,希望更多的CTI系統設計者們能共同推動(dòng)人性化語(yǔ)音應用環(huán)境的發(fā)展。

  語(yǔ)音界面是用戶(hù)為了獲取信息和自動(dòng)應答系統進(jìn)行的對話(huà)過(guò)程。畢竟是同機器的對話(huà),用戶(hù)并不想和機器聊天,獲取信息才是最終目的。因而,語(yǔ)音界面最基本的要求應該是通過(guò)簡(jiǎn)潔易懂的對話(huà)讓用戶(hù)最快最準確的獲取其需要的信息。在此基礎上,再通過(guò)語(yǔ)言的不同表達方式、配合符合對話(huà)場(chǎng)景的音樂(lè )音效等手段創(chuàng )造出更自然更親切的對話(huà)環(huán)境,使用戶(hù)感受到體貼的服務(wù)。

  對話(huà)設計中最容易碰到的就是易懂和易用之間的矛盾。有些語(yǔ)音界面用戶(hù)要和系統進(jìn)行七八次對答才能實(shí)現某個(gè)功能,但又覺(jué)得如果不問(wèn)這么多問(wèn)題無(wú)法收集全客戶(hù)的查詢(xún)條件。這中間的矛盾似乎很難協(xié)調,但設計者往往忽略了當前所處的語(yǔ)言環(huán)境,而不能通過(guò)最簡(jiǎn)潔有效的對答獲取信息。結合所處的語(yǔ)言環(huán)境,可以縮減掉很多冗余的信息,順著(zhù)對話(huà)的語(yǔ)勢,不僅可以設計出簡(jiǎn)短的對話(huà),也能營(yíng)造出一個(gè)很自然的對話(huà)氛圍,讓使用者減少與機器對話(huà)的抵觸感。

  在措辭表達方面,應該盡量避免拖沓冗長(cháng)的句式,盡量用短句來(lái)表達意思。若需要表達信息的句子確實(shí)很長(cháng),建議將最有用的信息放在最後。因為聽(tīng)者對短句比對長(cháng)句的理解容易;對聽(tīng)到的最近的語(yǔ)音印象較深。

  語(yǔ)音界面的自然、親切在錄好的提示音而言比較容易實(shí)現,只要在發(fā)音人的音色和發(fā)音風(fēng)格上加以注意就可以達到令人滿(mǎn)意的效果。

  音色的選擇主要考慮的是在電話(huà)信道中的傳播效果。過(guò)于低沉或音域窄而尖銳的聲音轉成8k或6k的時(shí)候損失較大,一些音頭或音尾會(huì )缺失掉,導致某些提示音在電話(huà)中聽(tīng)的不是很清楚。發(fā)音悅耳,擲地有聲的音色,可以讓聽(tīng)眾很輕松的聽(tīng)清內容,且不易產(chǎn)生疲勞感。
發(fā)音風(fēng)格的選擇是要根據語(yǔ)音服務(wù)的內容和面向的聽(tīng)眾而定的。娛樂(lè )節目和信息服務(wù)系統在報讀風(fēng)格上就有較大的差異,前者需要活潑夸張的語(yǔ)言來(lái)表達,而后者則要清晰、流暢、平穩中突出強調用戶(hù)查詢(xún)的結果。體育節目面對的是體育愛(ài)好者,需要快節奏的風(fēng)格,而幼兒教育類(lèi)節目面對的是年齡較小的孩子,要采用親切的循循善誘的發(fā)音風(fēng)格等。因此,在定風(fēng)格的時(shí)候要根據內容和服務(wù)群體樂(lè )于接受的基調來(lái)確定。

  錄制提示音的時(shí)候,也有一些需要注意的地方。錄音環(huán)境要保持安靜,錄音時(shí),播音員應始終維持相同的狀態(tài),最好能夠一次錄完所有的提示音,如果不能一次錄完,則需對錄音設備、錄音音量、噪聲范圍等進(jìn)行量化規定,以防止多次錄音的效果不一致。錄音的數據應該進(jìn)行降噪、去雜音、能量規整和預留靜寂段等處理,以保證使用時(shí)的效果。

  除了錄好提示音之外,語(yǔ)音合成和語(yǔ)音識別技術(shù)的應用,在語(yǔ)音界面的設計中也占了重要的部分。合成系統代替了動(dòng)態(tài)信息和海量信息的報讀,由于是機器的聲音,很容易讓人產(chǎn)生不自然的感覺(jué)。其實(shí),有些很不自然的合成效果是因為沒(méi)有能正確的使用合成系統而導致的,并不能體現出合成系統真正應該達到的自然度。那在使用合成系統時(shí)怎樣發(fā)揮出合成系統真正的水平,盡可能提升合成的自然度呢?

  合成文本是合成語(yǔ)音的基礎,因此合成文本是否規范可直接影響到合成的效果。首先文本內容中應該沒(méi)有錯別字,也沒(méi)有不合理的標點(diǎn)符號。因為漢語(yǔ)的分詞斷句是憑借字詞和標點(diǎn)符號來(lái)完成的,如果出現錯誤就會(huì )導致不合理的停連。其次,合成的文本應該是連續的句子,而不是單獨的字詞或詞組分別合成再進(jìn)行拼接。有些查詢(xún)結果可能是固定文本和動(dòng)態(tài)文本結合的,設計者會(huì )認為固定文本使用提示音效果會(huì )更好,就將固定文本和動(dòng)態(tài)文本剝離開(kāi),單獨合成動(dòng)態(tài)信息再和固定語(yǔ)音相拼接,導致動(dòng)態(tài)文本合成效果很差,拼接起來(lái)效果就會(huì )更差。例如:"您有500元可消費"被分成了"您有"、"500元"、"可消費"單獨合成再拼接的效果就會(huì )不如直接合成"您有500元可消費"的效果好。因為作為字詞的合成和作為句子中的一部分合成出的語(yǔ)音,其與前后語(yǔ)音的環(huán)境是不一樣的,因而輕重長(cháng)短等韻律也是不一樣的。

  合成的語(yǔ)音和提示音一起使用時(shí),往往因為二者的區別較大而引起聽(tīng)感上的差異,使合成音顯得不自然。這種差異可以通過(guò)與提示音的互相調節而有所改善。最好可以做到提示音和合成音的發(fā)音人相同,這樣二者間的過(guò)渡在音色上不會(huì )有太大的出入。如果不能做到同一發(fā)音人,那要盡量讓二者在音色上相接近,語(yǔ)速要保持一致。此外,由于錄音的自然度比合成音高,容易引起聽(tīng)者的注意,可以適當調高合成音的音量,使合成音能夠引起聽(tīng)感上的關(guān)注。在科大訊飛最新推出的InterPhonic 3.0系統中就提供了提示音資源管理工具,可以方便的在合成系統的實(shí)時(shí)合成中添加提示音,并可對提示音進(jìn)行音量調整使之與合成語(yǔ)音的銜接自然流暢。

  此外,我們還可通過(guò)一些參數設置和規則的約束調整合成的韻律,科大訊飛的合成系統提供了語(yǔ)速、音量、音高、停頓等多種參數的設置,這些設置可通過(guò)CSSML(中文語(yǔ)音標記語(yǔ)言)對句子進(jìn)行韻律風(fēng)格的控制。例如,當需要強調某個(gè)句子中的特定信息的時(shí)候,可以調整語(yǔ)速、音高、停頓等韻律控制參數,在金額查詢(xún)、選擇問(wèn)句、信息確認中都可以使用參數調節來(lái)突出強調。

  通過(guò)添加背景音樂(lè )和特殊音效的方式,也可以提高語(yǔ)音服務(wù)的親切度和自然度。經(jīng)過(guò)測試表明,音樂(lè )可以轉移人們對合成音中的一些微瑕的注意力,因而在大段的合成信息播報時(shí)配上風(fēng)格相近的背景音樂(lè ),可以明顯的改善合成語(yǔ)音的自然度。而在一些重要信息的播報時(shí)配上音效可以提高人們對音效后播報信息的注意力。而且,在和機器對話(huà)時(shí)間過(guò)長(cháng)時(shí),人們的注意力就會(huì )分散,背景音樂(lè )和音效都可以有效的緩解聽(tīng)覺(jué)疲勞。

  識別技術(shù)的應用可以省卻大量的查詢(xún)選擇,因而是語(yǔ)音界面設計中一個(gè)簡(jiǎn)化菜單層次的有效手段。一般來(lái)說(shuō)提高識別的準確率的方法是這樣,首先結合應用地理環(huán)境、實(shí)際場(chǎng)景、客戶(hù)群進(jìn)行語(yǔ)法優(yōu)化,其次使用N_best、置信度等技術(shù)提高識別結果準確度,最后進(jìn)行全面的tuning來(lái)對識別效果進(jìn)行調優(yōu)。語(yǔ)法優(yōu)化是根據識別使用區域的語(yǔ)言習慣,對語(yǔ)法進(jìn)行的調整,可以增加常用的詞匯擴大識別的范圍,例如北方人"俺"也可識別成"我"。使用N_best技術(shù),識別系統會(huì )給出多個(gè)選擇,然后讓用戶(hù)進(jìn)行按鍵確認,這樣對于比較相似的選項造成的識別率問(wèn)題可以得到很好的解決。設置置信度評分管理機制對識別結果進(jìn)行劃分并進(jìn)入不同的應答流程,既可以提高識別率也可以節省反復的詢(xún)問(wèn)流程。當分數過(guò)低時(shí)可直接排除,達到一定的分數可通過(guò)詢(xún)問(wèn)獲取使用者更多的信息進(jìn)行確認,如果分數高過(guò)設置的范圍可直接認為識別正確。當系統使用一段時(shí)間后,我們還可以收集前期用戶(hù)使用過(guò)程的全部錄音數據進(jìn)行參數的調整試驗,直到計算出最合適的參數設置。

  優(yōu)化語(yǔ)音合成的效果,提高語(yǔ)音識別的準確率,再將提示音和二者配合的恰到好處,就可以構成一個(gè)貼近自然交流狀態(tài)的人性化的語(yǔ)音應用界面。科大訊飛公司以專(zhuān)業(yè)的態(tài)度在應用中不斷的完善其語(yǔ)音應用系統,并致力于語(yǔ)音應用標準化工作的推動(dòng)和實(shí)施,為語(yǔ)音界面設計者提供更便捷更實(shí)用的效果優(yōu)化和系統管理工具,讓語(yǔ)音界面設計工作變得更加輕松有效。

科大訊飛公司供稿 原文刊登在《客戶(hù)世界》



相關(guān)鏈接:
訊飛暢言語(yǔ)音教具系統榮獲“創(chuàng )新軟件產(chǎn)品” 2009-09-08
科大訊飛嵌入式語(yǔ)音新產(chǎn)品發(fā)布會(huì )在深圳舉行 2009-09-07
“會(huì )說(shuō)話(huà)”的顯示屏提升居民小區信息服務(wù)水平 2009-09-07
訊飛語(yǔ)音助力太平人壽客服中心 2009-08-28
訊飛語(yǔ)音助力CDMA手機競爭終端市場(chǎng) 2009-08-14

分類(lèi)信息:     文摘   技術(shù)_語(yǔ)音合成_文摘
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 乌兰浩特市| 吐鲁番市| 阆中市| 定州市| 长顺县| 夏津县| 武威市| 唐河县| 雷波县| 固原市| 岗巴县| 通江县| 沾益县| 兴业县| 孟州市| 扎兰屯市| 榆中县| 岢岚县| 遵义市| 改则县| 彩票| 晋城| 高阳县| 呼伦贝尔市| 长葛市| 和龙市| 奉新县| 修文县| 福州市| 城步| 新津县| 东方市| 镇赉县| 车险| 彩票| 驻马店市| 柞水县| 内江市| 上犹县| 大方县| 松溪县| http://444 http://444 http://444 http://444 http://444 http://444