人工智能和很多人機(jī)對(duì)話的場景使用越來越廣泛。根據(jù)IBM的數(shù)據(jù)統(tǒng)計(jì)：到2020年，大約85%的和客戶互動(dòng)的業(yè)務(wù)可能被不需要人來處理，這些工作會(huì)通過人工智能來處理。在實(shí)現(xiàn)語音和網(wǎng)絡(luò)技術(shù)集成方面需要相對(duì)比較規(guī)范的協(xié)議來進(jìn)行處理，否則各個(gè)廠家都和軟件集成商很難進(jìn)行標(biāo)準(zhǔn)的對(duì)接服務(wù)。MRCP協(xié)議是目前針對(duì)媒體資源和IP網(wǎng)絡(luò)起草的目前使用的標(biāo)準(zhǔn)協(xié)議。它主要的目的是對(duì)基于網(wǎng)絡(luò)的媒體處理資源（語音識(shí)別，語音合成）提供一個(gè)標(biāo)準(zhǔn)，一致的，并且靈活的接口。當(dāng)然，現(xiàn)在的MRCP版本已經(jīng)進(jìn)行了升級(jí)，特別是MRCP v2以后，更多的是應(yīng)用場景是使用在了基于IP的語音通信中。

　　根據(jù)維基百科的定義：

　　Media Resource Control Protocol （MRCP） is a communication protocol used by speech servers to provide various services （such as speech recognition and speech synthesis） to their clients. MRCP relies on another protocol, such as Real Time Streaming Protocol （RTSP） or Session Initiation Protocol （SIP） for establishing a control session and audio streams between the client and the server.

　　所以，根據(jù)英文的定義，我們一般的MRCP的中文定義是：媒體資源控制協(xié)議。簡單來說，就是借助其他協(xié)議（RTSP/SIP）創(chuàng)建一個(gè)控制會(huì)話來實(shí)現(xiàn)媒體資源服務(wù)器端和客戶端之間的控制。

　　因?yàn)楹虸P語音技術(shù)相關(guān)，因?yàn)楣ぷ骱蛺酆玫脑�，所以花了一點(diǎn)時(shí)間對(duì)MRCP協(xié)議做了一點(diǎn)粗淺的研究。筆者希望通過以學(xué)習(xí)筆記的方式和大家一起分享關(guān)于MRCP協(xié)議的相關(guān)知識(shí)，也可以幫助用戶，特別是智能客服開發(fā)的呼叫中心廠家技術(shù)人員提供一個(gè)快速上手的機(jī)會(huì)。在真正開始講座之前，筆者首先有幾點(diǎn)需要說明：

此講座的內(nèi)容是從MRCP早期版本的內(nèi)容開始介紹，結(jié)合了早期出版的一些學(xué)術(shù)資料來幫助大家理解MRCP的整個(gè)技術(shù)內(nèi)容。因?yàn)榧夹g(shù)的發(fā)展，可能以前的內(nèi)容稍微相對(duì)比較過時(shí)，不一定是筆者自己的筆誤，望理解。
此講座可能有時(shí)會(huì)配合最新的MRCP V2進(jìn)行介紹，所以需要大家了解。
此講座可能結(jié)合UniMRCP 開源的MRCP項(xiàng)目來介紹，所以請(qǐng)?zhí)崆矮@悉。
筆者不是語音識(shí)別領(lǐng)域的專家，僅對(duì)相關(guān)MRCP協(xié)議的部分內(nèi)容進(jìn)行討論，在某些細(xì)節(jié)比一定理解非常精確，所以一些涉及語音識(shí)別的底層算法技術(shù)不是重點(diǎn)我們討論的范圍。在一些章節(jié)中，我們僅對(duì)MRCP中的語音識(shí)別合成技術(shù)的使用加以介紹。

　　在今天接下來的內(nèi)容中，我們將要介紹幾個(gè)關(guān)于MRCP的背景知識(shí)點(diǎn)和其使用的商業(yè)環(huán)境。

　　1、這里，我們首先介紹一下MRCP的歷史。MRCP協(xié)議經(jīng)歷了兩個(gè)版本的發(fā)布。目前使用的是MRCP v2 版本。

　　MRCP協(xié)議MRCP V1最初是有思科，在2001年，Nuance和SpeechWorks 聯(lián)合起草通過IETF 作為一個(gè)網(wǎng)絡(luò)草案發(fā)布，最后形成的是RFC4463 。實(shí)際上，此版本也沒有真正發(fā)展成為一個(gè)實(shí)際的IETF協(xié)議標(biāo)準(zhǔn)版本。因?yàn)榇税姹井?dāng)初發(fā)布時(shí)有幾個(gè)方面的技術(shù)因素限制了其未來的可拓展性，兼容性。MRCP V1版本主要存在以下幾個(gè)方面的問題：

MRCP V1 版本依賴于RTSP 協(xié)議來創(chuàng)建媒體流和數(shù)據(jù)傳輸傳輸。而當(dāng)時(shí)，SIP協(xié)議已經(jīng)是很多廠家推薦的媒體會(huì)話控制協(xié)議。
MRCP V1 版本存在兼容性的問題，對(duì)如何定義數(shù)據(jù)表示方式支持語音識(shí)別非常困難。很多語音識(shí)別的廠家要求支持的拓展也沒有實(shí)現(xiàn)。
缺乏對(duì)講話者語音變化，識(shí)別引擎和講話錄音的支持。

　　2002年，SpeechSC工作組重新討論了MRCP V1 的問題，對(duì)MRCP V1 進(jìn)行了修改，發(fā)布了MRCP V2版本，MRCP V2 版本事實(shí)上在V1版本基礎(chǔ)上實(shí)現(xiàn)了優(yōu)化，修改和拓展，正式成為了MRCP V1的標(biāo)準(zhǔn)版本。

　　因?yàn)樵贛RCP V2版本中使用了SIP來負(fù)責(zé)創(chuàng)建獨(dú)立的媒體和會(huì)話支持語音媒體資源，增加了對(duì)講話者變化和講話者的身份引擎的支持（speaker verification

　　和 identification），同時(shí)增加了拓展性，保證了豐富的兼容性。從此，MRCP V2 版本一直使用到現(xiàn)在。

　　2、前面，我們已經(jīng)說到，IETF是MRCP協(xié)議起草的主要組織之一，負(fù)責(zé)了MRCP的技術(shù)架構(gòu)和SIP協(xié)議的起草。另外一個(gè)國際組織也扮演了非常重要的角色-W3C。大家都知道W3C更多側(cè)重于互聯(lián)網(wǎng)技術(shù)的標(biāo)準(zhǔn)，例如我們大家知道的HTML。W3C 在1999 年創(chuàng)建了Voice Broswer Working Group（VBWG）。此小組研究的目的是讓用戶能夠通過Web支持語音識(shí)別和DTMF的流程處理。VBWG發(fā)布了基于基于web的語音接口架構(gòu)。此架構(gòu)支持了描述性語言，用戶可以通過此架構(gòu)部署語音識(shí)別，語音合成等應(yīng)用。VoiceXML是此架構(gòu)的核心模塊。用戶可以快速掌握此語法。VoiceXML依賴于其輔助語言引擎，指定了語音識(shí)別和語音合成等執(zhí)行流程。

　　W3C的Speech Recognition Grammar Specification （SRGS）是一種標(biāo)準(zhǔn)的，基于XML語言的一種處理方式，支持了語音語法的規(guī)則，可識(shí)別的短語。和SRGS比較接近的是W3C Semantic Interpretation for Speech Recognition （SISR）。它更多的是用來標(biāo)記語義信息支持語音語法，構(gòu)成了對(duì)自然語言理解的基本格式。

　　W3C Speech Synthesis Markup Language （SSML）是基于XML描述語言的方式指定內(nèi)容進(jìn)行合成的方式，通過一種機(jī)制來控制語音的各種屬性，包括音量大小，發(fā)音，語音間距，語速等方面的控制。

　　SRGS和SSML來平衡和控制W3C的發(fā)音語法規(guī)則（英文全稱：Pronunciation Lexicon Specification （PLS））。PLS可以使用標(biāo)準(zhǔn)的發(fā)音字母來指定單詞和短語發(fā)音。

　　經(jīng)過多年的發(fā)展，VoiceXML是MRCP的“常見用戶”，VoiceXML通過部署MRCP協(xié)議，它可以輕松支持多種第三方的語音識(shí)別和合成引擎，從而實(shí)現(xiàn)引擎和MRCP上游數(shù)據(jù)的交互。VBWG和SpeechSC 工作組在MRCP協(xié)議和語音識(shí)別合成接口架構(gòu)集成方面緊密合作，雙方共享很多技術(shù)標(biāo)準(zhǔn)，實(shí)現(xiàn)了跨平臺(tái)的支持。從以上介紹我們可以看到，MRCP必須借助于VoiceXML才能真正實(shí)現(xiàn)和語音識(shí)別，合成引擎的支持，實(shí)現(xiàn)無縫集成。

　　3、人工智能代替呼叫中心座席人員是非常實(shí)用的一個(gè)功能，很多優(yōu)勢我們這里不再做更多介紹。事實(shí)上，通過人工智能實(shí)現(xiàn)智能化的呼叫中心IVR互動(dòng)是MRCP核心的價(jià)值所在。這也是技術(shù)發(fā)展的必然。語音通信和互聯(lián)網(wǎng)結(jié)合是目前比較熱門的技術(shù)。大家可以看到，從最早的按鍵輸入（DTMF），簡單的語音IVR系統(tǒng)，到基于IP的語音IVR，人工接入，到目前的全自動(dòng)化人工智能方式。整個(gè)技術(shù)發(fā)展的過程逐漸被人工智能所替代。語音識(shí)別和語音合成則是IP技術(shù)的重要協(xié)同工具。很多基于SIP或IMS的通信可以越來越多地支持應(yīng)用場景。因此，MRCP是目前非常核心的協(xié)議。

　　目前MRCP使用在很多場景中。呼叫中心就是一個(gè)典型的案例。很多用戶正在使用開源軟交換平臺(tái)來開發(fā)呼叫中心，MRCP支持了目前最熱門的開源語音通信平臺(tái)Asterisk和FreeSWITCH，并且提供了豐富的接口文檔。

　　4、在本學(xué)習(xí)筆記中，我們首先介紹了MRCP的定義，然后介紹了MRCP的版本演進(jìn)和其歷史背景。同時(shí)，筆者對(duì)兩個(gè)版本的特點(diǎn)做了簡單介紹，并且對(duì)W3C的標(biāo)準(zhǔn)的幾個(gè)子細(xì)節(jié)做了描述，這些規(guī)則可以通過VoiceXML描述語言來集成語音識(shí)別和語音合成引擎。通過W3C的細(xì)節(jié)配合MRCP可以充分發(fā)揮IP語音通信和智能語音識(shí)別的威力，實(shí)現(xiàn)多種場景的智能IVR，智能機(jī)器人開發(fā)等呼叫中心的使用環(huán)境。

　　在接下來的筆記分享中，筆者會(huì)進(jìn)一步和大家分享關(guān)于基本的語音處理流程和其他相關(guān)基礎(chǔ)知識(shí)。