MRCP協(xié)議使用了Natural Language Semantics Markup Language（NLSML）來呈現(xiàn)數(shù)據(jù)的輸出格式，它封裝了語音識別資源和說話人確認資源的數(shù)據(jù)。Natural Language Semantics Markup Language的中文的全稱是自然語言語義標識語言。為了書寫方便，我們在接下來的部分使用其縮寫來表示。NLSML是W3C的一個發(fā)布標準，MRCP協(xié)議借用了NLSML的部分技術細節(jié)，經過一些裁剪實現(xiàn)了MRCP的NLSML版本。在今天的章節(jié)中，我們將涵蓋MRCP的自然語言語義標識語言一些關鍵配置參數(shù)和使用示例。

　　1、首先，我們介紹一下NLSML的一些背景信息。MRCP中的NLSML實際上是一種數(shù)據(jù)交換的格式，它介于語音識別和說話人確認資源的之間。

　　NLSML可表示的數(shù)據(jù)信息包括用戶語音輸入，用戶的DTMF輸入，和其相關的語義解釋信息，信任度信息和時間戳的信息。

　　MRCP拓展了NLSML來進一步表示說話人注冊語法（英文全稱是Voiceen rolled grammars，有時也稱之為speaker dependent grammars）相關數(shù)據(jù)。speaker dependent grammars 表示的是由用戶自己語音創(chuàng)建的語法，為了進一步的語音識別操作來服務的語法形式。

　　NLSML也可以配合說話人確認資源來表示各種說話人確認信息和身份等相關的數(shù)據(jù)。

　　2、首先讓我們看看NLSML的數(shù)據(jù)結構。NLSML的數(shù)據(jù)結構通過媒體類型來定義：application/nlsml+xml。其結構如下：

　　< xmlversion="1.0"encoding="UTF-8" ><resultxmlns="http://www.ietf.org/xml/ns/mrcpv2">

　　…

　　</result>

　　這里的數(shù)據(jù)完全取決于是否使用了NLSML返回的語音識別的結果信息，例如語音識別結果，聲音注冊的語法結果和說話人確認和身份結果都等數(shù)據(jù)。我們在下面的章節(jié)中會依次介紹這三種數(shù)據(jù)結果的結構。

　　3、現(xiàn)在我們首先介紹一下語音識別結果的數(shù)據(jù)格式。語音識別的結果是被封裝在NLSML中，并且包含在了RECOGNITION COMPLETE事件的消息體或GET-RESULT 響應的信息體。我們已經在前面的章節(jié)中介紹過事件的消息體內容，讀者可查閱歷史文檔學習。NLSML的結果通過<result>的一個或多個子要素標簽<interpretation>來做標識。以下表中表示了NLSML中的數(shù)據(jù)格式要素和其屬性數(shù)值。

　　剛才，我們已經提到過，每個NLSML文件至少包含一個或多個<interpretation>。如果有多個<interpretation>時，這里的<interpretation>將會以遞減信任度的形式排列。可選數(shù)值confidence表示對其<interpretation>的數(shù)值的信任評價值，其取值范圍從0.0到1.0。在<interpretation>中包含一個<input>和一個<instance>要素。<input>表示用戶輸入的文本形式，<instance>則包含了相應的語義解釋結果。如果沒有成功識別的話，此文件會包含<noinput>或 <nomatch>的要素，表示未成功識別。timestamp-start和timestamp-end用來表示用戶輸入時間段。這里，讀者要注意，其時間戳格式是ISO 8601格式標準。

　　語音識別在一定時間內，其檢測結果可能是成功的也可能是失敗的。

　　我們重點介紹幾個不同的狀態(tài)返回結果。當在一定時間內沒有檢測到用戶輸入時，語音識別引擎會在返回的RECOGNITION-COMPLETE事件中返回002 no-input-timeout 錯誤碼。關于002 錯誤碼我們在以前的章節(jié)中做過介紹，用戶可以查閱歷史文檔。如果NLSML結果在返回的事件的消息體中的話，NLSML將返回一個<noinput>作為<input>的子要素。如果識別引擎檢測到了用戶輸入數(shù)據(jù)，但是識別引擎沒有匹配語法設置或超過信任度的峰值參數(shù)時，在RECOGNITION-COMPLETE的返回的事件中，識別引擎會攜帶001 no-match 錯誤碼。同時，如果返回的事件消息體中包含了NLSML的結果，NLMSL將包含一個<nomatch>子要素作為<input>的子要素。另外，在<nomatch>要素中可能包含某些可選的文本，這些文本是被拒絕匹配中的最佳結果。我們列舉幾個不同的返回結果來說明語音識別是否成功。

　　成功的識別結果，包含兩個<interpretation>值和相應的返回值<instance>。

　　< xml version="1.0" encoding="UTF-8" >

　　<result xmlns="http://www.ietf.org/xml/ns/mrcpv2"

　　grammar="http://www.example.com/demo.grxml">

　　to recognise speech

　　</input>

　　to recognise speech

　　</instance>

　　</interpretation>

　　to wreck a nice beach

　　</input>

　　to wreck a nice beach

　　</instance>

　　</interpretation>

　　</result>

　　無用戶輸入的檢測結果，這里輸出的是<noinput/>子要素，可能沒有用戶輸入或沒有設置時間戳設置。

　　< xml version="1.0" encoding="UTF-8" >

　　</input>

　　</interpretation>

　　</result>

　　無匹配的返回結果，這里可能是信任度峰值的數(shù)值不準確導致不匹配。

　　< xml version="1.0" encoding="UTF-8" >

　　<result xmlns="http://www.ietf.org/xml/ns/mrcpv2"

　　grammar="http://www.example.com/number.grxml">

　　<nomatch>one</nomatch> // 雖然返回拒絕匹配輸出結果，但是提供了最佳匹配可選內容。

　　</input>

　　</interpretation>

　　</result>

　　4、上面的章節(jié)中我們介紹了語音識別的返回結果匹配的結果，這里我們進一步介紹包含語義解釋的語音識別的語法結構。當語法中的tag-format設置為semantics/1.0-literals 時，<tag>要素中的內容則被解釋為ECMAScript 腳本。我們在前面的章節(jié)中已經說明這個定義。當所有匹配的<tag>執(zhí)行以后會從語法規(guī)則中生成語義結果。然后，NLSML會把匹配的語法中的語義解釋結果插入到<instance>中。現(xiàn)在讓我們看一下以下示例：

　　< xmlversion="1.0"encoding="UTF-8" ><grammarversion="1.0"xmlns="http://www.w3.org/2001/06/grammar"

　　mode="voice"xml:

　　lang="en-IE"

　　root="yesno"

　　tag-format="semantics/1.0-literals">

　　<ruleid="yesno">

　　<one-of>

　　<item>yes<tag>affirmative</tag></item>

　　<item>yea<tag>affirmative</tag></item>

　　<item>no<tag>negative</tag></item>

　　<item>nah<tag>negative</tag></item>

　　</one-of></rule>

　　</grammar>

　　現(xiàn)在，如果我們假設用戶發(fā)音是單詞“yea”，那么NLSML可能生成的結果是：

　　< xmlversion="1.0"encoding="UTF-8" ><resultxmlns="http://www.ietf.org/xml/ns/mrcpv2"

　　grammar="http://www.example.com/yesno.grxml"><interpretationconfidence="0.91">

　　<inputmode="speech">yea</input>

　　<instance>affirmative</instance>

　　</interpretation></result>

　　其他的應用程序則可以根據(jù)<instance>的結果來做進一步的業(yè)務處理。

　　5、前面我們介紹了ECMAScript的語法結構和具體使用方式和解釋結果。語義解釋結果會保存到數(shù)據(jù)文件中。當規(guī)則中的變量被認定為一個標量類型（例如string， number，boolean，null或undefined類型）時，那么語義結果同樣會NLSML生成的<instance>中。這里，如果number是小于零，則加一個negative前綴。如果是布爾值，則為true或false。null則為null值。如果是undefined的值，則仍然為undefined值。以下語法同樣會生成同樣的語義結果（根據(jù)前面所生產的語義結果）：

　　< xmlversion="1.0"encoding="UTF-8" ><grammarversion="1.0"xmlns="http://www.w3.org/2001/06/grammar"

　　mode="voice"xml:

　　lang="en-IE"

　　root="yesno"

　　tag-format="semantics/1.0">

　　<ruleid="yesno">

　　<one-of>

　　<item>yes<tag>out="affirmative";</tag>

　　</item><item>yea<tag>out="affirmative";</tag></item><item>no<tag>out="negative";</tag></item>

　　<item>nah<tag>out="negative";</tag></item>

　　</one-of>

　　</rule>

　　</grammar>

　　當語法規(guī)則的變量不是標量變量類型，它返回的是ECMAScript 對象時，則處理的數(shù)據(jù)格式更加復雜。關于如何從ECMAScript 對象轉轉換成XML語法結構的規(guī)定，用戶可以參考Semantic Interpretation for Speech Recognition（SISR）。規(guī)則中定義了不同的轉換規(guī)則，用戶可以做進一步的了解。具體的規(guī)則如下：

　　現(xiàn)在讓我們了解一下語法規(guī)則和轉換后的結果：

　　< xmlversion="1.0"encoding="UTF-8" ><grammarversion="1.0"xmlns="http://www.w3.org/2001/06/grammar"

　　mode="voice"

　　xml:lang="en-GB"

　　root="travel"tag-format="semantics/1.0">

　　<ruleid="travel">

　　<tag>out.travel=newObject（）;</tag>

　　I want a fly from

　　<rulerefuri="#city"/>

　　<tag>out.travel.orig=rules.city;</tag>

　　<rulerefuri="#city"/>

　　<tag>out.travel.dest=rules.city;</tag>

　　</rule><ruleid="city">

　　<one-of>

　　<item>Dublin<tag>out="Dublin";</tag></item><item>London<tag>out="London";</tag></item><item>Paris<tag>out="Paris";</tag>

　　</item>

　　</one-of>

　　</rule>

　　</grammar>

　　在以上的示例中，對于“I want to fly from Dublin to Paris“ 輸入變量來說，其生成的結果規(guī)則變量是：

　　{

　　travel:

　　{

　　orig:Dublin,

　　dest:Paris

　　}

　　如果我們把整個結果通過規(guī)則轉換的規(guī)則來進行語法處理后，NLSML的結果類似于：

　　< xmlversion="1.0"encoding="UTF-8" >

　　<result xmlns="http://www.ietf.org/xml/ns/mrcpv2"

　　grammar="http://www.example.com/travel.grxml">

　　<input mode="speech">I want to fly from Dublin to Paris</input>

　　<orig>Dublin</orig>

　　<dest>Paris</dest>

　　</travel>

　　</instance>

　　</interpretation>

　　</result>

　　語法規(guī)則變量的類型也可能是array類型或其中一個屬性可能是array的數(shù)據(jù)類型。這種情況下，如果規(guī)則變量轉換成語義結果的話，需要遵守一定的規(guī)則。具體的規(guī)則如下：

　　Array對象的帶索引的要素會變成XML的子要素，并且?guī)?lt;item>名稱。

　　每個item中的參數(shù)屬性命名為帶索引支持，此索引對應Array中的要素。

　　XML文件中包含<item>要素屬性length，此值通過ECMAScript Array的對象來定義。

　　以上規(guī)則看起來比較難以理解，我們通過以下示例來加以說明：

　　< xmlversion="1.0"encoding="UTF-8" >

　　<grammar version="1.0"

　　xmlns="http://www.w3.org/2001/06/grammar"

　　mode="voice"

　　xml:lang="en-GB"

　　root="string"

　　tag-format="semantics/1.0">

　　<ruleid="string">

　　<tag>out.digitstring=newArray（）;</tag>

　　<itemrepeat="1-">

　　<rulerefuri="#digits"/>

　　<tag>out.digitstring.push（rules.digits）;</tag>

　　</item>

　　</rule>

　　<ruleid="digits">

　　<one-of>

　　<item>three<tag>out=3;</tag></item>

　　</one-of>

　　</rule>

　　</grammar>

　　如果用戶的輸入語句是”5，4，3，2，1“的話，生成的array 類型的對象變量結果格式為：

　　{

　　digitstring:[ 5, 4, 3, 2, 1] // 這里的長度是5，包含五個數(shù)值。

　　}

　　如果按照上面的三條規(guī)則進行轉換以后，生成的結果類似于：

　　< xmlversion="1.0"encoding="UTF-8" ><resultxmlns="http://www.ietf.org/xml/ns/mrcpv2"

　　grammar="http://www.example.com/yesno.grxml">

　　five four three two one

　　</input>

　　<digitstring length="5"> // 長度取決于array 對象值。

　　<item index="0">5</item> // 這里0對應的是5

　　<itemindex="1">4</item>

　　<itemindex="2">3</item>

　　<itemindex="3">2</item>

　　<itemindex="4">1</item>

　　</digitstring>

　　</instance>

　　</interpretation>

　　</result>

　　6、在前面的章節(jié)中，我們一直討論關于語音識別輸出結果的討論。在本章節(jié)中，我們將重點介紹語音注冊的輸出結果。語音注冊聽起來比較費解，簡單來說，它是一種機制，用戶可以通過增加自己的一些短語創(chuàng)建說話人屬于自己的，獨立的，相對個性化的語法結構。此語法結構看在后續(xù)的正常語音識別中使用。典型的應用案例就是很多人使用的電話薄。說話人可以對語音識別引擎進行訓練，輸入朋友姓名電話號碼等。其他用戶可以說出訓練后的朋友姓名，然后識別出朋友相應的電話號碼等關聯(lián)信息。

　　從概念上來說，注冊語音語法可以看作是簡單的SRGS語法，它由幾個可選設置構成，例如以下示例：

　　< xmlversion="1.0"encoding="UTF-8" ><grammarversion="1.0"

　　xmlns="http://www.w3.org/2001/06/grammar"

　　mode="voice"

　　xml:lang="en-GB"

　　root="address"

　　tag-format="semantics/1.0-literals">

　　<ruleid="address">

　　<one-of>

　　<item>JohnHenry<tag>user03</tag></item>

　　…

　　</one-of>

　　</rule>

　　</grammar>

　　這里，短語（Mary，Anne，JohnHenry）通過自己的注冊session ID和對應的語義解釋添加到了語法中。每個短語通過MRCP 客戶端提供的唯一短語ID來進行跟蹤。在注冊會話中，用戶說幾次短語的名稱，每次捕捉的短語會和以前的短語采樣進行對比。當捕捉到足夠說話采樣以后，短語經過訓練以后生成個人注冊語音語法。這個個人的注冊語音語法可以通過正常的語音識別引擎使用個人語法的URL加以調用。當短語在設定的注冊會話期間成功匹配后，語義解釋結果會以NLSML的結果返回。這里，我們再次強調，這里的部署僅從理論上加以討論，具體的實現(xiàn)方式完全依賴于每個語音識別的平臺本身以及平臺語法和短語等存儲方式，語法結構等相關參數(shù)。當MRCP 客戶端對語音識別引擎發(fā)出 START-PHRASE-ENROLLMENT請求時，注冊會話則開始啟動。當MRCP客戶端對語音識別引擎發(fā)出END-PHRASE-ENROLLMENT 請求時，注冊會話的生命周期結束。如果在RECOGNIZE請求中包含頭域Enroll-Utterance:true會觸發(fā)對語音進行捕捉。在對應的RECOGNITION-COMPLETE事件中會包含NLSML結果，它封裝了注冊的嘗試信息。具體的注冊結果我們在未來的章節(jié)中會做進一步的介紹，現(xiàn)在我們專門針對NLSML中包含的語音注冊結果的格式進行介紹。

　　NLSML包含的語音注冊結果通過<enrollment-result>來加以定義，<enrollment-result>是<result>的子要素。以下列表說明了語音注冊結果的表達方式：

　　讓我們看一下在語音注冊會話生命周期中，RECOGNITION-COMPLETE事件返回的NLSML結果。在下面的示例中，具體語法結果表示通過URL設定了個人語法，目前收到一個連續(xù)的語音，仍然需要獲得兩個或多個語音，并且還有兩個不相容短語（Mary和Madge，它們分別通過clash-phrase-id 表示）。

　　< xmlversion="1.0"encoding="UTF-8" ><resultxmlns="http://www.ietf.org/xml/ns/mrcpv2"

　　grammar="http://example.com/ve/personal-grammar-01">

　　<enrollment-result>

　　<num-good-repetitions>1</num-good-repetitions>

　　<num-repetitions-still-needed>2</num-repetitions-still-needed>

　　<consistency-status>consistent</consistency-status>

　　<item>Marie</item>

　　</transcriptions>

　　<num-clashes>2</num-clashes>

　　<clash-phrase-ids>

　　<item>Madge</item>

　　</clash-phrase-ids>

　　</enrollment-result>

　　</result>

　　7、MRCP通過NLSML封裝了說話人的狀態(tài)驗證信息。這些結果消息包含在VERIFICATION-COMPLETE事件的消息體中，是GET-INTERMEDIATE-RESULT請求的對應響應。關于說話人驗證和定位消息，我們在以前的章節(jié)中做過簡單的介紹，在未來的章節(jié)中會更加深入地進行剖析。這里，我們僅關心NLSML的文件結構，這里的NLSML文件用來描述訓練的聲紋結果，聲紋對比以后的語音變化，說話語音和多個聲紋對比來確認狀態(tài)。NLSML在<verification-result> XML要素來獲得支持。以下列表是一個關于speaker verification/identification 結果的匯總：

　　以下是一個在聲紋訓練中返回的驗證結果。NLSML包含在VERIFICATION-COMPLETE的事件消息體中，或GET-INTERMEDIATE-RESULTS 請求的響應中：

　　< xmlversion="1.0"encoding="UTF-8" ><resultxmlns="http://www.ietf.org/xml/ns/mrcpv2">

　　<verification-result>

　　<verification-score>0.91</verification-score>

　　<device>cellular-phone</device>

　　<utterance-length>751</utterance-length>

　　</incremental>

　　<verification-score>0.93</verification-score>

　　<device>cellular-phone</device>

　　<utterance-length>1522</utterance-length>

　　<need-more-data>true</need-more-data>

　　</cumulative>

　　</voiceprint>

　　</verification-result>

　　</result>

　　在這個示例中已經有一個聲紋的確認ID：joebloggs.voiceprint。<incremental> 表示要針對前一個講話的分析結果來做進一步處理。其他獨立的標簽表示設備類型，說話人性別等信息。<cumulative>中的值是針對說話語音分析，這些語音分析數(shù)據(jù)是通過多個VERIFY或VERIFY-FROM-BUFFER請求獲得的累計的cumulatives cores值。<verification-score> 這里表示的是擬然值，同樣的說話人說過的所有同樣的句子。<utterance-length>表示訓練中所使用的所有語音長度，它以毫秒為單位。<need-more-data>設置為true則表示需要更多數(shù)據(jù)來完成聲紋訓練，MRCP 客戶端可能需要從用戶側獲得更多的數(shù)據(jù)，因此要求發(fā)送更多的VERIFY 或VERIFY-FROM-BUFFER請求獲得支持數(shù)據(jù)。

　　現(xiàn)在，讓我們介紹一個關于驗證結果的示例。在START-SESSION請求中，我們在頭域Voiceprint-Identifier設定了一個單個的聲紋，我們期望獲得的單個聲紋NLSML返回結果，在結果中包含一個<voiceprint>。具體的xml 結果如下：

　　< xmlversion="1.0"encoding="UTF-8" ><resultxmlns="http://www.ietf.org/xml/ns/mrcpv2">

　　<verification-result>

　　<voiceprintid="joebloggs.voiceprint">

　　<verification-score>0.85</verification-score>

　　<device>carbon-button-phone</device>

　　<utterance-length>841</utterance-length>

　　</incremental>

　　<verification-score>0.81</verification-score>

　　<device>carbon-button-phone</device>

　　<utterance-length>1619</utterance-length>

　　<decision>accepted</decision>

　　</cumulative>

　　</voiceprint>

　　</verification-result>

　　</result>

　　通過累計分析，這里的<decision>accepted</decision>表示說話人語音資源已經足夠匹配其中一個說話的聲紋。

　　最后，我們再介紹一個如何確認從多個說話人的聲紋中確認某個說話人。這里，假設“JoeBloggs”是屬于我們前面例子中“MaryBloggs”和“TedBloggs”的成員。在START-SESSION 的請求中設定的Voiceprint-Identifier將會列出所有三個聲紋，然后生成NLSML結果，這個結果包含三個<voiceprint>要素：

　　< xml version="1.0" encoding="UTF-8" >

　　<verification-result>

　　<verification-score>0.85</verification-score>

　　<device>cellular-phone</device>

　　<gender>female</gender>

　　<utterance-length>842</utterance-length>

　　</incremental>

　　<verification-score>0.85</verification-score>

　　<device>cellular-phone</device>

　　<gender>female</gender>

　　<utterance-length>842</utterance-length>

　　<decision>accepted</decision>

　　</cumulative>

　　</voiceprint>

　　<verification-score>0.31</verification-score>

　　</cumulative>

　　</voiceprint>

　　<verification-score>0.29</verification-score>

　　</cumulative>

　　</voiceprint>

　　</verification-result>

　　</result>

　　這里的排序是按照<verification-score> 的值，從最大值到最小值的排序方式。說話人語音和列表中的聲紋進行對比，現(xiàn)在可以確認，說話人是Mary Bloggs，而不是另外的人。

　　8、在本章節(jié)中，我們介紹了MRCP協(xié)議中的數(shù)據(jù)表達格式-自然語言語義標識語言（NLSML）。在具體的章節(jié)中，我們首先介紹了NLSML的背景知識，文件結構。然后介紹了NLSML的語音識別的結果輸出格式和其腳本（ECMAScript）的轉換機制以及語義對象，array等使用方式的內容。我們也介紹了通過用戶注冊的語法實現(xiàn)個人語法的NLSML結果以及如何使用在標準的語音識別引擎中。最后，我們介紹了關于如何驗證說話人以及確認說話人的方式，聲紋訓練。MRCP協(xié)議通過幾個不同的NLSML和聲紋資源輸出結果，和相應的最終<verification-score>值來判斷說話人。

　　在接下來的章節(jié)中，我們會介紹MRCP數(shù)據(jù)呈現(xiàn)的最后一種語法格式-Pronunciation Lexicon Specification （PLS）。

　　參考資料：

　　https://www.w3.org/TR/semantic-interpretation/

　　https://www.nuance.com/content/dam/nuance/en_us/collateral/enterprise/data-sheet/ds-nuance-recognizer11-en-us.pdf