• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 新聞 > 國內 >
     首頁(yè) > 新聞 > 國內 >

    語(yǔ)音識別已不是難事 下一個(gè)挑戰是語(yǔ)音合成

    2016-02-17 16:26:15   作者:朱旭冬   來(lái)源:品玩網(wǎng)   評論:0  點(diǎn)擊cti:


      我相信大多數人對語(yǔ)音助手已經(jīng)不陌生了。很多人也已經(jīng)和 iOS 中的語(yǔ)音助手 Siri 進(jìn)行過(guò)對話(huà),不論是逗它玩還是真的需要它的幫助。
      對 Siri 來(lái)說(shuō),要聽(tīng)懂你說(shuō)的是什么并不難,但真的要和它進(jìn)行一場(chǎng)對話(huà)的話(huà),你一定會(huì )感到怪怪的。拋開(kāi)它是否能正確的回答你的問(wèn)題不說(shuō),它回復你的聲音就會(huì )讓你明顯感覺(jué)到自己并不是在和一個(gè)人聊天。
      的確,在語(yǔ)音識別這件事上,國內外頂尖的公司都已經(jīng)能做到95%左右的準確識別率。但在語(yǔ)音生成上,幾乎沒(méi)有公司能讓機器人說(shuō)的話(huà)跟人說(shuō)出來(lái)的話(huà)一樣,即便是一些簡(jiǎn)單的詞組,你也一耳就能聽(tīng)出是機器合成的還是真人播報。
      但隨著(zhù)人們越來(lái)越多的使用語(yǔ)音交互,如何讓電腦的聲音聽(tīng)起來(lái)更具人性化,已經(jīng)成為了擺在很多軟件公司和程序員面前的大挑戰。
      據《紐約時(shí)報》報道,IBM 曾在世紀之交花了18個(gè)月的時(shí)間讓機器人沃森(Watson)可以說(shuō)話(huà),但盡管沃森已經(jīng)非常聰明,它說(shuō)話(huà)的本領(lǐng)仍然很差。因為聽(tīng)起來(lái)根本不像人聲。
    \
    Michael Picheny,IBM 實(shí)驗室資深經(jīng)理。圖片來(lái)自《紐約時(shí)報》
      現在電腦語(yǔ)音都是用機器合成的(除了部分天氣預報和導航提示是完全人工錄制),合成最終語(yǔ)音的真人語(yǔ)音數據庫通常非常龐大,數據庫里有某個(gè)單詞的真人發(fā)音,以及這個(gè)單詞不同語(yǔ)調的發(fā)音,甚至這個(gè)單詞的部分發(fā)音。一位配音者通常需要花至少10個(gè)小時(shí)才能完成一個(gè)語(yǔ)音數據庫的錄入。
      盡管語(yǔ)音數據庫已經(jīng)非常龐大,但是在合成語(yǔ)音的時(shí)候,仍然無(wú)法做到接近真人發(fā)聲。其中最大的難點(diǎn)是讓合成音帶有人類(lèi)的感情。卡內基梅隆大學(xué)語(yǔ)言技術(shù)研究院的計算機科學(xué)家 Alan Black 告訴《紐約時(shí)報》,他們并沒(méi)有辦法告訴語(yǔ)音合成器說(shuō),這段話(huà)要帶有感情的去朗讀。
      當然,設計者也經(jīng)常強調他們并不希望用合成語(yǔ)音來(lái)騙人說(shuō)這是真人語(yǔ)音。但他們仍然希望機器和人的語(yǔ)音交互能更加自然,更像人和人之間的交流。
      事實(shí)上,如果機器發(fā)音和真人發(fā)音過(guò)于接近,會(huì )讓人感到很不舒服。日本機器人科學(xué)家森政弘曾在1970年發(fā)表了一篇題為《恐怖谷》的文章,核心就是說(shuō),當機器人和人的相似程度過(guò)于接近的時(shí)候,機器人身上的一點(diǎn)點(diǎn)小瑕疵,都會(huì )讓人感到不安。
    \
      根據森政弘的假設,隨著(zhù)人類(lèi)物體的擬人程度增加,人類(lèi)對它的情感反應呈現增-減-增的曲線(xiàn)。恐怖谷就是隨著(zhù)械器人到達“接近人類(lèi)”的相似度時(shí),人類(lèi)好感度突然下降至反感的范圍。“活動(dòng)的類(lèi)人體”比“靜止的類(lèi)人體”變動(dòng)的幅度更大。圖片來(lái)自維基百科
      根據森政弘的假設,隨著(zhù)人類(lèi)物體的擬人程度增加,人類(lèi)對它的情感反應呈現增-減-增的曲線(xiàn)。恐怖谷就是隨著(zhù)械器人到達“接近人類(lèi)”的相似度時(shí),人類(lèi)好感度突然下降至反感的范圍。“活動(dòng)的類(lèi)人體”比“靜止的類(lèi)人體”變動(dòng)的幅度更大。圖片來(lái)自維基百科
      ToyTalk 是一家為兒童玩具制作人聲的公司,其 CEO Brian Langner 就表示,當機器能做對一些事情的時(shí)候,人們會(huì )認為它能做對任何事。所以在他的產(chǎn)品里,他會(huì )讓機器故意犯一點(diǎn)錯。畢竟他做的是玩具,犯點(diǎn)錯讓人們一笑也沒(méi)什么不好的。
      現在的問(wèn)題是,經(jīng)過(guò)了那么多科學(xué)家的努力,在合成語(yǔ)音這件事上,我們還無(wú)需擔心“恐怖谷”的到來(lái)。
      為了讓沃森能“好好說(shuō)話(huà)”,IBM 招募了25位配音演員,經(jīng)過(guò)大量的實(shí)驗和調整,他們終于合成了一個(gè)聽(tīng)起來(lái)讓人感到比較舒服的聲音——雖然人們還是很明顯能聽(tīng)出這不是真人在說(shuō)話(huà)。
      如果語(yǔ)音交互要有大發(fā)展的話(huà),合成語(yǔ)音必須要讓人聽(tīng)起來(lái)更舒服。不然的話(huà),這種交互只能說(shuō)是語(yǔ)音輸入,機器執行,人類(lèi)和機器之間并沒(méi)有真正的交流。

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 彩票| 绥中县| 探索| 尼木县| 安龙县| 南阳市| 武功县| 阜城县| 城口县| 泾源县| 仪征市| 舞阳县| 招远市| 昭苏县| 乡宁县| 湖州市| 四川省| 东乌珠穆沁旗| 诏安县| 故城县| 榕江县| 塘沽区| 广南县| 登封市| 张家港市| 岢岚县| 会宁县| 吐鲁番市| 湾仔区| 大宁县| 清涧县| 平顺县| 泗洪县| 桐梓县| 镇远县| 永宁县| 宁南县| 成安县| 彰化市| 南阳市| 邹城市| http://444 http://444 http://444 http://444 http://444 http://444