• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當(dāng)前的位置是:  首頁(yè) > 新聞 > 國(guó)內(nèi) >
     首頁(yè) > 新聞 > 國(guó)內(nèi) >

    語(yǔ)音識(shí)別已不是難事 下一個(gè)挑戰(zhàn)是語(yǔ)音合成

    2016-02-17 16:26:15   作者:朱旭冬   來源:品玩網(wǎng)   評(píng)論:0  點(diǎn)擊cti:


      我相信大多數(shù)人對(duì)語(yǔ)音助手已經(jīng)不陌生了。很多人也已經(jīng)和 iOS 中的語(yǔ)音助手 Siri 進(jìn)行過對(duì)話,不論是逗它玩還是真的需要它的幫助。
      對(duì) Siri 來說,要聽懂你說的是什么并不難,但真的要和它進(jìn)行一場(chǎng)對(duì)話的話,你一定會(huì)感到怪怪的。拋開它是否能正確的回答你的問題不說,它回復(fù)你的聲音就會(huì)讓你明顯感覺到自己并不是在和一個(gè)人聊天。
      的確,在語(yǔ)音識(shí)別這件事上,國(guó)內(nèi)外頂尖的公司都已經(jīng)能做到95%左右的準(zhǔn)確識(shí)別率。但在語(yǔ)音生成上,幾乎沒有公司能讓機(jī)器人說的話跟人說出來的話一樣,即便是一些簡(jiǎn)單的詞組,你也一耳就能聽出是機(jī)器合成的還是真人播報(bào)。
      但隨著人們?cè)絹碓蕉嗟氖褂谜Z(yǔ)音交互,如何讓電腦的聲音聽起來更具人性化,已經(jīng)成為了擺在很多軟件公司和程序員面前的大挑戰(zhàn)。
      據(jù)《紐約時(shí)報(bào)》報(bào)道,IBM 曾在世紀(jì)之交花了18個(gè)月的時(shí)間讓機(jī)器人沃森(Watson)可以說話,但盡管沃森已經(jīng)非常聰明,它說話的本領(lǐng)仍然很差。因?yàn)槁犉饋砀静幌袢寺暋?/div>
    \
    Michael Picheny,IBM 實(shí)驗(yàn)室資深經(jīng)理。圖片來自《紐約時(shí)報(bào)》
      現(xiàn)在電腦語(yǔ)音都是用機(jī)器合成的(除了部分天氣預(yù)報(bào)和導(dǎo)航提示是完全人工錄制),合成最終語(yǔ)音的真人語(yǔ)音數(shù)據(jù)庫(kù)通常非常龐大,數(shù)據(jù)庫(kù)里有某個(gè)單詞的真人發(fā)音,以及這個(gè)單詞不同語(yǔ)調(diào)的發(fā)音,甚至這個(gè)單詞的部分發(fā)音。一位配音者通常需要花至少10個(gè)小時(shí)才能完成一個(gè)語(yǔ)音數(shù)據(jù)庫(kù)的錄入。
      盡管語(yǔ)音數(shù)據(jù)庫(kù)已經(jīng)非常龐大,但是在合成語(yǔ)音的時(shí)候,仍然無法做到接近真人發(fā)聲。其中最大的難點(diǎn)是讓合成音帶有人類的感情。卡內(nèi)基梅隆大學(xué)語(yǔ)言技術(shù)研究院的計(jì)算機(jī)科學(xué)家 Alan Black 告訴《紐約時(shí)報(bào)》,他們并沒有辦法告訴語(yǔ)音合成器說,這段話要帶有感情的去朗讀。
      當(dāng)然,設(shè)計(jì)者也經(jīng)常強(qiáng)調(diào)他們并不希望用合成語(yǔ)音來騙人說這是真人語(yǔ)音。但他們?nèi)匀幌M麢C(jī)器和人的語(yǔ)音交互能更加自然,更像人和人之間的交流。
      事實(shí)上,如果機(jī)器發(fā)音和真人發(fā)音過于接近,會(huì)讓人感到很不舒服。日本機(jī)器人科學(xué)家森政弘曾在1970年發(fā)表了一篇題為《恐怖谷》的文章,核心就是說,當(dāng)機(jī)器人和人的相似程度過于接近的時(shí)候,機(jī)器人身上的一點(diǎn)點(diǎn)小瑕疵,都會(huì)讓人感到不安。
    \
      根據(jù)森政弘的假設(shè),隨著人類物體的擬人程度增加,人類對(duì)它的情感反應(yīng)呈現(xiàn)增-減-增的曲線。恐怖谷就是隨著械器人到達(dá)“接近人類”的相似度時(shí),人類好感度突然下降至反感的范圍。“活動(dòng)的類人體”比“靜止的類人體”變動(dòng)的幅度更大。圖片來自維基百科
      根據(jù)森政弘的假設(shè),隨著人類物體的擬人程度增加,人類對(duì)它的情感反應(yīng)呈現(xiàn)增-減-增的曲線。恐怖谷就是隨著械器人到達(dá)“接近人類”的相似度時(shí),人類好感度突然下降至反感的范圍。“活動(dòng)的類人體”比“靜止的類人體”變動(dòng)的幅度更大。圖片來自維基百科
      ToyTalk 是一家為兒童玩具制作人聲的公司,其 CEO Brian Langner 就表示,當(dāng)機(jī)器能做對(duì)一些事情的時(shí)候,人們會(huì)認(rèn)為它能做對(duì)任何事。所以在他的產(chǎn)品里,他會(huì)讓機(jī)器故意犯一點(diǎn)錯(cuò)。畢竟他做的是玩具,犯點(diǎn)錯(cuò)讓人們一笑也沒什么不好的。
      現(xiàn)在的問題是,經(jīng)過了那么多科學(xué)家的努力,在合成語(yǔ)音這件事上,我們還無需擔(dān)心“恐怖谷”的到來。
      為了讓沃森能“好好說話”,IBM 招募了25位配音演員,經(jīng)過大量的實(shí)驗(yàn)和調(diào)整,他們終于合成了一個(gè)聽起來讓人感到比較舒服的聲音——雖然人們還是很明顯能聽出這不是真人在說話。
      如果語(yǔ)音交互要有大發(fā)展的話,合成語(yǔ)音必須要讓人聽起來更舒服。不然的話,這種交互只能說是語(yǔ)音輸入,機(jī)器執(zhí)行,人類和機(jī)器之間并沒有真正的交流。

    專題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 呼图壁县| 延庆县| 班玛县| 浙江省| 乌兰察布市| 广西| 丹东市| 招远市| 漠河县| 大荔县| 双峰县| 梅州市| 呼玛县| 神农架林区| 桐庐县| 班戈县| 略阳县| 蓬安县| 眉山市| 江津市| 韩城市| 山西省| 石门县| 固阳县| 濮阳市| 乐业县| 宾川县| 临泉县| 基隆市| 澄城县| 杭锦旗| 河东区| 永福县| 吴江市| 商洛市| 泗洪县| 淮阳县| 遵化市| 龙门县| 井研县| 英超| http://444 http://444 http://444 http://444 http://444 http://444