• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>

    語(yǔ)音識別痛點(diǎn)在哪 從交互到精準識別如何做?

    2016-08-25 14:41:40   作者:程弢   來(lái)源:雷鋒網(wǎng)   評論:0  點(diǎn)擊:


      語(yǔ)音識別是目前應用最成熟的人機交互方式,從最初大家體驗過(guò)的有屏手持設備這種近場(chǎng)的語(yǔ)音識別,如Siri以及各種語(yǔ)音助手,到現在,語(yǔ)音識別的應用已經(jīng)完成了向智能硬件以及機器人上延伸,不過(guò),新的人機交互對硬件、算法要求更加苛刻,各企業(yè)正面臨著(zhù)巨大的挑戰。
      那么實(shí)現人機交互需要解決哪些問(wèn)題?這其中的關(guān)鍵技術(shù)有哪些?人機交互的未來(lái)趨勢如何?本期硬創(chuàng )公開(kāi)課邀請了科大訊飛的研發(fā)主管趙艷軍為大家答疑解惑。
    語(yǔ)音識別痛點(diǎn)在哪 從交互到精準識別如何做?
      分享嘉賓:趙艷軍,AIUI項目負責人,科大訊飛云平臺研發(fā)主管,負責訊飛開(kāi)放平語(yǔ)音識別、語(yǔ)音合成、聲紋、喚醒等多項產(chǎn)品研發(fā),同時(shí)負責人機交互解決方案AIUI的開(kāi)發(fā),致力于把核心技術(shù)更好的產(chǎn)品化,使人與機器的交流像人與人之間一樣簡(jiǎn)單,自然。
      人機交互的痛點(diǎn)
      語(yǔ)音作為目前人機交互的主要方式,大家如果使用過(guò),應該都能舉出一些例子。比如說(shuō)話(huà)要靠近,發(fā)音要標準,環(huán)境要安靜,不能持續對話(huà),不能打斷等。
    語(yǔ)音識別痛點(diǎn)在哪 從交互到精準識別如何做?
      不只是語(yǔ)音,包括圖像、障礙物檢測等技術(shù),都會(huì )遇到這樣的問(wèn)題,比如人臉的識別,對光線(xiàn)、角度、距離都有一定的要求。歸結為一點(diǎn)就是,當前人機交互在復雜環(huán)境的自適應性方面,還有很多問(wèn)題需要解決。這還只是感知層面,另外還包括認知層面,AI目前還不如我們想象的這么聰明,目前不能完全自主學(xué)習,仍然需要人的介入,比如知識庫的導入,機器行為的糾正等,都需要人的參與。
      當前的人機交互產(chǎn)品,在真正面對用戶(hù)時(shí),在面對復雜環(huán)境時(shí),魯棒性還不夠好。今天的分享,我們一起探討如何解決這些問(wèn)題,不管是通過(guò)算法,還是工程,抑或產(chǎn)品,都是我們可以選擇的途徑。
      大家首先要有個(gè)共識,人機交互目前所面臨的問(wèn)題,不是一朝一夕,一蹴而就能解決的,需要在各個(gè)方向在核心技術(shù)上不斷進(jìn)步。
      科大訊飛AIUI是怎么做的?
    語(yǔ)音識別痛點(diǎn)在哪 從交互到精準識別如何做?
      AIUI作為人機智能交互界面,旨在實(shí)現人機之間交互無(wú)障礙,使人與機器之間的交流,像人與人一樣,可以通過(guò)語(yǔ)音、圖像、手勢等自然交互的方式,進(jìn)行持續,雙向,自然地溝通。它由一套由云和客戶(hù)端相結合服務(wù)框架構成,包括音視頻前端信號處理、云+端相配合交互引擎、內容和知識平臺以及接口、用戶(hù)個(gè)性化系統等。平臺具備開(kāi)放性,第三方可進(jìn)行靈活配置、業(yè)務(wù)擴展、內容對接等。
      以前的語(yǔ)音交互產(chǎn)品,包括訊飛在內,大家提供的都是單點(diǎn)的能力,比如語(yǔ)音合成、語(yǔ)音喚醒、語(yǔ)音識別、語(yǔ)義理解,另外還有人臉識別、聲紋識別等。大家拿到這么多產(chǎn)品和能力,需要花很大的工作量,去開(kāi)發(fā)人機交互功能。
      這種方式問(wèn)題比較明顯:
      一方面是產(chǎn)品集成的工作量太大,造成很多中小開(kāi)發(fā)者無(wú)力去承擔這部分工作量;
      另外就是因為交互流程太長(cháng),細節不好處理,造成各家產(chǎn)品的交互體驗參差不齊。
      所以AIUI交互方案首先要解決的就是這個(gè)問(wèn)題。AIUI是把麥克風(fēng)陣列、前端聲學(xué)處理、語(yǔ)音喚醒、端點(diǎn)檢測、語(yǔ)音識別、語(yǔ)義理解、語(yǔ)音合成等技術(shù)在整個(gè)交互鏈上進(jìn)行深度融合的系統。
      而且AIUI還支持了全雙工、多輪交互等新特性,并在單點(diǎn)技術(shù)上進(jìn)行突破和演進(jìn),包括聲源定位與追蹤、持續在線(xiàn),有效人聲智能檢測、基于用戶(hù)意圖的動(dòng)態(tài)語(yǔ)音端點(diǎn)檢測、支持上下文交互的語(yǔ)義理解、基于對話(huà)場(chǎng)景自適應的語(yǔ)音識別等。
      科普:語(yǔ)音交互的過(guò)程
    語(yǔ)音識別痛點(diǎn)在哪 從交互到精準識別如何做?
      首先,人機之間的語(yǔ)音交互(這里主要指智能硬件、機器人等),區別于傳統的有屏手持設備,在傳統的語(yǔ)音交互中,因為是近場(chǎng),語(yǔ)音信號質(zhì)量相對較高,而且有觸摸屏輔助,所以交互鏈路可以相對簡(jiǎn)單。通過(guò)點(diǎn)擊屏幕觸發(fā),再通過(guò)點(diǎn)擊屏幕或者能量VAD檢測,來(lái)結束語(yǔ)音信號采集,即可完成一次交互,整個(gè)過(guò)程通過(guò)語(yǔ)音識別、語(yǔ)義理解、語(yǔ)音合成即可完成。
      而對于人機之間的交互,由于涉及到遠場(chǎng),環(huán)境比較復雜,而且無(wú)屏交互,如果要像人與人之間的交流一樣自然、持續、雙向、可打斷,整個(gè)交互過(guò)程需要解決的問(wèn)題更多,AIUI為完成類(lèi)人的語(yǔ)音交互,是一個(gè)需要軟硬件一體、云+端相互配合的過(guò)程。
    語(yǔ)音識別痛點(diǎn)在哪 從交互到精準識別如何做?
      我們來(lái)看下交互的整個(gè)流程,從大的方面來(lái)說(shuō),還是以語(yǔ)音識別、語(yǔ)義理解、語(yǔ)音合成為主線(xiàn),只不過(guò)每個(gè)過(guò)程需要解決更多的問(wèn)題。
      首先來(lái)看下語(yǔ)音喚醒,喚醒是人機交互的主要觸發(fā)方式,就像你要和一個(gè)人說(shuō)話(huà),就得首先喊一下這個(gè)人的名字,才能開(kāi)始進(jìn)行交流。而在交流的過(guò)程中,如果有其他人喊你呢,你也是需要響應的,需要支持持續喚醒。
      機器被喚醒后,就需要知道說(shuō)話(huà)人的方位,這樣機器才可以做出更友好的響應,比如轉身,移動(dòng)等。只有明確說(shuō)話(huà)人的方位后,才可以定向的拾音,做降噪處理,同時(shí)對說(shuō)話(huà)人進(jìn)行語(yǔ)音增強。這個(gè)聲源定位和語(yǔ)音增強主要是用麥克風(fēng)陣列的相關(guān)技術(shù),下面會(huì )有詳細解釋。
      在語(yǔ)音識別這個(gè)重要模塊中,首先要解決的就是遠場(chǎng)識別,通過(guò)上面提到的麥克風(fēng)陣列和聲源定位,可以較好的實(shí)現遠距離拾音,解決噪聲、混響、回聲帶來(lái)的影響。作為全雙工交互,持續的音頻流拾取,就要解決人聲檢測和斷句問(wèn)題,機器需要能夠過(guò)濾無(wú)效語(yǔ)音,做出快速的反饋和響應。
      人聲和端點(diǎn)的檢測不能只依賴(lài)于能量檢測的技術(shù)方案,需要解決更為復雜的環(huán)境,具體怎么解決呢,下面再展開(kāi)。
      對于識別來(lái)說(shuō),首先要保障的是遠場(chǎng)環(huán)境下的識別率,除了前面提到的麥克風(fēng)陣列解決了前端聲學(xué)的問(wèn)題,還要有專(zhuān)門(mén)針對遠場(chǎng)環(huán)境下,基于大量數據訓練的聲學(xué)模型,這樣才能保證識別率滿(mǎn)足交互需求。
      除了云端的語(yǔ)音識別,端上的識別也是需要做的,需要云+端方式進(jìn)行結合,這樣才能滿(mǎn)足復雜網(wǎng)絡(luò )下的使用場(chǎng)景。不過(guò)端上主要是去做一些命令式交互,響應一些本地操作。比如關(guān)機、打電話(huà)、動(dòng)作指令等。
      本地不做成無(wú)限制的響應呢,因為對于很多的用戶(hù)意圖來(lái)說(shuō),是需要基于網(wǎng)絡(luò )去獲取內容的,所以本地只做輔助使用,是為了解決一些復雜網(wǎng)絡(luò )環(huán)境所做的手段。這個(gè)地方的難點(diǎn)是需要做好云和端的PK策略,需要基于置信度、響應時(shí)間等信息來(lái)綜合決策。作為持續的語(yǔ)音交互,不可避免要吸收很多無(wú)效的語(yǔ)音,拒識成為必須,否則會(huì )造成對話(huà)的混亂和無(wú)意義的響應。
      對于支持多輪的交互理解,語(yǔ)義引擎不再是無(wú)狀態(tài)的,系統更加復雜,需要有對話(huà)管理、歷史信息存儲等模塊。語(yǔ)義理解不只包含用戶(hù)說(shuō)話(huà)意圖,還要包括內容的獲取,這樣才能在接下來(lái)的端點(diǎn)檢測、語(yǔ)音識別等交互過(guò)程中,共享信息,做到場(chǎng)景自適應,以提高準確率。
      完成語(yǔ)音識別和語(yǔ)義的理解后,機器需要通過(guò)語(yǔ)音合成,把信息傳遞給用戶(hù)。合成這一塊沒(méi)有太多需要展開(kāi)的,訊飛提供了幾十種不同的發(fā)音人,而且支持不同情感進(jìn)行朗讀,至于該以何種情境、情感進(jìn)行播報,這是在語(yǔ)義理解中需要給出的信息。相比傳統的交互,現在的流程會(huì )看起來(lái)復雜很多。
      功能:遠場(chǎng)識別、全雙工、多輪交互
      遠場(chǎng)識別
    語(yǔ)音識別痛點(diǎn)在哪 從交互到精準識別如何做?
      遠場(chǎng)識別,需要前后端結合去完成,一方面在前端使用麥克風(fēng)陣列硬件,通過(guò)聲源定位及自適應波束形成做語(yǔ)音增強。在前端完成遠場(chǎng)拾音,并解決噪聲、混響、回聲等帶來(lái)的影響。
      不過(guò)這還不夠,因近場(chǎng)、遠場(chǎng)的語(yǔ)音信號,在聲學(xué)上有一定的規律差異,所以在后端的語(yǔ)音識別上,還需要結合基于大數據訓練、針對遠場(chǎng)環(huán)境的聲學(xué)模型,這樣才能較好解決識別率的問(wèn)題。
      全雙工
    語(yǔ)音識別痛點(diǎn)在哪 從交互到精準識別如何做?
      全雙工交互,是一個(gè)全鏈路的貫穿過(guò)程,不只是持續的拾音和網(wǎng)絡(luò )傳輸,更需要包括持續的語(yǔ)音喚醒、智能有效人聲檢測、動(dòng)態(tài)語(yǔ)音端點(diǎn)檢測、無(wú)效語(yǔ)音拒識等各個(gè)模塊相互配合,才能完成。
      支持連續的語(yǔ)音喚醒是必須。在傳統的語(yǔ)音喚醒方案中,是一次喚醒后,進(jìn)行語(yǔ)音識別和交互,交互完成再進(jìn)入待喚醒狀態(tài)。但是在實(shí)際人與人的交流中,人是可以與多人對話(huà)的,而且支持被其他人插入和打斷。AIUI中語(yǔ)音喚醒采用BN(Bottle Neck)技術(shù)方案,支持低功耗的待機。
      全雙工交互作為一個(gè)持續的交互過(guò)程,語(yǔ)音識別和語(yǔ)義理解,需要能夠做出快速的響應。這就需要人聲檢測和智能斷句。傳統的斷句是基于能量的檢測來(lái)判定,但是有兩個(gè)主要缺點(diǎn),一是無(wú)法過(guò)濾噪音和無(wú)效的語(yǔ)音,另外就是對說(shuō)話(huà)人的要求較高,中間不能有停頓。如果后端點(diǎn)設置的太短,容易造成截斷;后端點(diǎn)太長(cháng),又會(huì )造成響應不及時(shí)。
      AIUI的做法是,采用基于模型的有效人聲智能檢測和基于用戶(hù)意圖的動(dòng)態(tài)語(yǔ)音端點(diǎn)檢測。基于模型的檢測可以有效解決噪音和無(wú)效語(yǔ)音。這塊主要是通過(guò)采集不同環(huán)境的噪音,基于深度神經(jīng)網(wǎng)絡(luò )的訓練出對應聲學(xué)模型,進(jìn)行過(guò)濾,把有效的語(yǔ)音傳送到云端進(jìn)行交互。
      動(dòng)態(tài)端點(diǎn)檢測算法實(shí)現從連續輸入的數據流中檢測出包含完整用戶(hù)意圖的語(yǔ)音送入語(yǔ)義理解模塊,可以很好的解決用戶(hù)的停頓,因為在人機的交流過(guò)程中,在一句包含完整意圖語(yǔ)音中,停頓是很常見(jiàn)的現象,這在我們對用戶(hù)的行為分析中得到驗證。
      另外在持續的語(yǔ)音交互過(guò)程中,必然會(huì )有無(wú)效的語(yǔ)音和無(wú)關(guān)說(shuō)話(huà)內容被吸收進(jìn)來(lái),所以拒識是必須。在A(yíng)IUI系統中,我們針對全雙工交互中的這個(gè)問(wèn)題,專(zhuān)門(mén)構建了一套基于深度神經(jīng)網(wǎng)絡(luò )的拒識系統,從聲學(xué)信號、語(yǔ)義等多個(gè)方面對接收的語(yǔ)音進(jìn)行拒識判斷。
      多輪交互
    語(yǔ)音識別痛點(diǎn)在哪 從交互到精準識別如何做?
      同樣的,對于多輪交互中的語(yǔ)義理解和對話(huà)管理兩個(gè)模塊,我們也采用深度學(xué)習+海量數據的方式,使用用戶(hù)的實(shí)際數據,訓練魯棒的語(yǔ)義理解和對話(huà)管理模型。
      結合基于LSTM(長(cháng)短時(shí)記憶)的循環(huán)神經(jīng)網(wǎng)絡(luò ),使得模型具有長(cháng)時(shí)記憶的能力,結合對話(huà)上下文進(jìn)行準確的語(yǔ)義理解,相信配合科大訊飛深度神經(jīng)網(wǎng)絡(luò )+大數據+“漣漪效應”的研究思路,我們的多輪交互會(huì )越來(lái)越準確、好用。
      關(guān)鍵技術(shù):麥克風(fēng)陣列
    語(yǔ)音識別痛點(diǎn)在哪 從交互到精準識別如何做?
      大家通過(guò)上圖可以看到,現實(shí)環(huán)境中噪音、混響、人聲干擾、回聲等因素,帶來(lái)的影響因素還是比較大的,我們一般是通過(guò)麥克風(fēng)陣列來(lái)解決。
    語(yǔ)音識別痛點(diǎn)在哪 從交互到精準識別如何做?
      麥克風(fēng)陣列是利用一定數目,一定空間構型的聲學(xué)傳感器(一般是麥克風(fēng))組成,用來(lái)對聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統。麥克風(fēng)陣列能做很多事情,對于環(huán)境噪聲,它可以采用自適應波束形成做語(yǔ)音增強,從含噪語(yǔ)音信號中提取純凈語(yǔ)音;對于說(shuō)話(huà)人說(shuō)話(huà)位置的不確性,它可以通過(guò)聲源定位技術(shù)來(lái)計算目標說(shuō)話(huà)人的角度,來(lái)跟蹤說(shuō)話(huà)人以及后續的語(yǔ)音定向拾取;對于室內聲音反射,導致語(yǔ)音音素交疊,識別率較低的問(wèn)題,它可以通過(guò)去混響技術(shù),減小混響,提高識別率。
      線(xiàn)性、環(huán)形、球形麥克風(fēng)在原理上并無(wú)太大區別,只是由于空間構型不同,導致它們可分辨的空間范圍也不同。比如,在聲源定位上,線(xiàn)性陣列只有一維信息,只能分辨180度;環(huán)形陣列是平面陣列,有兩維信息,能分辨360度;球性陣列是立體三維空間陣列,有三維信息,能區分360度方位角和180度俯仰角。
      其次麥克風(fēng)的個(gè)數越多,對說(shuō)話(huà)人的定位精度越高,但是定位精度的差別體現在交互距離的遠近上,如果交互距離不是很遠,5麥和8麥的定位效果差異不是很大。此外,麥克風(fēng)個(gè)數越多,波束能區分的空間越精細,在嘈雜環(huán)境下的拾音質(zhì)量越高,但是在一般室內的安靜環(huán)境下,5麥和8麥的識別率相差不是很大。麥克風(fēng)個(gè)數越多,成本也越高,具體的產(chǎn)品,要綜合考慮應用場(chǎng)景和實(shí)際的產(chǎn)品定位,選擇合適的麥克風(fēng)個(gè)數和陣型。
      方案:破解環(huán)境對語(yǔ)音識別的影響
    語(yǔ)音識別痛點(diǎn)在哪 從交互到精準識別如何做?
      復雜的環(huán)境,一方面是外在環(huán)境的復雜,另一方面是方言和口音。外在環(huán)境復雜包括噪聲、混響、回聲等,而且噪音又分為不同的會(huì )議室、戶(hù)外、商場(chǎng)等不同環(huán)境,為了解決這些問(wèn)題,除了單通道語(yǔ)音增強技術(shù),現在基本是采用上面提到的麥克風(fēng)陣列硬件和相關(guān)算法實(shí)現。
      在方言、口音方面,大家都知道,在我們國家,幾十種方言,每個(gè)人都有自己的獨特口音,一般的解決方法的是基于各種方言數據,通過(guò)深度神經(jīng)網(wǎng)絡(luò ),訓練各種方言模型,以提高識別率,這是業(yè)內的通用做法。
      為解決兩方面的問(wèn)題,訊飛正通過(guò)以下的技術(shù)方案,去適應各種復雜環(huán)境的要求。包括以下方面:
      1)提供條形、環(huán)形、球形的四麥、五麥、八麥等多種不同的麥克風(fēng)陣列構型,以適應不同的產(chǎn)品需求,比如叮咚音箱采用的就是環(huán)形8麥的方案。
      麥克風(fēng)陣列技術(shù)雖然已經(jīng)可以達到相當的技術(shù)水平,但是總體上還是存在一些問(wèn)題的,比如當麥克風(fēng)和信號源距離太遠時(shí)(比如10m、20m距離),錄制信號的信噪比會(huì )很低,算法處理難度很大;對于便攜設備來(lái)說(shuō),受設備尺寸以及功耗的限制,麥克風(fēng)的個(gè)數不能太多,陣列尺寸也不能太大。而分布式麥克風(fēng)陣列技術(shù)則是解決當前問(wèn)題的一個(gè)可能途徑。
      所謂分布式陣列就是將子陣元或子陣列布局到更大的范圍內,相互之間通過(guò)有線(xiàn)或者無(wú)線(xiàn)的方式進(jìn)行數據的交換和共享,并在此基礎上進(jìn)行廣義上的聲源定位、波束形成等技術(shù)實(shí)現信號處理。
      相對于目前集中式的麥克風(fēng)陣列,分布式陣列的優(yōu)勢也是非常明顯的。首先分布式麥克風(fēng)陣列(尤其無(wú)線(xiàn)傳輸)的尺寸的限制就不存在了;另外,陣列的節點(diǎn)可以覆蓋很大的面積。總會(huì )有一個(gè)陣列的節點(diǎn)距離聲源很近,錄音信噪比大幅度提升,算法處理難度也會(huì )降低,總體的信號處理的效果也會(huì )有非常顯著(zhù)的提升,目前科大訊飛已經(jīng)開(kāi)始了相關(guān)技術(shù)研究的布局工作。
      2)不同環(huán)境的語(yǔ)音識別聲學(xué)模型,如上面提到的遠場(chǎng)拾音,專(zhuān)門(mén)針對遠距離拾音的環(huán)境進(jìn)行訓練;
      3)在方言方面,訊飛支持普通話(huà)、粵語(yǔ)等20多種方言,是目前涵蓋方言范圍最廣的。積累了一定量的多方言資源庫,并基于特殊的深度神經(jīng)網(wǎng)路結構和上線(xiàn)數據的半監督訓練,實(shí)現了多方言數據信息的共享和方言的自動(dòng)迭代更新。
      另外方言最大的難點(diǎn),在于方言的自適應,如何能夠根據用戶(hù)的語(yǔ)音,自動(dòng)匹配模型,訊飛已經(jīng)驗證完成。
      4)在口音的適配方面,訊飛已經(jīng)有一套完整的基于用戶(hù)的訓練系統,可以針對每個(gè)用戶(hù),建立閉環(huán)的優(yōu)化流程,為每個(gè)用戶(hù)建立自己的個(gè)性化聲學(xué)模型,目前正在訊飛輸入法試點(diǎn),對于一些注冊用戶(hù)進(jìn)行灰度體現;
      5)基于特定人群的模型訓練,目前已經(jīng)為面向兒童的玩具方案,專(zhuān)門(mén)訓練針對兒童的聲學(xué)匹配模型;
      6)為每個(gè)應用、每個(gè)用戶(hù),提供個(gè)性化的語(yǔ)言模型;
      AIUI的服務(wù)
    語(yǔ)音識別痛點(diǎn)在哪 從交互到精準識別如何做?
      AIUI對外完全開(kāi)放,不管是個(gè)人開(kāi)發(fā)者還是公司,在我們的平臺上都可使用。因AIUI需要與硬件相結合,所以現在是以評估板的形式開(kāi)放。如果評估效果滿(mǎn)足產(chǎn)品需求,我們提供模塊或者軟核的方式支持產(chǎn)品量產(chǎn)。
      開(kāi)放平臺除了提供整體的方案和幾十個(gè)業(yè)務(wù)場(chǎng)景,還提供產(chǎn)品的個(gè)性化定制能力,主要包括喚醒詞定制、發(fā)音人定制、交互語(yǔ)義理解定制、語(yǔ)音識別資源定制、流程參數配置等,這些都是在Web平臺上開(kāi)放的功能,開(kāi)發(fā)者可以根據產(chǎn)品需求,在平臺上進(jìn)行個(gè)性化的配置和編輯。
      如語(yǔ)義開(kāi)放平臺,提供私有語(yǔ)義編寫(xiě)、自定義問(wèn)答導入,這一塊相信是大家最為關(guān)心的,每個(gè)機器人如何回答用戶(hù)的提問(wèn),主要就通過(guò)這方面來(lái)體現。
      還有很重要一點(diǎn),AIUI允許第三方系統接入,AIUI作為可擴展的伸縮服務(wù),經(jīng)過(guò)語(yǔ)音云處理的識別和語(yǔ)義結果,只要在平臺上配置,第三方業(yè)務(wù)系統即可通過(guò)Http服務(wù)接入,以滿(mǎn)足更為復雜的個(gè)性化需求。
      當然訊飛開(kāi)放平臺還提供深度的定制服務(wù),包括喚醒詞訓練、發(fā)音人訓練、語(yǔ)義及內容制作等。通過(guò)平臺開(kāi)放和深度定制兩種方式,可以滿(mǎn)足各個(gè)產(chǎn)品之間的差異化。
      未來(lái):人機交互會(huì )融合?
      融合必然是未來(lái)人機交互的趨勢。
      以AIUI為例,在定義之初,就沒(méi)有把語(yǔ)音作為唯一的交互方式,而是把它設想為結合了人臉、人體追蹤、手勢、紅外等多種方式為一體的人機交互解決方案。
      我們也在不斷的嘗試把語(yǔ)音和其他方式相結合,比如我們現在已經(jīng)上線(xiàn)的人臉、聲紋融合身份驗證,即是最直接的例子,通過(guò)這種方式將能夠有效解決用戶(hù)的身份認證問(wèn)題。
      在A(yíng)IUI中,也有很多的場(chǎng)景需要借助于不同方式來(lái)相互配合。舉個(gè)例子,在A(yíng)IUI中,為解決遠場(chǎng)的持續交互,使用了麥克風(fēng)陣列,采用定向拾音的方式來(lái)解決這個(gè)問(wèn)題,但是由于定向拾音的角度有限,造成持續交互過(guò)程中,說(shuō)話(huà)人的移動(dòng)成為問(wèn)題,這個(gè)時(shí)候,就需要有移動(dòng)的聲源定位和追蹤,簡(jiǎn)單依靠聲音的辨識和追蹤,很難有效解決這個(gè)問(wèn)題,這個(gè)時(shí)候如果能結合人體的追蹤,比如圖像和紅外手段,將可以進(jìn)一步降低出錯概率。其他的場(chǎng)景還有人的年齡、性別等屬性識別,如果采用圖像、聲音相結合方式,將可以極高提升精準度,提升機器的感知能力,AI也將更加智能。
    分享到: 收藏

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 莎车县| 武乡县| 宿州市| 红安县| 长乐市| 洛阳市| 左贡县| 崇文区| 葫芦岛市| 杨浦区| 长宁区| 浙江省| 平定县| 广饶县| 洪洞县| 泸水县| 康马县| 龙口市| 新疆| 河曲县| 志丹县| 秭归县| 吕梁市| 永春县| 浪卡子县| 乐陵市| 阿拉尔市| 洛宁县| 万盛区| 长宁县| 和平区| 同江市| 曲阜市| 萨迦县| 攀枝花市| 温宿县| 赤峰市| 辛集市| 汉中市| 湘潭县| 万荣县| http://444 http://444 http://444 http://444 http://444 http://444