
不過(guò),互聯(lián)網(wǎng)時(shí)代的語(yǔ)音識別在很多場(chǎng)景中,都在手機等近講設備上完成。所謂的近講設備,是指設備只有1到2個(gè)麥克風(fēng),語(yǔ)音交互距離只能局限在0.5米范圍,且對周?chē)脑胍粢种颇芰^差。
在物聯(lián)網(wǎng)時(shí)代,如果想要在遠場(chǎng)識別的產(chǎn)品中,達到一個(gè)好的語(yǔ)音交互體驗,引入麥克風(fēng)陣列產(chǎn)品勢在必行,麥克風(fēng)陣列利用聲音信號處理算法,對空間中的聲音做信號處理。
例如,在語(yǔ)音喚醒時(shí),定位說(shuō)話(huà)人的方位,進(jìn)而增強說(shuō)話(huà)人方向的語(yǔ)音,抑制說(shuō)話(huà)人方向以外的聲音,同時(shí)抑制非人聲背景音,另外對設備自己播放的聲音也可以通過(guò)回聲消除功能過(guò)濾掉,實(shí)現語(yǔ)音打斷的交互體驗。
麥克風(fēng)陣列通過(guò)2個(gè),4個(gè)或者6個(gè)麥克風(fēng),組成線(xiàn)性布局陣列或者環(huán)形布局陣列,可以實(shí)現3~5米范圍內的有效拾音,配合優(yōu)化的遠場(chǎng)識別模型,語(yǔ)音識別率可以達到95%以上。
捷通華聲和清華大學(xué)合作,在和合作伙伴推出一系列麥克風(fēng)陣列硬件產(chǎn)品后,麥克風(fēng)陣列SDK即將登陸靈云平臺(aicloud.com)。
屆時(shí),智能硬件的開(kāi)發(fā)者在靈云平臺的開(kāi)發(fā)者社區即可完成麥克風(fēng)陣列SDK下載。在捷通華聲技術(shù)支持人員的配合下,完成SDK集成,實(shí)現麥克風(fēng)陣列技術(shù)和智能硬件產(chǎn)品的結合,打造出具備出色語(yǔ)音交互體驗的機器人、家電、音箱、車(chē)載產(chǎn)品。
捷通華聲依托清華大學(xué)在麥克風(fēng)陣列信號處理領(lǐng)域10多年的技術(shù)積累,在產(chǎn)品化的過(guò)程中,不斷和客戶(hù)的產(chǎn)品磨合,使麥克風(fēng)陣列核心技術(shù)在語(yǔ)音喚醒、聲源定向、回聲消除、語(yǔ)音降噪等方面均達到了行業(yè)領(lǐng)先水平。
作為捷通華聲靈云人工智能平臺的第11項核心技術(shù),麥克風(fēng)陣列技術(shù)登錄靈云平臺后,配合已有的云+端語(yǔ)音識別、語(yǔ)義理解、語(yǔ)音合成、聲紋識別等語(yǔ)音技術(shù),可以為客戶(hù)產(chǎn)品提供全鏈條的語(yǔ)音交互產(chǎn)品和服務(wù)。
無(wú)論客戶(hù)的產(chǎn)品是哪一種平臺,哪一種形態(tài),靈云VUI(Voice User Interface)均可以提供對應的方案,提供定制化的語(yǔ)音服務(wù),和客戶(hù)一起推出差異化語(yǔ)音交互的產(chǎn)品。
一些Q&A
Q:如何使用靈云麥克風(fēng)陣列SDK?
A:開(kāi)發(fā)者需要登錄靈云開(kāi)發(fā)者社區,下載對應版本的麥克風(fēng)陣列SDK,對于需要移植SDK的硬件系統平臺,開(kāi)發(fā)者需要聯(lián)系靈云技術(shù)支持工程師,溝通移植對應的SDK版本。
Q:怎么將SDK與麥克風(fēng)硬件結合起來(lái)?
A:用戶(hù)的智能硬件產(chǎn)品,需要支持安卓,windows或者linux系統,同時(shí)可以采集到2路,4路或者6路麥克風(fēng)原始錄音,以及1路或者2路回聲消除參考音頻,需要和靈云技術(shù)支持工程師溝通,保證錄音和靈云麥克風(fēng)陣列SDK適配。
Q:2/4/6麥克風(fēng)陣列分別適合哪些智能硬件?
A:主要看設備的形狀、尺寸和應用場(chǎng)景,例如,空調通常是面向前方180°拾音,用線(xiàn)性陣列,2/4麥克風(fēng)都可以;家庭陪伴機器人在室內四處走動(dòng),需要拾取來(lái)自360°各個(gè)方向的聲音,可以用4/6麥克風(fēng)環(huán)形陣列。當然,麥克風(fēng)越多,拾音和定向效果越好。
Q:麥克風(fēng)陣列SDK是否需要適配靈云遠場(chǎng)識別SDK?
A:原則上沒(méi)有對第三方語(yǔ)音識別做限制,不過(guò)考慮到后續語(yǔ)音識別的優(yōu)化,建議采用靈云遠場(chǎng)語(yǔ)音識別SDK。除了靈云遠場(chǎng)語(yǔ)音識別SDK,做為全方位的人工智能平臺,靈云平臺的聲紋識別SDK也可以配合麥克風(fēng)陣列SDK做優(yōu)化。
靈云麥克風(fēng)陣列高級產(chǎn)品經(jīng)理高江江介紹到,相比市場(chǎng)上的同類(lèi)產(chǎn)品,靈云麥克風(fēng)陣列SDK登錄靈云平臺后,作為全球第一個(gè)開(kāi)放的麥克風(fēng)陣列平臺服務(wù)提供商,充分表明捷通華聲的用戶(hù)理念,即全面擁抱智能語(yǔ)音硬件產(chǎn)品的合作伙伴,致力于和客戶(hù)一起推出差異化的語(yǔ)音交互產(chǎn)品。
靈云平臺的第11項核心技術(shù)——麥克風(fēng)陣列技術(shù),在全面服務(wù)智能硬件產(chǎn)業(yè)的過(guò)程中,必然會(huì )將語(yǔ)音交互產(chǎn)品從傳統的近講時(shí)代推向遠場(chǎng)語(yǔ)音交互時(shí)代。
靈云平臺更多信息:www.aicloud.com
體驗靈云客服機器人:010-82826886-8898