Yobe想解決的,是語(yǔ)音領(lǐng)域目前的一個(gè)困境,語(yǔ)音助手可以識別出用戶(hù)在講什么,準確度也不錯,但假設有人和用戶(hù)同時(shí)說(shuō)話(huà),其識別率就會(huì )大大降低,這被稱(chēng)為“雞尾酒會(huì )問(wèn)題”。就像在一場(chǎng)宴會(huì )上,背景過(guò)于嘈雜,語(yǔ)音識別就難以正常工作。
為此,Yobe建立了一個(gè)聲音驅動(dòng)系統,可以在嘈雜環(huán)境中,利用AI識別用戶(hù)的生物特征,進(jìn)而判斷并分離特定的聲音,自動(dòng)提高這一特定聲音的音量,幫助語(yǔ)音識別引擎更好地工作。

2017年6月,Yobe公布了一段非常簡(jiǎn)短的技術(shù)介紹視頻
在應用上,Yobe計劃將技術(shù)授權給芯片或智能硬件制造商,第一步的推廣會(huì )從聲控設備開(kāi)始。CEO Ken Sutton認為,特定聲音識別技術(shù)的應用場(chǎng)景很廣,可以用于會(huì )議轉錄,幫助司法或鑒定,制造更好的助聽(tīng)器,以及完善聲紋識別技術(shù)。
Sutton表示,目前技術(shù)研發(fā)已經(jīng)完成,下一步將簡(jiǎn)化產(chǎn)品并投入市場(chǎng)。新產(chǎn)品會(huì )在一個(gè)月內上線(xiàn),將開(kāi)發(fā)布會(huì )進(jìn)行現場(chǎng)演示。
與Yobe想解決的問(wèn)題類(lèi)似,今年4月,Google曾在博客上發(fā)文稱(chēng),正試圖復制“人類(lèi)大腦專(zhuān)注于某個(gè)聲源,同時(shí)可過(guò)濾掉其他聲音”的能力。Google的技術(shù)主要集中在視頻處理上,讓用戶(hù)在一段視頻中選擇一個(gè)人臉,利用視覺(jué)組件觀(guān)察這個(gè)人的嘴,從而創(chuàng )建出其個(gè)人語(yǔ)音軌跡。當然,谷歌的技術(shù)難度在于分離數段聲音,而Yobe主要完成的,更類(lèi)似于A(yíng)I降噪。
錘子的堅果3就聲稱(chēng)利用了“AI通話(huà)智能降噪技術(shù)”,其供應商大象聲科是基于計算機聽(tīng)覺(jué)場(chǎng)景分析,通過(guò)深度學(xué)習技術(shù),來(lái)實(shí)現和噪音環(huán)境下語(yǔ)音增強。大象聲科表示,這項技術(shù)是世界第一款芯片級單音軌實(shí)時(shí)語(yǔ)音提取方案,已經(jīng)開(kāi)始在手機通訊行業(yè)實(shí)現商用。
作為一項利用了AI的產(chǎn)品,計算資源占用和性能之間的平衡或許是Yobe最需要做好的。而以單一輔助技術(shù)作為出發(fā)點(diǎn),在開(kāi)拓市場(chǎng)之后,Yobe是給自己尋找一個(gè)好買(mǎi)家,還是以此為切入點(diǎn)進(jìn)入更廣的語(yǔ)音領(lǐng)域,也是我們接下來(lái)會(huì )關(guān)注的。