CEO何國濤談規劃愛(ài)用“我的理想”。他把公司汽車(chē)語(yǔ)音產(chǎn)品分為三級進(jìn)階:第一步實(shí)現車(chē)內自然語(yǔ)音識別和理解;第二步成為更接近自然對話(huà)的語(yǔ)音助手,可以多輪對話(huà)和隨機打斷;第三步做多模態(tài)人機交互。
2009年誕生于硅谷,2010年落定中國,車(chē)云菌坐在普強位于中關(guān)村云基地的辦公室時(shí),現實(shí)正走在第二階段。
“本地+云端”、“軟件+硬件”
今年5月CES Asia展示的是眾泰SR7前裝車(chē)載導航產(chǎn)品,由普強、四維圖新、眾泰合作開(kāi)發(fā)。
在硬件上,普強提供了陣列麥克風(fēng)可動(dòng)態(tài)定位追蹤聲音位置,優(yōu)化藍牙通訊和語(yǔ)音識別效果。車(chē)載降噪DSP芯片可降低風(fēng)噪胎噪和發(fā)動(dòng)機引擎等車(chē)內噪音并進(jìn)行去回聲處理。
現場(chǎng)產(chǎn)品功能支持喚醒和自然語(yǔ)音交互,在展會(huì )現場(chǎng)的嘈雜環(huán)境依然準確識別出各種指令,操控被定制到操作系統層級。連接藍牙后,可以與手機共享音樂(lè )列表、通訊錄等信息,并且可以通過(guò)語(yǔ)音進(jìn)行操控。
從產(chǎn)品表現來(lái)看,屬于一階段自然語(yǔ)音識別和理解。詢(xún)問(wèn)車(chē)端表現時(shí),車(chē)云菌從CTO李全忠得到了一組數據。在城市環(huán)路40-80公里/小時(shí)車(chē)速下,識別率可以達到95%以上。90-120公里/小時(shí)行駛時(shí),識別率平均在90%左右。在此基礎上,空調車(chē)窗開(kāi)啟和麥克風(fēng)位置,也會(huì )不同程度地影響識別率。
正在進(jìn)行的二階段語(yǔ)音助手項目,李全忠認為技術(shù)已經(jīng)實(shí)現。目前普強自有的語(yǔ)音識別模型在大多數統計學(xué)方法之外,部分采用了神經(jīng)網(wǎng)絡(luò )算法,在一些意圖理解、語(yǔ)義匹配等方面,會(huì )用到部分深度學(xué)習技術(shù)。用上神經(jīng)網(wǎng)絡(luò )算法后,識別率上的躍升會(huì )達到10個(gè)百分點(diǎn),“如果后續優(yōu)化變種,可能會(huì )帶來(lái)相對20%的提升空間”。
李全忠認為,普強從一到二的突破難點(diǎn),反而是車(chē)端硬件CPU和內存受限。普強計劃年底隨車(chē)亮相的可多輪對話(huà)和隨機打斷語(yǔ)音助手,會(huì )使用一個(gè)“本地+云端”的混合方案,通過(guò)云端強大的服務(wù)器運算能力,完成更多自然交互,同時(shí)在網(wǎng)絡(luò )信號不佳時(shí),交由本地識別。
房子好不好,要靠骨架,也要靠藝術(shù)家
在CEO何國濤看來(lái),自家的技術(shù)和別人沒(méi)有太多區別。“技術(shù)只是骨架,房子好不好要靠藝術(shù)家,需要另一種腦子想辦法”。現場(chǎng)接介紹產(chǎn)品的 ZiJun畢業(yè)于加州伯克利大學(xué)認知科學(xué)專(zhuān)業(yè),是普強的交互設計師,正是何國濤口中的“藝術(shù)家”之一。
交互設計師要做的就是利用和良好的交互規則接近理想的用戶(hù)體驗,確保產(chǎn)品能被用戶(hù)輕松玩轉,易用的同時(shí)讓用戶(hù)心情愉悅。這其中也包括各種有效的交互方式,并能對它們進(jìn)行增強和擴充。普強認為在注重產(chǎn)品技術(shù)的同時(shí),更要注重從產(chǎn)品、界面、工作流、到用戶(hù)層面的交互設計。語(yǔ)音助手不但可以預測用戶(hù)需求,還能更準確理解用戶(hù)需求以滿(mǎn)足駕駛環(huán)境中特殊的信息交互。
比如在用戶(hù)開(kāi)口前語(yǔ)音助手該如何打招呼,相比較“你好”,直接提問(wèn)“你好,你想去哪里?”是不是更好更主動(dòng)地預測了需求。當用戶(hù)自帶口音回答“我要去京師律師大廈”后,導航有沒(méi)有必要再確定一次。在地址確定界面,要不要考慮按鍵操作和語(yǔ)音兩種交互方式靈活切換,讓用戶(hù)根據習慣選擇。
簡(jiǎn)單來(lái)說(shuō),語(yǔ)音助手在交互中將更加主動(dòng)。有了上下文,推測和心理預期,自然聽(tīng)得更明白,理解得更清楚。
但這些“藝術(shù)家”并不是單純地調研想法,事實(shí)上,認知科學(xué)是一門(mén)涉及心理學(xué)、神經(jīng)科學(xué)、語(yǔ)言學(xué)、計算機的交叉學(xué)科,本身與技術(shù)也有著(zhù)深入交織。普強在技術(shù)上考慮到交互設計師需要的更多創(chuàng )作空間,在框架設計時(shí)將語(yǔ)音識別引擎和流程做了比較好的分割,涉及流程上的優(yōu)化,本身并不會(huì )對產(chǎn)品產(chǎn)生影響。
當“藝術(shù)家”將越來(lái)越多的交互串聯(lián),產(chǎn)品使用中的不自然會(huì )逐漸稀釋。何國濤的最終理想是將多種交互方式融合,讓車(chē)像人一樣擁有視覺(jué)、聽(tīng)覺(jué)等多種感知能力。比如攝像頭看嘴型變化和聲學(xué)識別結合,根據人眼注視方向和語(yǔ)音交互結合起來(lái)。用戶(hù)也許會(huì )有自己習慣使用的一兩種習慣,而“不需要把某種交互干掉”。
因為深度所以前裝
查看普強的融資歷史,除了來(lái)自硅谷企業(yè)家黃炎松百萬(wàn)美元天使輪,戈壁領(lǐng)投的 500萬(wàn)美元A輪,最近一次的B輪1000多萬(wàn)美元的投資方中,領(lǐng)投的是四維圖新。這也是普強和四維圖新同臺亮相CES Asia的原因。
何國濤把前兩輪的融資都砸進(jìn)了研發(fā),隨著(zhù)技術(shù)逐漸成熟,四維圖新帶來(lái)的資源有了更大的想象空間。?
不久之前,四維圖新收購杰發(fā)科技布局自動(dòng)駕駛和車(chē)聯(lián)網(wǎng),借助杰發(fā)科技在車(chē)載領(lǐng)域的芯片業(yè)務(wù),普強有機會(huì )將語(yǔ)音模塊直接做到芯片中帶動(dòng)出貨。四維圖新投資的車(chē)載系統供應商和驪安,也整合了普強的語(yǔ)音助手聲學(xué)產(chǎn)品在前后裝鋪開(kāi)業(yè)務(wù)。
但何國濤最關(guān)注的不僅僅是跑量,在兩個(gè)方向中,他更重視前裝。因為語(yǔ)音助手所需的系統定制要達到操作系統級別,甚至更加底層的GPU,這在更加強調體驗的前裝才有更多機會(huì )。未來(lái)利用語(yǔ)音調用車(chē)輛更多內部功能需要與CAN總線(xiàn)對接,也注定了與主機廠(chǎng)發(fā)生更多關(guān)聯(lián)。在目前科大訊飛占據大規模份額的前裝語(yǔ)音識別領(lǐng)域,普強需要一個(gè)標桿自證實(shí)力。
有業(yè)內人士介紹,在沒(méi)有系統捆綁方案的情況下,語(yǔ)音識別提供商給到車(chē)廠(chǎng)的語(yǔ)音識別代碼,大多經(jīng)過(guò)包裝,往往整句輸入整句輸出,因此在更加細節定制上存在復雜的額外開(kāi)發(fā),這也恰好是現階段從自然語(yǔ)音識別更進(jìn)一步,需要打破的藩籬。近期也有消息稱(chēng),科大訊飛正在車(chē)機市場(chǎng)有所布局,或許也是出于定制的考慮。
自然不難想到,入口打開(kāi)意味著(zhù)更多數據收入囊中。大數據爆發(fā)繁榮了深度學(xué)習。當源源不斷的數據樣本涌來(lái),算法才有更多可供訓練優(yōu)化的樣本。
值得注意的是,當人們強調大數據的海量時(shí),不能忽視精專(zhuān)。理想狀態(tài)下,四維普強合作的“車(chē)機、后視鏡、行車(chē)記錄儀”,都可以成為入口。四維的POI數據及其伙伴企業(yè)滴滴打車(chē)每天數億條的信息,也都更貼近產(chǎn)品使用場(chǎng)景,更適合用來(lái)快速地訓練一顆深度大腦。
有數項語(yǔ)音專(zhuān)利在身的何國濤,因為專(zhuān)攻市場(chǎng)業(yè)務(wù)已經(jīng)不再Coding。他向車(chē)云菌透露,公司目前在進(jìn)行一些關(guān)于UBI的小小研究。普強從保險公司和移動(dòng)互聯(lián)網(wǎng)等領(lǐng)域切入市場(chǎng)時(shí)也陸續有過(guò)數據累計,隨著(zhù)主機廠(chǎng)及四維圖新的合作深入,聲音會(huì )帶來(lái)更多化學(xué)反應。