靈云平臺:超強機身
目前,智能語(yǔ)音交互仍然是最重要的人機交互手段,但正如同人和人的溝通一樣,并不只是依靠語(yǔ)言,文字書(shū)寫(xiě)、圖像、情感表達也都是交流的組成部分。
所以,要實(shí)現真正意義上的簡(jiǎn)單自然的交流,必須要依靠各種人機交互技術(shù),結合各種復雜的場(chǎng)景,實(shí)現隨時(shí)、隨地、隨場(chǎng)景的交流與溝通。
為達到上述愿景,捷通華聲于2011年12月08日打造出靈云平臺。靈云平臺是國內首個(gè)全方位智能人機交互(HCI)技術(shù)開(kāi)放平臺。
靈云不僅僅局限于語(yǔ)音云服務(wù)等某一項單一的HCI技術(shù),而是一種可以用語(yǔ)音、手寫(xiě)、拍照,手勢甚至是未來(lái)腦波識別等智能手段來(lái)操作、感知手機、計算機等數字設備的網(wǎng)絡(luò )云服務(wù)。
目前,靈云以“云+端”的方式,為用戶(hù)提供語(yǔ)音合成、語(yǔ)音識別、手寫(xiě)識別、光學(xué)字符識別、自然語(yǔ)言理解等智能人機交互技術(shù)服務(wù),其目標就是力求讓人機交互與人與人的溝通一樣簡(jiǎn)單自然。
由此可見(jiàn),靈云平臺本身已超越了大家所熟知的手寫(xiě)識別、語(yǔ)音識別等領(lǐng)域,而是期望從更寬廣的角度、更完整的視野去詮釋人機交互的各種場(chǎng)景,并最終實(shí)現各種應用。
靈云起飛:需平衡短板
任何企業(yè)的成功,必然離不開(kāi)天時(shí)、地利、人和等因素。靈云平臺生逢其時(shí),愿景很美好,捷通華聲打造的靈云平臺設計初衷也非常美好,但其自身實(shí)力是否能真正承載這一設計?
靈云平臺作為全方位智能人機交互技術(shù)開(kāi)放平臺,綜合了語(yǔ)音合成、語(yǔ)音識別、手寫(xiě)識別、光學(xué)字符識別、自然語(yǔ)言理解等各項HCI技術(shù),捷通華聲在這些領(lǐng)域的技術(shù)積累情況如何呢?是否真正做好了準備?
首先看手寫(xiě)識別、光學(xué)字符識別技術(shù),這兩方面的技術(shù)積累已然成熟,捷通華聲對此有多年的應用案例積累,在此不做過(guò)多的闡述。
重點(diǎn)從語(yǔ)音技術(shù)說(shuō)起,目前國內將語(yǔ)音技術(shù)分為語(yǔ)音合成與語(yǔ)音識別兩個(gè)方面。語(yǔ)音合成技術(shù)在中國已有十多年歷史,應用范圍很廣,包括各種播報、導航等應用較多。目前中國市場(chǎng)幾乎由捷通華聲、科大訊飛兩家公司控制,兩家公司的市場(chǎng)份額相當。
而語(yǔ)音識別技術(shù),由于技術(shù)門(mén)檻更高,語(yǔ)音應用的范圍更廣,市場(chǎng)潛力巨大,所以吸引了很多國際國內很多廠(chǎng)商的關(guān)注。
國際知名的語(yǔ)音識別公司Nuance、Google、微軟起步甚早,國內科大訊飛依靠科技大學(xué)的科研力量,以及在資本市場(chǎng)上獲得的研發(fā)資金支持,在中國語(yǔ)音識別領(lǐng)域儼然是快人一步。與此同時(shí),中科信利、得意音通等傳統新秀語(yǔ)音企業(yè),再加上百度、搜狗、騰訊等由于自身業(yè)務(wù)需求應用,也在通過(guò)資本收購或者自主研發(fā)進(jìn)軍語(yǔ)音識別市場(chǎng)。
語(yǔ)音識別市場(chǎng)這樣的競爭格局,顯然對捷通華聲并不是特別有利,而捷通華聲傾力打造的HCI靈云平臺,如果語(yǔ)音識別這樣的重磅的技術(shù)不能取得領(lǐng)先,那無(wú)異于等同于缺少了左膀右臂。
張連毅推動(dòng)捷通華聲通過(guò)與清華大學(xué)的戰略合作,將語(yǔ)音識別技術(shù)的短板迅速拉升。“清華大學(xué)的語(yǔ)音識別基礎研究已經(jīng)幫助捷通華聲在半年內將語(yǔ)音識別技術(shù)提高到國內最高水平。過(guò)去清華大學(xué)語(yǔ)音研究力量也一直處在產(chǎn)業(yè)幕后的地位,這次合作,我們將清華科技推向前臺,向產(chǎn)業(yè)界充分展現清華大學(xué)在語(yǔ)音技術(shù)領(lǐng)域的絕對實(shí)力!”張連毅如是說(shuō)。
而自然語(yǔ)言理解技術(shù),相比語(yǔ)音識別技術(shù)更具挑戰,自然語(yǔ)言理解技術(shù)應用目前已處于爆發(fā)前的起步期,應用靈云越來(lái)越廣,捷通華聲已經(jīng)與清華大學(xué)幾個(gè)國內頂尖自然語(yǔ)言理解技術(shù)實(shí)驗室建立多領(lǐng)域的合作,并與捷通華聲自身核心技術(shù)相結合,迅速推出了應用最領(lǐng)先技術(shù)自然語(yǔ)言理解技術(shù)的靈云智能客服系統。
在新的HCI技術(shù)領(lǐng)域,如生物特征識別,一些技術(shù)已經(jīng)成熟,一些技術(shù)如腦波識別技術(shù),還處于實(shí)驗室研究階段,目前討論還為時(shí)尚早,張連毅認為,要未雨綢繆,應充分考慮到各種可能,靈云平臺將為生物特征識別技術(shù)預留接口。
靈云翱翔:合作共贏(yíng)
在張連毅看來(lái),合作伙伴至少有三個(gè)層次:
一是客戶(hù)合作伙伴:捷通華聲永遠都是客戶(hù)輝煌背后的支持者,可以默默無(wú)聞,從不喧賓奪主。可以是嘀嘀打車(chē)背后的聲音,也可以是“漢字英雄”背后的手寫(xiě)輸入,還可以是導航的領(lǐng)路者。
二是戰略合作伙伴:無(wú)論是百度,還是清華大學(xué),成為助捷通華聲HCI靈云平臺翱翔的雙翼。百度語(yǔ)音識別與靈云語(yǔ)音合成完美結合,助力百度地圖、百度導航掀起導航革命,同時(shí)讓捷通華聲語(yǔ)音技術(shù)應用得到落地;清華大學(xué)的基礎科研研究,則為捷通華聲構架起堅實(shí)的技術(shù)基礎。
三是渠道合作伙伴:捷通華聲希望與各個(gè)領(lǐng)域的渠道合作伙伴共同開(kāi)啟HCI的跨世紀應用。捷通華聲與導航犬的合作,全面應用了靈云語(yǔ)音識別、語(yǔ)音合成、語(yǔ)義理解、語(yǔ)音喚醒等功能。
“只有依靠合作伙伴,才能讓靈云平臺騰飛。”張連毅強調。
企業(yè)網(wǎng)D1Net總結:
采訪(fǎng)張連毅的過(guò)程,是對中國HCI產(chǎn)業(yè)重新認識與定義的過(guò)程,這個(gè)行業(yè)外表的風(fēng)光與實(shí)際遇到的困境,可能只有身處其中的人才能真正理解。
雖然智能語(yǔ)音等HCI領(lǐng)域風(fēng)光無(wú)限,資本市場(chǎng)的逐利屬性,讓HCI似乎前景甚好,而實(shí)際上,據小編觀(guān)察:如當今國內的語(yǔ)音產(chǎn)業(yè),并沒(méi)有非常成功的前端語(yǔ)音產(chǎn)品可以主宰市場(chǎng)。功能上的同質(zhì)化、用戶(hù)體驗不足、語(yǔ)音識別準確率不高、實(shí)用化尚有距離等因素依然限制著(zhù)HCI產(chǎn)業(yè)的發(fā)展。
另一方面,相比較國外語(yǔ)音產(chǎn)業(yè),中國語(yǔ)音產(chǎn)業(yè)規模尚小,政府支持范圍有限,而且國內個(gè)別企業(yè)設置各種壁壘,甚至人為“壟斷”,這些因素都限制了中國HCI的發(fā)展。
正如張連毅所說(shuō):一花獨放不是春,要鼓勵百花齊放。這個(gè)百花齊放我相信不僅僅是指捷通華聲靈云平臺本身需要包羅各種技術(shù),需要聚攏更多合作伙伴,我更期待HCI的各個(gè)上下游環(huán)節的所有伙伴,在以國家利益和產(chǎn)業(yè)整體發(fā)展利益為總體規劃的前提下,各顯所能,共同發(fā)展。就如馬航的失聯(lián)客機,不要因為人為的狹隘干預,讓這架已經(jīng)啟航的飛機不知落于何處?