“2013年至今,大數據處于修跑道階段。”北京神州泰岳軟件股份有限公司(以下簡(jiǎn)稱(chēng)神州泰岳)副總裁楊凱程認為,大數據產(chǎn)業(yè)在這一階段的發(fā)展中還存在一些問(wèn)題,如文本等非結構化分析挖掘領(lǐng)域還缺少有效的工具。而造成這一現狀的癥結在于,“技術(shù)的投入和創(chuàng )新力度不夠,又缺乏現成的近道可走。”

圖北京神州泰岳軟件股份有限公司副總裁楊凱程
當下,業(yè)界對于大數據概念性的討論已越來(lái)越少,進(jìn)入相對靜默期,部分企業(yè)開(kāi)始沉下來(lái)思索大數據能做什么,亦逐漸意識到技術(shù)優(yōu)勢的重要性。
“現在是大數據場(chǎng)景創(chuàng )新的重要階段。有幸的是,鼎富科技(神州泰岳旗下成員企業(yè))起初就意識到場(chǎng)景創(chuàng )新的重要性。在過(guò)去的2~3年積累了較多的場(chǎng)景和產(chǎn)品創(chuàng )新經(jīng)驗,已具備了很好的技術(shù)和產(chǎn)品優(yōu)勢,這是很多初創(chuàng )公司希望達到的。”楊凱程道出了鼎富科技能搶占眾人覬覦的大數據高地的關(guān)鍵所在。
“2+2”戰略:推進(jìn)創(chuàng )新和轉型
人工智能和大數據是神州泰岳“2+2”全新業(yè)務(wù)格局中的重要部分。楊凱程介紹道,“6月收購鼎富科技后,公司正式推進(jìn)‘2+2’發(fā)展戰略。第一個(gè)‘2’是指ICT運營(yíng)管理和手機游戲,今年這兩項業(yè)務(wù)整體較好,構成了當下的主要利潤;第二個(gè)‘2’是指人工智能與大數據、物聯(lián)網(wǎng)與通訊技術(shù)應用,是泰岳未來(lái)著(zhù)力打造的戰略業(yè)務(wù),希望通過(guò)努力,在未來(lái)三年形成四輪驅動(dòng)。”
未來(lái),神州泰岳將把人工智能和大數據作為重要的轉型方向之一。
楊凱程透露,神州泰岳并購鼎富科技的原因就在于公司對于大數據和人工智能領(lǐng)域未來(lái)發(fā)展前景的高度認可,而鼎富科技在非結構化文本大數據領(lǐng)域擁有自身的核心技術(shù)。
“因此,我們希望將自身在大數據產(chǎn)業(yè)鏈的現有資源和成果與鼎富科技的技術(shù)優(yōu)勢進(jìn)行整合,從而,擴大神州泰岳在整個(gè)大數據產(chǎn)業(yè)鏈上的實(shí)力,并希望,未來(lái)能夠在大數據和人工智能方向上有所作為。”楊凱程道出了并購的緣由。
為此,神州泰岳將以鼎富科技的技術(shù)為核心,對人工智能、大數據相關(guān)的業(yè)務(wù)進(jìn)行整合。“在傳統的ICT業(yè)務(wù)中如果我們導入人工智能,那么人工智能在運維管理等領(lǐng)域就會(huì )產(chǎn)生一些創(chuàng )新的機會(huì )和場(chǎng)景,比如運維知識庫的提升、運維工單的自動(dòng)分揀和幫助臺的智能機器人等。”楊凱程分析了神州泰岳在人工智能和大數據方向與現有業(yè)務(wù)整合后的一個(gè)可能的發(fā)展途徑。
另外,神州泰岳子公司—神州泰岳智能數據公司和運營(yíng)商合作較多,可以依托運營(yíng)商的數據提供大數據的數據服務(wù),在應用方面主要是幫助客戶(hù)做精準營(yíng)銷(xiāo)、客戶(hù)分析和客戶(hù)畫(huà)像等業(yè)務(wù),例如向出國咨詢(xún)公司提供精準營(yíng)銷(xiāo)。
在“2+2”戰略下,神州泰岳的整體實(shí)力會(huì )得以再加砝碼,楊凱程說(shuō):“神州泰岳已積累了大量的行業(yè)客戶(hù)資源,尤其在運營(yíng)商領(lǐng)域,使我們相對容易地在原有運營(yíng)商的運維管理業(yè)務(wù)和其他延伸業(yè)務(wù)中疊加人工智能和大數據技術(shù),從而使原有業(yè)務(wù)得以提升和創(chuàng )新。加之現在運營(yíng)商對人工智能、大數據已有較充分的認識和逐漸明確的需求,也使得神州泰岳有可能成為該領(lǐng)域主要的供應商之一。”
“不僅如此,結合鼎富科技在文本技術(shù)上的領(lǐng)先性以及原有金融行業(yè)等領(lǐng)域的先期優(yōu)勢,神州泰岳的整體實(shí)力將在整合中得以進(jìn)一步加強。”楊凱程補充道。
語(yǔ)義理解技術(shù)才是人工智能的關(guān)鍵
楊凱程認為,從某種角度上看,人工智能就是大數據,所以神州泰岳在往人工智能方向發(fā)展時(shí),亦是在往大數據方向拓展。
鼎富科技的核心技術(shù)是非結構化文本的分析挖掘,即語(yǔ)義理解技術(shù),并圍繞這個(gè)方向展開(kāi)非結構化大數據業(yè)務(wù)。在該領(lǐng)域,自然語(yǔ)言的語(yǔ)義理解是人工智能認知技術(shù)的核心。IBM、微軟、BAT都在布局人工智能,而人工智能最離不開(kāi)、也最具挑戰性的環(huán)節就是自然語(yǔ)言的語(yǔ)義理解技術(shù),因此這些公司都希望在語(yǔ)義理解技術(shù)上實(shí)現突破。
目前,深度學(xué)習的出現使得自然語(yǔ)言處理領(lǐng)域在傳統的規則方法和統計方法之外,有了更為領(lǐng)先的技術(shù)手段。
應該說(shuō)深度學(xué)習的出現,有效地促進(jìn)了語(yǔ)音識別、圖像識別等領(lǐng)域的快速發(fā)展,使其可用性達到了可廣泛應用的條件,但是在自然語(yǔ)言語(yǔ)義理解領(lǐng)域通過(guò)深度學(xué)習來(lái)達到與語(yǔ)音識別等類(lèi)似的效果,目前看還比較困難,尤其是中文的語(yǔ)義理解。
眾所周知,深度學(xué)習和統計方法都需要語(yǔ)料學(xué)習,高質(zhì)量的數量龐大的語(yǔ)料就變得極為重要,這也是深度學(xué)習在自然語(yǔ)言語(yǔ)義理解方面所面臨的挑戰。
而在行業(yè)領(lǐng)域,積累和準備可供學(xué)習的語(yǔ)料這項工作仍較繁重,而且需要時(shí)間積累,但好的方面是行業(yè)領(lǐng)域具有邊界,所以在某些行業(yè)領(lǐng)域中如果樣本數據豐富或者易于積累的情況下,或者在特定的功能范圍內,深度學(xué)習是會(huì )有較好效果的。
“目前,我們在自然語(yǔ)言的語(yǔ)義理解方面,處于一個(gè)相對領(lǐng)先地位。鼎富科技自2011年成立就一直在研發(fā)基于概念計算、能夠解決中文歧義性和支持多語(yǔ)種的‘智慧語(yǔ)義認知技術(shù)’。該技術(shù)不同于深度學(xué)習和統計方法,不需要學(xué)習大量語(yǔ)料,這是不同公司在底層的自然語(yǔ)言語(yǔ)義理解技術(shù)的差異。”楊凱程解釋道。
“我們對非結構化文本大數據行業(yè)的另一貢獻是,研發(fā)了DINFO-OEC非結構化大數據的分析挖掘平臺。它是完全面向業(yè)務(wù)建模的,讓研發(fā)人員將注意力放在業(yè)務(wù)理解和業(yè)務(wù)表達上,而將鼎富科技的智慧語(yǔ)義認知技術(shù)進(jìn)行了封裝,因此極大地縮短了行業(yè)應用場(chǎng)景創(chuàng )新的研發(fā)周期和提高了應用質(zhì)量。”在楊凱程看來(lái),DINFOOEC平臺還存在不斷完善的要求,但它的出現推動(dòng)了行業(yè)在文本處理技術(shù)的應用,促使大家開(kāi)發(fā)應用時(shí)專(zhuān)注于業(yè)務(wù)的大數據創(chuàng )新,而不是成為語(yǔ)義技術(shù)和文本技術(shù)的困獸。
“近幾年,DINFO-OEC平臺推出后在工行、中行、順豐、軍工、政府中都得到很好的應用。2014年,中國工商銀行呼叫中心的客服工單分析挖掘系統、順豐的呼叫中心工單智能分檢系統都上線(xiàn)了。其中智能分類(lèi)的準確率達到95%以上,并支持多語(yǔ)種,這在國際上也是遙遙領(lǐng)先。”楊凱程介紹。
“大數據時(shí)代,不能紙上談兵,而是要扎扎實(shí)實(shí)地結合行業(yè)進(jìn)行場(chǎng)景的創(chuàng )新。”楊凱程認為,埋頭苦干、真有創(chuàng )新遠比空有噱頭來(lái)的重要。
三大戰略助推大數據優(yōu)勢
依托在自然語(yǔ)言的語(yǔ)義理解上的技術(shù)領(lǐng)先優(yōu)勢,神州泰岳大數據戰略主要分為三個(gè)層面:
- 戰略一:語(yǔ)義云
楊凱程認為,推出泰岳語(yǔ)義云目的是因為自然語(yǔ)言語(yǔ)義理解技術(shù)的投入是十分巨大的,需要的技術(shù)研發(fā)時(shí)間也是長(cháng)期的,而大數據和人工智能的發(fā)展離不開(kāi)自然語(yǔ)言語(yǔ)義技術(shù)的應用,各行各業(yè)的大數據和人工智能創(chuàng )新除了技術(shù)創(chuàng )新的同時(shí),也離不開(kāi)業(yè)務(wù)場(chǎng)景的創(chuàng )新。
只有整合行業(yè)背景資源和語(yǔ)義技術(shù)資源才可能做好這件事,所以神州泰岳希望通過(guò)泰岳語(yǔ)義云的推出,將自然語(yǔ)言語(yǔ)義技術(shù)開(kāi)發(fā)給市場(chǎng),開(kāi)發(fā)給合作伙伴和行業(yè)客戶(hù),大家一起共同推動(dòng)行業(yè)大數據和人工智能應用的發(fā)展,當然也希望有更多志同道合的同仁一起,圍繞泰岳語(yǔ)義云建設一個(gè)領(lǐng)先的自然語(yǔ)言語(yǔ)義處理的生態(tài)圈。
眾所周知,大數據尤其是非結構化大數據的分析挖掘,需要的投入和技術(shù)準入門(mén)檻很高,神州泰岳不可能覆蓋各行業(yè)的業(yè)務(wù)或創(chuàng )新。但現在社會(huì )化數據80%都是非結構化數據,非結構的文本數據在各行各業(yè)有大量需求。
“就此,我們希望通過(guò)語(yǔ)義云的方式,將非結構化數據的技術(shù)和人力向社會(huì )開(kāi)放,也希望客戶(hù)和合作伙伴能通過(guò)使用這種能力,再結合自身對行業(yè)的創(chuàng )新理解和行業(yè)的背景、經(jīng)驗,在行業(yè)中不斷創(chuàng )新,從而共同推動(dòng)非結構化大數據產(chǎn)業(yè)的發(fā)展。”楊凱程如是說(shuō)。
“我們現在雖未理清語(yǔ)義云開(kāi)源的政策和策略,我們也還在學(xué)習中,但這是個(gè)方向。我們也希望集合更多的資源,共同推動(dòng)語(yǔ)義云的創(chuàng )新。同時(shí),我們也希望通過(guò)語(yǔ)義云的方式給神州泰岳帶來(lái)新的業(yè)務(wù)盈利模式。”為此,楊凱程表示,目前神州泰岳也已成立了神州泰岳人工智能研究院,研究院匯聚了鼎富科技的核心技術(shù)力量,以持續推動(dòng)自身在自然語(yǔ)言的語(yǔ)義理解技術(shù)上的領(lǐng)先性。
- 戰略二:人工智能
人工智能的核心是認知,而認知的核心是語(yǔ)義理解技術(shù)。我們依托領(lǐng)先的語(yǔ)義技術(shù),重點(diǎn)推出了兩款人工智能產(chǎn)品—統一業(yè)務(wù)知識庫和小富機器人。楊凱程指出,“現在的機器人還不能完全實(shí)現自然的交流,而未來(lái)機器人應該跟人溝通、交流時(shí)更像人,所以我們希望小富機器人能夠推動(dòng)機器人在認知領(lǐng)域的進(jìn)一步發(fā)展。”
知識庫也是人工智能的重要環(huán)節。現在知識庫的加工基本是人工的參與為主,由人工進(jìn)行知識的加工、入庫,這會(huì )給知識庫的應用領(lǐng)域帶來(lái)大量的困擾和挑戰。
“我們希望能夠生產(chǎn)出新一代的知識庫系統,可以支持加工智能化,為行業(yè)帶來(lái)巨大的改變。”楊凱程如是說(shuō)。
- 戰略三:云服務(wù)
云服務(wù)戰略是神州泰岳希望服務(wù)好行業(yè)客戶(hù)的戰略,同時(shí)也是希望未來(lái)更多地采用SaaS服務(wù)的方式提供云服務(wù),將服務(wù)對象向中小企業(yè)甚至個(gè)人傾斜的戰略。行業(yè)客戶(hù)具有較多的差異性,在一段時(shí)間內,服務(wù)行業(yè)的商業(yè)模式可能是多種模式的混搭,不排除傳統的解決方案交付方式,但是我們會(huì )盡可能尋找服務(wù)模式的機會(huì )和機遇,甚至在時(shí)機恰當的時(shí)候引導客戶(hù)選擇服務(wù)模式。
從目前來(lái)看,行業(yè)的大數據和人工智能機遇已經(jīng)來(lái)臨,關(guān)鍵問(wèn)題是,如何選擇機遇和如何落實(shí)落地的問(wèn)題。
“工欲善其事,必先利其器”,對于神州泰岳來(lái)說(shuō),優(yōu)勢在于“器”已經(jīng)在手中了。楊凱程表示,“我們根據不同行業(yè)對文本技術(shù)的依賴(lài)度選擇行業(yè)。對文本技術(shù)依賴(lài)度很強,或文本是其重要業(yè)務(wù)的行業(yè),如媒體、證券等行業(yè)將重點(diǎn)開(kāi)拓。”
對于文本的堅守與期待
要擁有國際影響力,核心競爭力是關(guān)鍵。就此,楊凱程認為,神州泰岳人工智能和大數據業(yè)務(wù)的核心競爭力就是自然語(yǔ)言語(yǔ)義理解技術(shù)的領(lǐng)先,尤其是對中文的分析處理能力。

楊凱程認為,“從某種角度上說(shuō),掌握中文語(yǔ)義理解技術(shù)對于中國人來(lái)說(shuō)是一次重要機遇,不論是鼎富科技突破還是其它國內的友商突破都是值得慶賀的事情。長(cháng)期以來(lái)與國外的IT巨頭相比,中國非常缺乏領(lǐng)先的IT技術(shù)領(lǐng)域,而‘中華民族是以漢字為記的偉大民族’,中文是我們祖先留下的最為寶貴的財富,而中文自身的歧義性等難于攻克的難題,也使得國外IT巨頭難于短時(shí)間突破,如果我們能夠領(lǐng)先,就能夠將中文的處理能力留在中國人手中。泰岳人希望看到這樣的情況,不希望喪失這個(gè)可以領(lǐng)先的機遇。”
因此,我們成立了神州泰岳人工智能研究院,使鼎富科技的技術(shù)人員可以專(zhuān)注地研究自然語(yǔ)言語(yǔ)義技術(shù)和人工智能的產(chǎn)品,由集團的其它分子公司來(lái)落實(shí)行業(yè)的應用創(chuàng )新和市場(chǎng)營(yíng)銷(xiāo)。
“當我們擁有很強的中文處理能力同時(shí)又具有完全自主知識產(chǎn)權的時(shí)候,就為神州泰岳服務(wù)于軍隊、安全和公安等部門(mén)創(chuàng )造了機遇。例如我們在軍工行業(yè)做了一個(gè)類(lèi)似于情報系統的知識庫,目前已經(jīng)同時(shí)支持12個(gè)主要國家的語(yǔ)言,且其知識處理能力具有較好的領(lǐng)先性。再比如在公安刑偵文本分析挖掘中,對作案手段、時(shí)間、地點(diǎn)、物品、當事人和嫌疑人等信息的抽取水平的準確率和召回率都達到了90%以上,而這一技術(shù)能力通過(guò)優(yōu)化是完全可以達到98%以上的,這將對提升刑事案件偵破的效率、線(xiàn)索的發(fā)現等提供極大的幫助。”楊凱程表示。
楊凱程認為,在未來(lái)大數據創(chuàng )新中,國內大數據企業(yè)還是具有很大優(yōu)勢的。“因為大數據的屬性是本地化,和生活、工作具有較強的相關(guān)性。而國外企業(yè)在國內數據方面的獲取應該還是有一定挑戰的,這也給國內企業(yè)提供了競爭的便利。”
其次,應用產(chǎn)品的優(yōu)勢明顯。“正是數據的本地化制約和對于國內行業(yè)的理解,我們在產(chǎn)品創(chuàng )新上依然具有優(yōu)勢。我們與國外在工具的研發(fā)等技術(shù)領(lǐng)域確實(shí)有差距,所以我們希望在中文這個(gè)細分領(lǐng)域,做得比國外更強。”楊凱程道出了產(chǎn)品的優(yōu)勢和未來(lái)的戰略所在。
優(yōu)勢和困境總是如影隨形。大數據面臨的難題就是需要大量而持續地投入。“鼎富科技在開(kāi)始的幾年中,將70~80%的資金都投入了研發(fā),雖然保持了每年接近300%的收入增長(cháng),但還是不一定能夠完全滿(mǎn)足研發(fā)投入的要求。而大數據和人工智能的發(fā)展極其迅速,IT和互聯(lián)網(wǎng)巨頭們紛紛加入,若沒(méi)有及時(shí)把握,就可能喪失機會(huì ),我們不希望喪失機會(huì ),所以才與神州泰岳進(jìn)行整合。”楊凱程道出了發(fā)展大數據的困局和堅守之難。
文本技術(shù)需要承載公司未來(lái)商業(yè)模式的轉型。但楊凱程認為,在這個(gè)過(guò)程中,需要有所為、有所不為。相信有這份有所為、有所不為的魄力,神州泰岳將在人工智能和大數據領(lǐng)域開(kāi)拓出一片新天地。