云計算、大數據、移動(dòng)互聯(lián)網(wǎng)、人機交互……短短一兩年時(shí)間內,IT產(chǎn)業(yè)像經(jīng)歷了一場(chǎng)大洗牌,創(chuàng )新一詞已顯老舊,跨界、顛覆成為流行詞。國內以BAT為代表的傳統互聯(lián)網(wǎng)巨頭開(kāi)始猛攻移動(dòng)互聯(lián)網(wǎng),并購、兼并層出不窮,相互疆域犬牙交錯,進(jìn)攻防守猶如一場(chǎng)“軍閥混戰”。電子市場(chǎng)的重心也迅速由PC端迅速轉移到智能移動(dòng)終端,移動(dòng)互聯(lián)網(wǎng)已成兵家必爭之地。如此讓產(chǎn)業(yè)興奮又讓產(chǎn)業(yè)顫抖的時(shí)代,智能人機交互(HCI)技術(shù)也終于迎來(lái)了有史以來(lái)最好的階段,而該HCI領(lǐng)域中的語(yǔ)音交互技術(shù)則迎來(lái)競爭最激烈的發(fā)展時(shí)期!
縱觀(guān)國內外移動(dòng)互聯(lián)網(wǎng)發(fā)展態(tài)勢,各項炒得火熱的技術(shù)中,大數據、智能人機交互技術(shù)(簡(jiǎn)稱(chēng)HCI)并列前茅!從蘋(píng)果Siri的語(yǔ)音交互技術(shù)到谷歌眼鏡的圖像識別技術(shù),從智能手機大戰延伸至智能電視,無(wú)一不在說(shuō)明在移動(dòng)互聯(lián)網(wǎng)時(shí)代,IT整個(gè)行業(yè)都在發(fā)生由量到“智”的聚變,語(yǔ)音交互、圖像識別、語(yǔ)義理解、生物識別。。。。HCI技術(shù)風(fēng)靡全球!
兩年前,蘋(píng)果的Siri一鳴驚人,帶動(dòng)智能語(yǔ)音產(chǎn)業(yè)進(jìn)入發(fā)展最快的時(shí)期。十幾年來(lái)一直控制國內中文語(yǔ)音合成技術(shù)市場(chǎng)的捷通華聲、科大訊飛發(fā)力語(yǔ)音識別技術(shù);百度、搜狗、騰訊為守住入口,憑借天然優(yōu)勢,重金砸出最高水平的語(yǔ)音識別技術(shù);中科信利、云知聲等老牌、新秀語(yǔ)音企業(yè),迎來(lái)難得發(fā)展機遇期。國內語(yǔ)音識別技術(shù)力量集體爆發(fā),讓美國本來(lái)在語(yǔ)音識別技術(shù)上領(lǐng)先的Nuance、Google、微軟風(fēng)光不在,語(yǔ)音識別技術(shù)群雄割據的時(shí)代已然來(lái)臨,鹿死誰(shuí)手好像尚不得而知。
語(yǔ)音識別、合成雙劍合璧,智能語(yǔ)音展露鋒芒
其實(shí)語(yǔ)音識別這個(gè)技術(shù)很早就有,雖然并不成熟。上世紀90年代末,IBM推出的“Viavoice”就號稱(chēng)能“解放雙手”,幫助讓人們實(shí)現文字錄入語(yǔ)音化。然而,伴隨全民漢字輸入能力的提高,“Viavoice”因語(yǔ)音識別率不高,加上口音、噪音的影響,黯然離場(chǎng)。
近年來(lái),互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)的迅猛發(fā)展,帶動(dòng)大數據量的形成;國內外潛心研究的一代代科學(xué)家攻克了無(wú)數技術(shù)上的難題,大數據又為其提供了豐富的訓練語(yǔ)料;開(kāi)源技術(shù)更是促進(jìn)了技術(shù)跨越國境的交流共享,大大降低語(yǔ)音識別技術(shù)門(mén)檻;智能移動(dòng)終端功能、性能的超常規提升,為對硬件環(huán)境要求高的語(yǔ)音識別技術(shù)創(chuàng )造了“運轉”的硬件環(huán)境;所有的變化匯集一處,讓人們夢(mèng)寐以求的“自由說(shuō)”語(yǔ)音識別技術(shù)成為現實(shí)。
如果說(shuō)語(yǔ)音識別技術(shù)是“說(shuō)”,那么語(yǔ)音合成技術(shù)就是“聽(tīng)”,“能說(shuō)會(huì )聽(tīng)”形成了語(yǔ)音交互—智能語(yǔ)音的完整概念。也許是巧合,語(yǔ)音交互技術(shù)的發(fā)展,如同人都是“先學(xué)會(huì )聽(tīng),才學(xué)會(huì )說(shuō)”的進(jìn)步過(guò)程,語(yǔ)音合成早在十年前就完成了商品化進(jìn)程,人們也早已經(jīng)生活在語(yǔ)音合成—“機器說(shuō)話(huà)”服務(wù)無(wú)處不在世界里;
應該說(shuō),蘋(píng)果的Siri的適時(shí)出現,為智能語(yǔ)音產(chǎn)業(yè)發(fā)展做出了巨大貢獻,其貢獻在于打開(kāi)了智能語(yǔ)音應用市場(chǎng)的暢想“天窗”;雖然,當CNN公布Siri的配音者是演技派“大媽”時(shí),導致“調戲”過(guò)Siri的眾網(wǎng)友“淚流滿(mǎn)面”,卻也讓大眾全方位感受到智能語(yǔ)音交互的魅力與力量。正如同兩把利劍,語(yǔ)音識別技術(shù)的進(jìn)步,使得語(yǔ)音合成、識別雙劍合璧,為產(chǎn)業(yè)、大眾打開(kāi)了智能語(yǔ)音服務(wù)的新世界。也讓越來(lái)越多的設備、軟件廠(chǎng)商看到了智能語(yǔ)音應用的廣闊前景,智能語(yǔ)音交互技術(shù)終于在移動(dòng)互聯(lián)網(wǎng)時(shí)代展露鋒芒。
2013年,互聯(lián)網(wǎng)搜索巨頭百度,盡管已擁有了最先進(jìn)語(yǔ)音識別技術(shù),但正是深刻理解把握了智能語(yǔ)音應用的真諦,果斷投資捷通華聲,在其發(fā)展移動(dòng)互聯(lián)網(wǎng)進(jìn)程中以最快的速度擺脫智能語(yǔ)音曾經(jīng)的束縛,放手在移動(dòng)互聯(lián)網(wǎng)天地開(kāi)疆破土,攻城拔寨!
捷通華聲靈云演繹完美智能語(yǔ)音 人機交互前景明朗
中國智能語(yǔ)音的產(chǎn)業(yè)化進(jìn)程起步于世紀之初,捷通華聲、科大訊飛、Nuance一直是中國最主要的語(yǔ)音技術(shù)供應商。十幾年來(lái),不同于喜歡“高打高唱”的科大訊飛,也不同于“習慣驕傲”的Nuance,由清華大學(xué)畢業(yè)的幾位同學(xué)創(chuàng )辦的捷通華聲似擁有“清華遺風(fēng)”,一直保持務(wù)實(shí)低調的風(fēng)格。盡管捷通華聲公司因過(guò)于低調不為大眾所詳知,但捷通華聲的語(yǔ)音技術(shù)務(wù)實(shí)卻從不“低調”,十幾年的專(zhuān)注與技術(shù)積累,讓捷通華聲語(yǔ)音合成技術(shù)可謂“爐火純青”,語(yǔ)音播報服務(wù)從縱貫中國的高鐵到各大飛機場(chǎng);從各個(gè)醫院語(yǔ)音叫號到各地長(cháng)途汽車(chē)站;從各大銀行聲訊服務(wù)到各領(lǐng)域企業(yè)呼叫服務(wù)中心。。。。。自2000年到今天,捷通之聲已“高調”服務(wù)中國十三億大眾十三年之久。
這兩年來(lái),語(yǔ)音界老牌新秀企業(yè)、國內國外企業(yè)、跨界巨頭集體猛攻語(yǔ)音識別,一時(shí)間智能語(yǔ)音概念鋪天蓋地,語(yǔ)音產(chǎn)業(yè)則風(fēng)起云涌,捷通華聲表面不為所動(dòng),而是以“老虎打盹你以為我是病貓”的沉著(zhù)與強大實(shí)力,悄然在2011年,推出全球第一個(gè)全方位智能人機交互能力云服務(wù)平臺—靈云(hcicloud.com),從HCI產(chǎn)業(yè)高度,將語(yǔ)音云服務(wù)等各種單一HCI技術(shù)能力云服務(wù)輕松納入靈云體系。
靈云-hcicloud已從一個(gè)簡(jiǎn)單域名概述了靈云的設計與發(fā)展理念。靈云的構建不再局限于語(yǔ)音云服務(wù)等某一單一HCI技術(shù),而是一種可以用語(yǔ)音、手寫(xiě)、拍照,手勢,將來(lái)甚至腦波識別等智能手段來(lái)操作、感知手機、計算機等數字設備的網(wǎng)絡(luò )云服務(wù)。捷通華聲期望從更寬廣的角度促進(jìn)HCI技術(shù)產(chǎn)業(yè)發(fā)展,從更完整的視野推動(dòng)智能語(yǔ)音的服務(wù)與產(chǎn)業(yè)應用。智能語(yǔ)音交互是最重要的人機交互手段,但正如同每一個(gè)人與其他人溝通,都不是只是靠說(shuō)話(huà)完成交流,文字書(shū)寫(xiě)、圖像、情感表達都是交流的組成部分,伴隨HCI技術(shù)的全面發(fā)展,人們會(huì )根據場(chǎng)景的變化去選擇最合適的HCI技術(shù)實(shí)現人與機器的自然交流。
其實(shí),捷通華聲“低調“的本質(zhì)是尊重合作伙伴,捷通華聲多年來(lái)始終堅持讓合作伙伴的產(chǎn)品出名而從不“喧賓奪主”,靈云則承繼這一傳統并將這一理念通過(guò)與合作伙伴的技術(shù)融合推向更加完美的境界。百度語(yǔ)音識別與靈云語(yǔ)音合成完美結合,助力百度地圖、百度導航掀起導航革命;搜狗語(yǔ)音識別與靈云語(yǔ)音合成更是精心設計,支持搜狗地圖在導航領(lǐng)域獨占一方霸主地位;獨樹(shù)一幟與擁有獨特發(fā)展理念的導航犬,全面應用靈云語(yǔ)音識別、語(yǔ)音合成、語(yǔ)義理解、語(yǔ)音喚醒等功能,雙方開(kāi)發(fā)團隊如同一個(gè)企業(yè),日夜奮戰在一起,為數以千萬(wàn)的用戶(hù)推出一項項精心設計的導航犬經(jīng)典服務(wù)。
靈云如同天空之云,靜悄悄融入中國IT產(chǎn)業(yè)的生態(tài)環(huán)境,“低調”完美演繹智能語(yǔ)音等HCI技術(shù)能力服務(wù),“高調”為所有合作企業(yè)的經(jīng)典產(chǎn)品與市場(chǎng)進(jìn)步而喝彩!
闡述智能語(yǔ)音概念,靈云首創(chuàng )“云+端”人機交互服務(wù)模式
站在產(chǎn)業(yè)中企業(yè)的角度,每個(gè)企業(yè)的設備不同、性能不同、應用網(wǎng)絡(luò )環(huán)境不同,應用HCI技術(shù)創(chuàng )新“智”造過(guò)程中,如有更多的選擇,就能更好的滿(mǎn)足大眾用戶(hù);站在用戶(hù)的角度,每個(gè)人都希望全面享受智能語(yǔ)音等HCI技術(shù)最好的服務(wù),卻不希望受到網(wǎng)絡(luò )環(huán)境等因素及付出“高昂”費用。為順應并滿(mǎn)足企業(yè)與用戶(hù)需求,靈云“舍棄”云端服務(wù)可以獲取所謂寶貴數據資源與用戶(hù)資源等利益,率先推出靈云“云+端”服務(wù)模式。合作企業(yè)可根據設備與應用網(wǎng)絡(luò )環(huán)境自由選擇或讓用戶(hù)自由選擇,保證每一個(gè)產(chǎn)品都有與眾不同的特色,從而讓數以?xún)|記的大眾輕松享受智能語(yǔ)音等HCI技術(shù)能力的服務(wù)。
智能語(yǔ)音很熱,應用也很廣,靈云憑借捷通華聲十幾年的功底,語(yǔ)音合成“端”播放已輕松自然,并可讓合作伙伴選擇適合與自身應用的多種聲音;而語(yǔ)音識別因其對硬件資源的特殊要求,實(shí)現“端”識別對技術(shù)提出更高的要求,靈云離線(xiàn)式“端”識別以識別率高,定制簡(jiǎn)單等多種方式,與靈云語(yǔ)音合成一起為用戶(hù)提供完整的智能語(yǔ)音“云+端”服務(wù)。
智能語(yǔ)音的目標是完成完整的語(yǔ)音交互,針對不同的噪音環(huán)境,其實(shí)還需要一項技術(shù)來(lái)讓機器更好“讀懂”用戶(hù)的意圖,確保語(yǔ)音識別率。這個(gè)技術(shù)就是語(yǔ)義理解,靈云語(yǔ)義理解可對輸入語(yǔ)音的語(yǔ)義進(jìn)行分析,保證識別率的同時(shí),也確保語(yǔ)音合成播報使用者需要獲得的準確信息。捷通華聲靈云在此基礎上,近期又推出“語(yǔ)音喚醒”功能,并成功應用于各種APP,導航犬應用靈云智能語(yǔ)音各項技術(shù),可以在終端待機狀態(tài)瞬間喚醒導航軟件,并且以智能自然發(fā)聲應答用戶(hù)提問(wèn),全程無(wú)需保持開(kāi)機狀態(tài),各種環(huán)境下語(yǔ)音識別精度達到96%以上,旅途中的用戶(hù)與開(kāi)車(chē)中的司機想去什么地方動(dòng)動(dòng)嘴就行,輕松省心又方便。
靈云“云+端”自推出以來(lái),迅速為產(chǎn)業(yè)所接納,不僅在導航領(lǐng)域,百度語(yǔ)音助手、搜狗語(yǔ)音助手、聚熵360、南京米果、蟲(chóng)洞語(yǔ)音助手等系列語(yǔ)音助手軟件;天行輸入法、百度輸入法、觸寶輸入法、也包括“漢字英雄”、漢字書(shū)寫(xiě)大賽更是將智能語(yǔ)音、智能圖象“云+端”及其合作模式,超乎想象地完美應用,服務(wù)智能手機用戶(hù)已達數億之眾。
靈云愿景支持企業(yè)共同服務(wù)億萬(wàn)大眾,HCI回歸純樸自然
智能人機交互技術(shù)(HCI)幫助人們更方便地與機器進(jìn)行交流,包括語(yǔ)音交互、圖像識別、生物識別等,幾十年來(lái),因HCI技術(shù)的難度大,一直呈現螺旋式進(jìn)步發(fā)展趨勢;但大眾對方便、高效的追求與渴望,及在凡事都要快的移動(dòng)互聯(lián)網(wǎng)時(shí)代成為推動(dòng)HCI技術(shù)進(jìn)步的巨大力量。
移動(dòng)互聯(lián)網(wǎng)時(shí)代,智能語(yǔ)音、智能圖像、智能客服、包括生物識別等技術(shù)產(chǎn)業(yè)蓬勃發(fā)展,而推動(dòng)HCI技術(shù)迎來(lái)發(fā)展的巨大機遇的真正力量依然是來(lái)自IT產(chǎn)業(yè)發(fā)展與全社會(huì )的進(jìn)步。如今,智能語(yǔ)音概念如日中天,其中語(yǔ)音識別的各種“互聯(lián)網(wǎng)入口說(shuō)、關(guān)卡壁壘說(shuō)、大數據說(shuō)、資本說(shuō)”等各種說(shuō)法風(fēng)靡IT產(chǎn)業(yè)。冷靜地想:如果語(yǔ)音識別是互聯(lián)網(wǎng)入口,那么手寫(xiě)識別、拼音錄入是不是入口?如果說(shuō)語(yǔ)音識別技術(shù)高不可攀,那么百度、騰訊、搜狗等十幾家非專(zhuān)業(yè)語(yǔ)音公司1-2年“輕松”拿下語(yǔ)音識別技術(shù),哪里還有什么技術(shù)壁壘?如果說(shuō)資本市場(chǎng)會(huì )爆發(fā),美國Nuance公司十幾年兼并了幾乎除中國企業(yè)外所有的語(yǔ)音技術(shù)公司,擁有幾乎全世界所有國家的多語(yǔ)種智能語(yǔ)音交互技術(shù),資本說(shuō)在納斯達克也跟著(zhù)期盼了快二十年!如果說(shuō)那家聲音數據采集多,那么誰(shuí)家的語(yǔ)音數據又能夠超過(guò)騰訊的微信、三大運營(yíng)商的語(yǔ)音數據?
其實(shí)不管怎么說(shuō),智能語(yǔ)音還應增加一個(gè)概念就是“工具說(shuō)”,因為無(wú)論什么時(shí)候,智能語(yǔ)音最主要的核心功能還是一個(gè)聲音錄入與輸出的工具。無(wú)論今天還是未來(lái)發(fā)展,就像生活中沒(méi)有任何一種力量不讓大家說(shuō)話(huà)交流一樣,智能語(yǔ)音在充分滿(mǎn)足了大眾的好奇之后,依然會(huì )象無(wú)數為語(yǔ)音技術(shù)發(fā)展進(jìn)步做出巨大貢獻的科學(xué)家、學(xué)者、工程師一樣,安心提高語(yǔ)音識別準確率、語(yǔ)音合成自然度,回歸到自然與純樸。
相信未來(lái)發(fā)展,HCI技術(shù)依然會(huì )呈現螺旋式進(jìn)步趨勢,無(wú)論智能語(yǔ)音、還是智能圖像,只有更好,沒(méi)有最好!合作共贏(yíng)將成為HCI產(chǎn)業(yè)融入中國乃至世界IT產(chǎn)業(yè)的主旋律。捷通華聲靈云已開(kāi)始為產(chǎn)業(yè)界提供語(yǔ)音識別、語(yǔ)音合成、手寫(xiě)識別、OCR、語(yǔ)義理解、機器翻譯等多項HCI技術(shù)能力。未來(lái)發(fā)展中,靈云將在發(fā)揮自身多項HCI技術(shù)優(yōu)勢的基礎上,不斷與學(xué)術(shù)界、產(chǎn)業(yè)界合作,推出更多的HCI技術(shù)能力,靈云的目標永遠是助力中國信息產(chǎn)業(yè),讓人機交互像人與人溝通一樣的簡(jiǎn)單自然,一起智創(chuàng )中國夢(mèng),慧及全球心!