智能語(yǔ)音技術(shù)是人工智能的研究領(lǐng)域之一,其原理涉及聲學(xué)、語(yǔ)言學(xué)、數字信號處理、計算機科學(xué)等多個(gè)學(xué)科,研究周期長(cháng)、投入成本大,技術(shù)壁壘高,全球和中國語(yǔ)音市場(chǎng)基本形成寡頭壟斷格局。隨著(zhù)智能語(yǔ)音產(chǎn)業(yè)的快速發(fā)展,產(chǎn)業(yè)競爭進(jìn)一步加劇,吸引IT巨頭和中小創(chuàng )業(yè)團隊爭相進(jìn)入,和傳統語(yǔ)音技術(shù)提供商共同角逐智能語(yǔ)音市場(chǎng)。
一、基本形成寡頭壟斷格局
就全球市場(chǎng)而言,谷歌、蘋(píng)果等IT巨頭的強勢進(jìn)入,加上傳統語(yǔ)音技術(shù)廠(chǎng)商長(cháng)期的技術(shù)和用戶(hù)積累,市場(chǎng)基本上形成了寡頭壟斷格局。2012年,Nuance、谷歌、微軟、蘋(píng)果、IBM、科大訊飛五家龍頭企業(yè)占據超過(guò)95.0%的市場(chǎng)份額。其中,Nuance自2005年與ScanSoft公司合并后,成為全球最大的語(yǔ)音技術(shù)廠(chǎng)商,憑借自身先進(jìn)的語(yǔ)音識別、自然語(yǔ)言理解技術(shù)以及優(yōu)秀的語(yǔ)音解決方案,占有全球62.0%的語(yǔ)音市場(chǎng)。截至2012年底,其在全球擁有超過(guò)100家分公司或辦事處,業(yè)務(wù)覆蓋美國、英國、澳大利亞、奧地利、加拿大、德國、印度、中國等30多個(gè)國家和地區,業(yè)務(wù)涉及醫療保健、手機及消費者、企業(yè)服務(wù)等多個(gè)領(lǐng)域。谷歌憑借搜索方面的優(yōu)勢,通過(guò)對智能語(yǔ)音技術(shù)的持續大規模投入,將其應用在移動(dòng)搜索、可穿戴設備等領(lǐng)域,后來(lái)居上,占據18.9%的市場(chǎng)份額。微軟作為較早從事智能語(yǔ)音技術(shù)研究的企業(yè),其語(yǔ)音服務(wù)器在政府、金融、醫療、制造業(yè)等領(lǐng)域均得到應用。近年來(lái),微軟將其語(yǔ)音技術(shù)在游戲、即時(shí)翻譯、Windows Phone等產(chǎn)品中推廣應用,市場(chǎng)份額不斷擴大,達到6.6%。蘋(píng)果長(cháng)期以來(lái)致力于智能語(yǔ)音技術(shù)研發(fā)及其在電子終端上的應用和推廣,早在1984年就推出了第一臺會(huì )說(shuō)話(huà)的計算機Macintosh,于2010年收購S(chǎng)iri,2011年推出了內置語(yǔ)音助手軟件Siri的iPhone 4s,成功掀起了智能語(yǔ)音產(chǎn)業(yè)熱潮。2012年,蘋(píng)果憑借Siri迅速搶占全球智能語(yǔ)音市場(chǎng),占據近4.2%的市場(chǎng)份額。IBM是最早進(jìn)入語(yǔ)音領(lǐng)域的企業(yè)之一,通過(guò)在語(yǔ)音識別和機器翻譯產(chǎn)品方面的持續發(fā)力,占據超過(guò)4.0%的市場(chǎng)份額。科大訊飛作為中文智能語(yǔ)音的引領(lǐng)者,占據全球約3.2%的市場(chǎng)份額。
圖1 2012年全球智能語(yǔ)音企業(yè)市場(chǎng)份額
資料來(lái)源:工業(yè)和信息化部電子科學(xué)技術(shù)情報研究所
在中國智能語(yǔ)音市場(chǎng),鑒于中國傳統文化和中文的特殊性,且得益于國內科研院所、企業(yè)扎實(shí)的研究基礎,中文智能語(yǔ)音技術(shù)處于國際領(lǐng)先水平,形成了一批優(yōu)秀智能語(yǔ)音企業(yè),提供面向多領(lǐng)域、全行業(yè)的智能語(yǔ)音技術(shù)及服務(wù),核心技術(shù)包括語(yǔ)音合成、語(yǔ)音識別、語(yǔ)義理解、聲紋識別等多個(gè)方面,業(yè)務(wù)涉及移動(dòng)互聯(lián)網(wǎng)、智能家電、智能客服等多個(gè)領(lǐng)域,覆蓋教育、汽車(chē)、金融、醫療等多個(gè)行業(yè),以科大訊飛、百度、Nuance、捷通華聲為代表的寡頭壟斷格局基本形成。其中科大訊飛憑借多年的技術(shù)和用戶(hù)積累,以54.3%的市場(chǎng)份額穩居行業(yè)龍頭的位置。百度憑借在互聯(lián)網(wǎng)領(lǐng)域的優(yōu)勢,后來(lái)居上,成功在智能語(yǔ)音市場(chǎng)占據了重要位置,市場(chǎng)份額達到13.0%。百度自2010年進(jìn)入智能語(yǔ)音領(lǐng)域以來(lái),其語(yǔ)音搜索用戶(hù)已經(jīng)占據其移動(dòng)搜索用戶(hù)的1/10。蘋(píng)果憑借Siri與iPhone系列產(chǎn)品的綁定銷(xiāo)售,占據中國約11.7%的市場(chǎng)份額。Nuance憑借其雄厚的技術(shù)實(shí)力和強大的市場(chǎng)拓展能力,以5.4%的市場(chǎng)份額在中國市場(chǎng)仍占據一席之地,但其市場(chǎng)份額已經(jīng)出現一定下滑,這主要是受制于中文智能語(yǔ)音的技術(shù)門(mén)檻。目前其在中國的主要市場(chǎng)為移動(dòng)互聯(lián)網(wǎng)和車(chē)載市場(chǎng)。如為蘋(píng)果Siri提供技術(shù)支持,以及為寶馬、奔馳等進(jìn)口汽車(chē)廠(chǎng)商提供智能語(yǔ)音技術(shù)支持。但其在呼叫中心等傳統領(lǐng)域的市場(chǎng)份額大幅下降,目前主要依靠華為、思科等硬件廠(chǎng)商仍占有少量份額。捷通華聲、中科信利、中科模識作為行業(yè)的先行軍,憑借其雄厚的技術(shù)背景,繼續在智能語(yǔ)音市場(chǎng)占據重要位置。
圖2 2012年中國智能語(yǔ)音市場(chǎng)份額
資料來(lái)源:工業(yè)和信息化部電子科學(xué)技術(shù)情報研究所
二、傳統技術(shù)企業(yè)依托科研院所仍居主導地位
以學(xué)帶研、以研促產(chǎn)、產(chǎn)學(xué)研用密切結合是智能語(yǔ)音產(chǎn)業(yè)發(fā)展最為典型的特點(diǎn)。作為科研驅動(dòng)型行業(yè),智能語(yǔ)音技術(shù)研究最早起源于貝爾實(shí)驗室,斯坦福、卡內基梅隆等學(xué)校的研究為智能語(yǔ)音產(chǎn)業(yè)發(fā)展奠定了堅實(shí)的基礎,蘋(píng)果Siri的雛形便是源自于斯坦福研究院聯(lián)合麻省理工學(xué)院、卡內基梅隆大學(xué)等多家機構承擔的美國國防高級研究計劃局(DARPA)的CALO項目。Nuance也是源于斯坦福研究院的STAR實(shí)驗室。
在中文智能語(yǔ)音市場(chǎng),基本形成了基礎研究與產(chǎn)業(yè)應用協(xié)同發(fā)展的局面。圍繞科研院所形成的傳統技術(shù)廠(chǎng)商呈現高度集聚發(fā)展的特性,依托科研院所的技術(shù)優(yōu)勢,他們在行業(yè)中仍居主導地位。以中國科學(xué)院聲學(xué)所、中國科學(xué)院自動(dòng)化所、中國科技大學(xué)、清華大學(xué)、北京大學(xué)、社科院語(yǔ)言所為代表的科研院所作為最早從事智能語(yǔ)音及相關(guān)技術(shù)的研究機構,長(cháng)期以來(lái)專(zhuān)注于語(yǔ)音理論研究和技術(shù)研發(fā),形成了領(lǐng)先的中文智能語(yǔ)音技術(shù)體系。一方面,他們自己成立智能語(yǔ)音控股公司,形成了真正的產(chǎn)學(xué)研一體化,如中科院自動(dòng)化所的中科模識、中科院聲學(xué)所的中科信利、清華大學(xué)的得意音通。另一方面,他們與企業(yè)結成了廣泛的合作關(guān)系,為其提供技術(shù)支持,如百度與中科院聲學(xué)所在2010年初就聯(lián)合成立了百度—中科院聲學(xué)所聯(lián)合實(shí)驗室。另外,這些科研院所培養出來(lái)的人才也逐漸成為技術(shù)領(lǐng)軍人才,成為產(chǎn)業(yè)發(fā)展的中流砥柱。
圖3 主要傳統語(yǔ)音技術(shù)企業(yè)及其支撐科研院所
資料來(lái)源:工業(yè)和信息化部電子科學(xué)技術(shù)情報研究整理
2010年,科大訊飛推出語(yǔ)音云服務(wù),并憑借在語(yǔ)音識別和語(yǔ)音合成及行業(yè)應用等方面深度的積累,2012年收入7.8億元,其中語(yǔ)音及相關(guān)業(yè)務(wù)收入超過(guò)5.3億元,合作伙伴超過(guò)2000家,語(yǔ)音云用戶(hù)超過(guò)3億。捷通華聲、中科信利、中科模識等企業(yè)具有在語(yǔ)音領(lǐng)域多年的技術(shù)和用戶(hù)積累,是智能語(yǔ)音產(chǎn)業(yè)的中堅力量。捷通華聲是最早成立的智能語(yǔ)音企業(yè)之一,憑借其在語(yǔ)音合成、手寫(xiě)識別等智能人機交互技術(shù)方面的優(yōu)勢,與三大運營(yíng)商、華為、中興等多家企業(yè)達成合作,業(yè)務(wù)領(lǐng)域覆蓋金融、電信、航空等多個(gè)領(lǐng)域。中科模識是中科院自動(dòng)化所的經(jīng)濟實(shí)體,自動(dòng)化所依靠模式識別國家重點(diǎn)實(shí)驗室,在語(yǔ)音識別領(lǐng)域具有近30年的研究歷史。目前有各類(lèi)研發(fā)人員近100多人,研究范圍涉及語(yǔ)音識別、語(yǔ)音合成、對話(huà)管理和理解、多語(yǔ)言翻譯等。中科信利是中科院聲學(xué)所的經(jīng)濟實(shí)體,聲學(xué)所是中國聲學(xué)研究的奠基單位之一。公司目前擁有研發(fā)隊伍130余人、授權發(fā)明專(zhuān)利42個(gè)。公司長(cháng)期專(zhuān)注語(yǔ)音識別研究,注重研究與實(shí)用相結合,除與百度合作之外,還通過(guò)把語(yǔ)音技術(shù)授權給騰訊、阿里巴巴、YY語(yǔ)音、UCweb、聯(lián)想、長(cháng)虹、步步高、諾亞舟、索貝、大洋等客戶(hù),其語(yǔ)音技術(shù)服務(wù)的用戶(hù)群體迅速擴大。
三、IT巨頭強勢進(jìn)入搶占語(yǔ)音信息流入口
伴隨著(zhù)智能語(yǔ)音發(fā)展的熱潮,通過(guò)主導智能語(yǔ)音技術(shù)服務(wù)而擁有信息技術(shù)應用和語(yǔ)音信息流的關(guān)鍵入口成為IT企業(yè)競爭的熱點(diǎn)和焦點(diǎn)。近年來(lái),以谷歌、蘋(píng)果、微軟、百度、騰訊、搜狗為代表的IT巨頭紛紛通過(guò)自主研發(fā)和合作研發(fā)推出自己的語(yǔ)音產(chǎn)品,加大對語(yǔ)音市場(chǎng)的爭奪。
谷歌通過(guò)在語(yǔ)音領(lǐng)域的大力投入,以及其強大的知識圖譜和用戶(hù)積累,在語(yǔ)音市場(chǎng)占據重要位置,并率先掌握了全球語(yǔ)音信息流入口。截至目前,其智能語(yǔ)音技術(shù)在輸入法、語(yǔ)音控制、翻譯、網(wǎng)頁(yè)搜索等應用中進(jìn)行了深度整合,于2010、2011、2012年相繼推出支持語(yǔ)音搜索等功能的Voice Action,Google Now、Google Search、谷歌眼鏡等產(chǎn)品,并開(kāi)放了語(yǔ)音識別的API供開(kāi)發(fā)者使用,在最新推出的Moto X中內置了隨時(shí)待命的語(yǔ)音助理。蘋(píng)果在2011年10月將語(yǔ)音助手Siri作為iPhone 4S的核心功能推出,力圖掌握移動(dòng)互聯(lián)網(wǎng)信息流入口。2013年8月,蘋(píng)果成立自己的語(yǔ)音小組,試圖擺脫對Nuance語(yǔ)音技術(shù)的依賴(lài),代表其正式進(jìn)軍智能語(yǔ)音行業(yè)。微軟將智能語(yǔ)音技術(shù)與Windows操作系統和Windows Phone系統結合,把語(yǔ)音交互作為其核心交互模式,試圖將對信息技術(shù)應用和語(yǔ)音信息流入口掌控從桌面延伸到移動(dòng)互聯(lián)網(wǎng)領(lǐng)域。同時(shí),微軟實(shí)時(shí)語(yǔ)音翻譯軟件已具雛形,可實(shí)現26種語(yǔ)言互譯,這為其搶占全球語(yǔ)音市場(chǎng)占得先機。
國內如百度、搜狗、騰訊等IT巨頭先后涉足智能語(yǔ)音領(lǐng)域,并先后推出自己產(chǎn)品,力爭搶得智能語(yǔ)音信息流入口先機。百度2010年開(kāi)始進(jìn)行智能語(yǔ)音及相關(guān)技術(shù)研發(fā),憑借其強大用戶(hù)積累,用戶(hù)規模迅速擴大。2010年9月,百度基于中科院聲學(xué)所語(yǔ)音識別技術(shù)在國內推出了第一個(gè)基于云端識別的移動(dòng)互聯(lián)網(wǎng)應用--“掌上百度”,拉開(kāi)了移動(dòng)互聯(lián)網(wǎng)語(yǔ)音應用的序幕。2012年12月,百度推出自主研發(fā)的語(yǔ)音助手,截止到2013年6月,其語(yǔ)音搜索用戶(hù)已占其移動(dòng)搜索總用戶(hù)的1/10。2013年8月,百度正式宣布將向開(kāi)發(fā)者開(kāi)放語(yǔ)音生態(tài)系統,此次的開(kāi)放分三個(gè)層次,一是最底層的語(yǔ)音識別技術(shù)應用程序編程接口(API)的開(kāi)放,包括合成技術(shù)、理解技術(shù)、認證技術(shù)、指紋技術(shù)等,開(kāi)發(fā)者可以調用API實(shí)現語(yǔ)音識別功能。二是百度語(yǔ)音助手軟件開(kāi)發(fā)工具包(SDK)開(kāi)放,向開(kāi)發(fā)者提供開(kāi)發(fā)工具包,實(shí)際上是對語(yǔ)音識別標準化服務(wù)進(jìn)行封裝,識別結果做關(guān)鍵詞抽取,搜索結果進(jìn)行結構化數據返回,最終對接服務(wù)和應用。第三層的開(kāi)放主要面向能力弱的開(kāi)發(fā)者,將百度語(yǔ)音助手直接安裝在硬件上即可使用。9月,百度與三星達成合作,將其語(yǔ)音助手內置在智能手表Galaxy Gear上,為其進(jìn)入智能穿戴設備領(lǐng)域奠定了基礎。搜狗于2012年12月正式推出語(yǔ)音助手,成為國內第一家涉足移動(dòng)智能語(yǔ)音服務(wù)領(lǐng)域的搜索廠(chǎng)商。2013年2月,搜狗語(yǔ)音助手聯(lián)合微信開(kāi)發(fā)首款微信語(yǔ)音應用——搜狗語(yǔ)音助手微信版。9月,搜狗語(yǔ)音助手接入搜狗知立方數據。2013年8月,騰訊為進(jìn)一步提升用戶(hù)體驗水平和數據資源整合,在微信5.0中增加語(yǔ)音輸入功能,其語(yǔ)音團隊打造的語(yǔ)音技術(shù)成果正式亮相。隨后,網(wǎng)易聯(lián)合中國電信推出易信,強大的語(yǔ)音功能和優(yōu)質(zhì)的效果成為其主要賣(mài)點(diǎn)之一。
四、中小創(chuàng )業(yè)團隊憑技術(shù)和產(chǎn)品創(chuàng )新快速成長(cháng)
中小創(chuàng )業(yè)團隊借智能語(yǔ)音東風(fēng)趁勢而起,以云知聲、紫冬銳意、光年無(wú)限、聚熵智能為代表的創(chuàng )業(yè)團隊憑借其較強的技術(shù)和產(chǎn)品創(chuàng )新優(yōu)勢迅速成長(cháng),并逐漸在市場(chǎng)中占據重要位置,發(fā)展潛力較大。其中,云知聲作為智能語(yǔ)音領(lǐng)域的新銳企業(yè)快速成長(cháng),依托強大的語(yǔ)音識別和自然語(yǔ)言理解技術(shù),僅一年就推出了自己的語(yǔ)音產(chǎn)品和語(yǔ)音云平臺,與搜狗、樂(lè )視等1000多家企業(yè)展開(kāi)合作,業(yè)務(wù)遍及移動(dòng)互聯(lián)網(wǎng)、車(chē)載、智能電視等多個(gè)領(lǐng)域。紫冬銳意以中國科學(xué)院自動(dòng)化研究所技術(shù)為背景,2012年發(fā)布國內首個(gè)集成中英文語(yǔ)音識別、中英文語(yǔ)音合成、多語(yǔ)言翻譯技術(shù)的“紫冬語(yǔ)音云平臺”,同時(shí)發(fā)布國內首款基于云識別的同聲翻譯軟件——紫冬口譯。聚熵智能、光年無(wú)限等企業(yè)專(zhuān)注于自然語(yǔ)言理解技術(shù)和產(chǎn)品創(chuàng )新,通過(guò)與科大訊飛等傳統語(yǔ)音企業(yè)的合作,迅速搶占市場(chǎng),已經(jīng)在智能語(yǔ)音領(lǐng)域占據重要位置。據易觀(guān)數據,截止2013年5月27日,蟲(chóng)洞語(yǔ)音助手、智能360的累計下載量已分別達到1325.3萬(wàn)、1117.3萬(wàn)。