“今天最后一班從北京開(kāi)往上海的高鐵什么時(shí)候發(fā)車(chē)?”再次遭遇航班取消的A先生,萬(wàn)般無(wú)奈之下掏出手機,對著(zhù)朋友推薦的一款名叫“出門(mén)問(wèn)問(wèn)”的微信公眾賬號發(fā)出了以上求助指令,僅僅數秒鐘,“出門(mén)問(wèn)問(wèn)”給予了備選答案。
這只是移動(dòng)互聯(lián)掀開(kāi)的語(yǔ)言浪潮里瑣碎的日常情景之一。
每天,數以?xún)|計的語(yǔ)音信息,通過(guò)語(yǔ)音識別技術(shù)被機器轉化為文字;它們中的一部分,又以機器學(xué)習的方式,被解析出具體的意義,在人機交互中,為用戶(hù)的語(yǔ)音搜索提供答案。
據統計,Google25%的移動(dòng)搜索結果來(lái)自語(yǔ)音,這一比例在百度亦突破10%;在Siri前后涌現的一批第三方語(yǔ)音助手,正在迅速占領(lǐng)國內智能終端,為用戶(hù)提供各式信息查詢(xún)服務(wù)和類(lèi)Siri的簡(jiǎn)單娛樂(lè )功能;而在智能電視、導航、語(yǔ)言學(xué)習等領(lǐng)域,遠離大眾視線(xiàn)的語(yǔ)音公司正在提供最基礎的技術(shù)支持。
然而,在長(cháng)達半個(gè)世紀關(guān)于人工智能的構想中,智能語(yǔ)音的到來(lái)卻著(zhù)實(shí)顯得有些姍姍來(lái)遲。
最關(guān)鍵的助推力來(lái)自云的成型。“過(guò)去,龐大的計算量構成了識別準確率提高的門(mén)檻,也限制了識別的應用場(chǎng)景(往往只能是專(zhuān)用領(lǐng)域),而現在的云端計算、移動(dòng)互聯(lián)網(wǎng)等終端的便捷接入,使語(yǔ)音識別越來(lái)越成為一種普遍服務(wù)能力”,關(guān)注人臉識別、語(yǔ)音分析等人工智能技術(shù)的聯(lián)想之星執行董事劉維向記者表示。
在中國工業(yè)和信息化部披露的未來(lái)三到五年規劃中,智能語(yǔ)音技術(shù)和產(chǎn)業(yè)推進(jìn)作為工作重點(diǎn),“智能語(yǔ)音真正成為移動(dòng)互聯(lián)網(wǎng)入口”被官方正式提出。
不過(guò),對于行業(yè)內的創(chuàng )業(yè)者們而言,如何將創(chuàng )新技術(shù)帶向市場(chǎng),則是一場(chǎng)曠日持久的戰役。從最早登上資本市場(chǎng)的科大訊飛,到后起的分布于語(yǔ)音識別和語(yǔ)義分析環(huán)節上的大小公司,難免在2B和2C的商業(yè)模式之間抉擇掙扎。是做橫向的技術(shù)服務(wù)商,還是做縱深的產(chǎn)品提供者?入口當前,語(yǔ)音鏈條上的各家企業(yè)該如何破解產(chǎn)業(yè)化難題?
識別之困
走在北京海淀某高校的校園里,你可能會(huì )被人冷不丁地叫住,邀請你用自己的鄉音,照著(zhù)本子,對著(zhù)他手里的移動(dòng)設備,念一段日常生活的對白。
同樣的一幕,換不同的文本,重復成百上千次。這看似“笨重”的工作,卻是智能語(yǔ)音流水線(xiàn)的開(kāi)端。
在語(yǔ)音技術(shù)公司云知聲正式成立前半年,在招兵買(mǎi)馬的同時(shí),基礎語(yǔ)音數據的積累已經(jīng)借由外包公司悄然開(kāi)展。而這些線(xiàn)下采集的珍貴的海量數據,能夠為機器提供更多模擬學(xué)習的樣本。
云知聲聯(lián)合創(chuàng )始人、CEO梁家恩將語(yǔ)音識別的過(guò)程描述為:“通過(guò)麥克風(fēng)捕捉用戶(hù)發(fā)出的聲音,將聲波信號轉換成機器可以處理的‘發(fā)音特征’,再結合發(fā)音詞典和匯集各類(lèi)詞匯排列組合的語(yǔ)言模型,比對搜索出最接近聲音波形的句子”。簡(jiǎn)要地說(shuō),機器不必理解句子的意思,就能將語(yǔ)音自動(dòng)轉化為準確的文字。
這是語(yǔ)音技術(shù)需要攻破的第一關(guān)隘。在國內,從事語(yǔ)音識別技術(shù)的創(chuàng )業(yè)者大致分為兩個(gè)“門(mén)派”,一派來(lái)自清華,另一派來(lái)自中科院。梁家恩所在的中科院自動(dòng)化所從上世紀80年代起致力于語(yǔ)音領(lǐng)域的研究,與清華幾乎同時(shí)起步。而據一位業(yè)內人士撰文估計,全國從事語(yǔ)音技術(shù)的專(zhuān)業(yè)人才不超過(guò)一百人。
梁家恩在大學(xué)階段即見(jiàn)證了“同門(mén)”科大訊飛的崛起。而在移動(dòng)互聯(lián)網(wǎng)爆發(fā)之前,科大訊飛和捷通華聲聚焦于語(yǔ)音合成領(lǐng)域,這項在二戰后廣為使用的技術(shù),讓機器可以念出文本,但隨后,科大訊飛又聚焦于語(yǔ)音識別。
不懼科大訊飛和其他眾多語(yǔ)音搜索類(lèi)勁敵,云知聲憑借一套被稱(chēng)作深度神經(jīng)網(wǎng)絡(luò )的核心技術(shù),迅速站穩腳跟。這項技術(shù)增強了在口音和噪音環(huán)境下的識別效果,可以單獨將識別錯誤率下降30%以上。而思必馳也使用深度神經(jīng)網(wǎng)絡(luò )技術(shù)實(shí)現了語(yǔ)音識別性能的提升,百度亦在今年年初專(zhuān)門(mén)成立了深度神經(jīng)學(xué)院對此進(jìn)行研發(fā)。
在梁家恩看來(lái),語(yǔ)音識別的好處在于統計框架的完整性,“算法和框架在學(xué)術(shù)界都是公開(kāi)的,并沒(méi)有太大差異”,但在這個(gè)情況下,要進(jìn)一步做好只能憑硬功夫,“一樣的系統架構,實(shí)驗室環(huán)境下朗讀做到90%識別率容易,但在海量用戶(hù)和實(shí)用環(huán)境下做到90%的難度還是相當的高”,梁家恩告訴記者。
理解之惑
“如果只有語(yǔ)音識別,我們最多實(shí)現了聊天,”梁家恩說(shuō),“加上語(yǔ)義理解才能跟真正的業(yè)務(wù)掛鉤。”
在語(yǔ)音產(chǎn)業(yè)的下游,語(yǔ)義分析可以所是語(yǔ)音識別的接力。簡(jiǎn)要地說(shuō),語(yǔ)義分析是對輸入的句子進(jìn)行分析,理解句子的邏輯關(guān)系,并根據邏輯關(guān)系構造用戶(hù)需要的反饋結果。語(yǔ)義分析應用的經(jīng)典形式是問(wèn)答或對話(huà)需要先理解用戶(hù)的輸入,然后生成答案,或者生成需要用戶(hù)補充的問(wèn)題。
“旅游垂直搜索去哪兒是由用戶(hù)填表格,自然語(yǔ)義分析是替用戶(hù)直接把表格填了”,出門(mén)問(wèn)問(wèn)創(chuàng )始人李志飛打了個(gè)比方。語(yǔ)義分析將文字轉化成標準化的表格,利用開(kāi)放API的數據支持,對接垂直的搜索。
李志飛畢業(yè)于約翰霍普金斯大學(xué)語(yǔ)言語(yǔ)音處理實(shí)驗室(CLSP),在獲得紅杉資本和真格基金投資、確定回國創(chuàng )業(yè)之前,他在谷歌研究院開(kāi)發(fā)谷歌翻譯產(chǎn)品,其博士研究方向正是人工智能分支之一的機器翻譯領(lǐng)域。
李志飛指出,聲音的被理解和被識別所面臨的技術(shù)問(wèn)題是迥然相異的。對語(yǔ)音識別來(lái)說(shuō),最大的問(wèn)題是噪音,不同場(chǎng)景中的環(huán)繞聲和不同人群使用的方言,聲音信號千變萬(wàn)化。而語(yǔ)義分析的難點(diǎn)在于,同樣意思的句子,有著(zhù)各種不同的用詞和語(yǔ)序,“比如南方航空公司和南航,上海和魔都”。
師從國內語(yǔ)義分析專(zhuān)家、北京交通大學(xué)賀仲雄先生的蟲(chóng)洞CEO俞志晨告訴記者,語(yǔ)義分析的技術(shù)路線(xiàn)分為兩種:一是靠規則庫做匹配,把語(yǔ)言規則化以后進(jìn)行配對;另一種是依靠機器學(xué)習的方式,通過(guò)智能網(wǎng)絡(luò ),訓練算法。“而一個(gè)成熟的語(yǔ)音產(chǎn)品一定會(huì )使用后者”,他表示,不過(guò),在早期階段往往采用兩者結合的方式。
但同處語(yǔ)義分析環(huán)節,兩位創(chuàng )業(yè)者卻選擇以不同的方式抵達用戶(hù)。
早期定位于實(shí)用性功能搜索查詢(xún)的蟲(chóng)洞,在Siri出現后受到啟發(fā),以對話(huà)的交互方式串聯(lián)了原有的一系列功能。俞志晨認為,查詢(xún)信息是一場(chǎng)連貫的過(guò)程,需要不斷反饋和交互,才能得到準確的信息,而用戶(hù)也希望在說(shuō)完后得到有人情味的回答。
而李志飛讓出門(mén)問(wèn)問(wèn)回避了Siri式的對話(huà)“調戲”場(chǎng)景,用戶(hù)一次語(yǔ)音換一個(gè)答案。他的理由是,人們在對話(huà)中會(huì )反問(wèn)很多問(wèn)題,甚至把機器當作自然人與之聊天。“對話(huà)管理是下一階段。現在先弄清楚一句話(huà)本身是什么意思這是基本功”,李志飛說(shuō)。
劉維表示,從技術(shù)上講,為了讓機器理解人的語(yǔ)言,確實(shí)需要從語(yǔ)音到文本、文本到理解兩個(gè)部分,但如果這兩個(gè)環(huán)節割裂開(kāi)來(lái)處理,很難真的理解自然語(yǔ)言。
對風(fēng)險投資者來(lái)說(shuō),語(yǔ)音市場(chǎng)的爆發(fā)有賴(lài)于兩個(gè)環(huán)節基本技術(shù)的共同成熟。劉維認為,只有這樣,才能從更高的層面,也就是人機對話(huà)系統的層面,整合兩個(gè)技術(shù)、更加人工智能的去通過(guò)多輪次對話(huà),反復和用戶(hù)交流,真正去理解用戶(hù)的自然語(yǔ)言,而不是簡(jiǎn)單的“語(yǔ)音聽(tīng)寫(xiě)”和“文本搜索”。
模式之爭
對于一個(gè)技術(shù)密集的語(yǔ)音行業(yè)來(lái)說(shuō),需要攻克的不只是技術(shù)難題,而更具挑戰性的當屬市場(chǎng)的開(kāi)拓。
在Siri讓更廣闊的人群了解語(yǔ)音的面容之前,一些先行者已經(jīng)開(kāi)始從行業(yè)應用率先尋找語(yǔ)音市場(chǎng)的“登陸點(diǎn)”。
教育領(lǐng)域或許是第一個(gè)兵家必爭之地。
在自動(dòng)化所的五年時(shí)間里,從事語(yǔ)音識別核心技術(shù)研發(fā)的梁家恩,就和同事們共同開(kāi)發(fā)了一套英語(yǔ)口語(yǔ)評估系統。
而在歐亞大陸的另一端,高始興和幾位劍橋大學(xué)的師生聯(lián)合創(chuàng )辦的思必馳公司,也將海外漢語(yǔ)口語(yǔ)教育作為首塊戰場(chǎng)。整套語(yǔ)音識別、合成和評測技術(shù),配上高漲的語(yǔ)言學(xué)習熱情和時(shí)興的資質(zhì)考試,聽(tīng)上去頗有默契、順理成章的商業(yè)模式。
但思必馳的實(shí)踐并不順利,高始興發(fā)現,在一個(gè)初生的市場(chǎng),關(guān)鍵并不在于“技術(shù)有多好”,“實(shí)際上,用戶(hù)對技術(shù)的理解還隔著(zhù)好幾層”。
2008年,分散而捉摸不定的漢語(yǔ)口語(yǔ)市場(chǎng)讓思必馳折戟回國,重新選擇以英語(yǔ)口語(yǔ)評測為切口,開(kāi)始二次創(chuàng )業(yè),以第二代智能語(yǔ)音分析和人機對話(huà)技術(shù)為基礎,思必馳在國內首次實(shí)現了針對對話(huà)交流能力的評測,并成為國際上第一個(gè)為英語(yǔ)考試口試提供完整機器評測的語(yǔ)音公司。
當思必馳為新東方等英語(yǔ)教育公司開(kāi)發(fā)出人機對話(huà)的口語(yǔ)學(xué)習系統時(shí),梁家恩的評估系統卻賣(mài)給了語(yǔ)音行業(yè)的龍頭企業(yè)科大訊飛。而在今年6月25日,科大訊飛以自有資金4.8億元收購廣東啟明科技,收購溢價(jià)達580%,后者又是一家口語(yǔ)考試測試系統提供商。
顯然,競爭日趨激烈的教育行業(yè)已無(wú)法承擔全部的登陸重任。思必馳正悄然將基于深度神經(jīng)網(wǎng)絡(luò )的語(yǔ)音識別和語(yǔ)音合成等技術(shù)應用在車(chē)載系統等智能設備領(lǐng)域。“車(chē)載天然以語(yǔ)音交互為主”,俞志晨亦預測,車(chē)載導航和穿戴式設備將是語(yǔ)音行業(yè)中早期的市場(chǎng)爆發(fā)點(diǎn),蟲(chóng)洞選擇與深圳樂(lè )投等相關(guān)公司合作開(kāi)發(fā)語(yǔ)音。
而上述一切儲備,似乎都為語(yǔ)音在移動(dòng)互聯(lián)端的登陸做出預演。人們可以數出應用市場(chǎng)、瀏覽器、APP和手機桌面四個(gè)已經(jīng)成型的移動(dòng)互聯(lián)入口,語(yǔ)音則是呼聲日漸高漲的入口候選者。
對于完全誕生在移動(dòng)互聯(lián)時(shí)代的出門(mén)問(wèn)問(wèn)而言,先行者們的路徑,顯然并不用過(guò)多參考。從今年4月起,為微信用戶(hù)提供生活服務(wù)查詢(xún)的出門(mén)問(wèn)問(wèn)公眾號,以每月數倍的增長(cháng),迅速累計起超過(guò)10萬(wàn)的用戶(hù),成為微信官方推薦的十大應用之一,遠超其早一月上線(xiàn)的Android移動(dòng)端。