發(fā)表評論分享按鈕

Siri背后的技術(shù)

2011/10/25

  今年10月,Apple發(fā)布了iphone 4S with IOS 5,其中最大的亮點(diǎn)就是一個(gè)語(yǔ)音搜索軟件-Siri。一時(shí)間,各種geek,偽geek,碼農,非碼農都流行起調戲siri,各種調戲視頻,音頻大量出現。不過(guò),常言道“外行看熱鬧,內行看門(mén)道”,作為一個(gè)“偽內行”,或者“欲做內行而不得”的人,根據自己的知識,以及一些搜索工具,嘗試了解了一下Siri的“門(mén)道”,在這里做個(gè)總結,列出siri所可能用到的技術(shù)。

  Siri是IOS上的個(gè)人助理應用:此軟件使用到自然語(yǔ)言處理技術(shù),使用者可以使用自然的對話(huà)與手機進(jìn)行互動(dòng),完成搜尋資料、查詢(xún)天氣、設定手機日歷、設定鬧鈴等服務(wù)。

  Siri所用到的技術(shù),很多人會(huì )回答,人工智能以及云計算,的確,總體來(lái)說(shuō),是這兩樣技術(shù),不過(guò),這種概述感覺(jué)幾乎沒(méi)有任何意義,和不直接說(shuō)“計算技術(shù)”(注意,不是計算機技術(shù))呢。因此,在本文,我將介紹下我了解Siri可能采用的技術(shù)。

  首先,在前端方面,即面向用戶(hù),和用戶(hù)交互(User Interface,UI)的技術(shù),主要是語(yǔ)音識別以及語(yǔ)音合成技術(shù)。語(yǔ)音識別技術(shù)是把用戶(hù)的口語(yǔ)轉化成文字,其中需要強大的語(yǔ)音知識庫,因此需要用到所謂的“云計算”技術(shù)。而語(yǔ)音合成則是把返回的文字結果轉化成語(yǔ)音輸出,這個(gè)技術(shù)理論上本地就能完成(以前用過(guò)科大訊飛的在windows mobile上的本地語(yǔ)音閱讀軟件,軟件很小,但能讀的很好,還支持方言),但不知道Siri是否如此,當然,在云端完成也并無(wú)不可,在當前無(wú)線(xiàn)帶寬下,那點(diǎn)語(yǔ)音流量根本不算什么。

  其次,后臺技術(shù),這些其實(shí)才是真正的大角色(當然,普通用戶(hù)是不會(huì )在意的,他們只會(huì )覺(jué)得前端很炫,哎,這就是做后端的悲哀,小小感嘆一下)。這些技術(shù)的目的就是處理用戶(hù)的請求,并返回最匹配的結果,這些請求類(lèi)型很多,千奇百怪,要處理好并不簡(jiǎn)單。基本的結構猜測可能是分析用戶(hù)的輸入(已經(jīng)通過(guò)語(yǔ)音轉化),根據輸入類(lèi)型,分別采用合適的技術(shù)(合適的技術(shù)后面)進(jìn)行處理。這些合適的后臺技術(shù)包括,①以Google為代表的網(wǎng)頁(yè)搜索技術(shù);②以Wolfram Alpha為代表的知識搜索技術(shù)(或者知識計算技術(shù));③以Wikipedia為代表的知識庫(和Wolfram Alpha不同的是,這些知識來(lái)自人類(lèi)的手工編輯)技術(shù)(包括其他百科,如電影百科等);④以Yelp為代表的問(wèn)答以及推薦技術(shù)。

  下面,對上面提到的各種技術(shù)進(jìn)行簡(jiǎn)要介紹(如有空,后面的博文可能會(huì )對某些技術(shù)詳細的介紹,大家耳熟能詳的就免了),強調下,介紹的有些參考來(lái)源是維基百科相關(guān)詞條,下面不一一列出:

  語(yǔ)音識別以及語(yǔ)音合成技術(shù)語(yǔ)音識別技術(shù),也被稱(chēng)為自動(dòng)語(yǔ)音識別(英語(yǔ):Automatic Speech Recognition, ASR),其目標是將人類(lèi)的語(yǔ)音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說(shuō)話(huà)人識別及說(shuō)話(huà)人確認不同,后者嘗試識別或確認發(fā)出語(yǔ)音的說(shuō)話(huà)人而非其中所包含的詞匯內容。語(yǔ)音識別技術(shù)所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽(tīng)覺(jué)機理、人工智能等等。

  語(yǔ)音合成是將人類(lèi)語(yǔ)音用人工的方式所產(chǎn)生。若是將電腦系統用在語(yǔ)音合成上,則稱(chēng)為語(yǔ)音合成器,而語(yǔ)音合成器可以用軟/硬件所實(shí)現。文字轉語(yǔ)音(text-to-speech, TTS)系統則是將一般語(yǔ)言的文字轉換為語(yǔ)音,其他的系統可以描繪語(yǔ)言符號的表示方式,就像音標轉換至語(yǔ)音一樣。

  相比于語(yǔ)音識別,語(yǔ)音合成感覺(jué)難度要低,并且基本能夠在本地完成(很多OS都有內置的語(yǔ)音合成引擎)。而語(yǔ)音識別,由于涉及到語(yǔ)義理解,難度大大加大,需要大量的知識庫,一般需要在云端完成。

  另外,在國內,這方面做的很好的公司也有,比如鄙人本科所在學(xué)校的科大訊飛,就是中文語(yǔ)音合成以及識別的領(lǐng)軍企業(yè),在英文語(yǔ)音合成領(lǐng)域其實(shí)也很牛,拿過(guò)很多獎。國外的話(huà),比較早的應該是IBM ViaVoice。

  網(wǎng)頁(yè)搜索技術(shù)這個(gè)我想沒(méi)必要介紹,大家天天用的Google就是這個(gè)技術(shù)的代表。而國內的話(huà),則以百度為代表。

  知識計算(搜索)技術(shù)(Computational Knowledge)這個(gè)技術(shù)的代表是Wolfram|Alpha。

  不同于搜索互聯(lián)網(wǎng)信息,Wolfram|Alpha將從公眾的(包括公開(kāi)的網(wǎng)頁(yè)等)和獲得授權的資源中,發(fā)掘、建立起一個(gè)異常龐大的經(jīng)過(guò)組織的數據庫,再利用高級的自然語(yǔ)言算法進(jìn)行處理,最終構造出一個(gè)類(lèi)似于谷歌搜索的工具。

  和網(wǎng)頁(yè)搜索技術(shù)不同的是,在這個(gè)系統中,得到的答案結構化程度很高,比如搜索China,能得到和中國相關(guān)的各種參數以及資料,并以接近表格的方式呈現。Wolfram|Alpha也能理解部分自然語(yǔ)言,比如輸出How old are you,其會(huì )回答Wolfram|Alpha的年齡。想測試這項技術(shù)的請移步Wolfram|Alpha。

  這個(gè)技術(shù)國內做的應該有,但還沒(méi)有產(chǎn)品,也許百度的框計算算是半個(gè)。所以機會(huì )大大的有。

  知識庫技術(shù)這名字是我自己起的,不知道有沒(méi)有貽笑大方。。。這個(gè)技術(shù)的代表是維基百科,以及各種專(zhuān)門(mén)的百科網(wǎng)站。相比于網(wǎng)頁(yè)搜索技術(shù),基本以一個(gè)詞條或者主題為單位,因此得到的數據價(jià)值高,知識量大,并且結構化程度好。相比于知識計算技術(shù),這些技術(shù)需要人的參與,這有利也有弊,利就是,畢竟暫時(shí)人比機器聰明,編輯出來(lái)的知識更豐富,準確;弊就是,人力有限,即使像維基那樣,發(fā)動(dòng)社區的力量,也不能產(chǎn)生足夠的知識,而知識計算,理論上,只需要算法夠牛叉,是可以產(chǎn)生“無(wú)限”的知識的。

  另外,寫(xiě)到這里,我想起Yahoo和Google的故事,當年,Yahoo是搜索老大,就像現在的Wekipedia在知識搜索領(lǐng)域一樣,而Google是小弟,就像Wolfram|Alpha在知識搜索領(lǐng)域一樣。但后來(lái),卻反過(guò)來(lái)了,Googe成了網(wǎng)頁(yè)搜索老大,Yahoo成了小弟,原因就是Google相信算法的結果,把所有事都交給算法做,而Yahoo,很多索引都是人工編輯的。我想,也許有一天,Wekipedia和Wolfram|Alpha也會(huì )出現這樣的情況。

  問(wèn)答推薦技術(shù)其實(shí)這不能稱(chēng)為一個(gè)技術(shù),應該屬于知識庫的技術(shù)。不同的是,這個(gè)技術(shù)針對的是一些生活信息,這些信息的地域化程度很高,典型代表為Yelp。由于這東西比較簡(jiǎn)單,就不仔細介紹了。

  其實(shí)在國內,這方面的網(wǎng)站也有,那就是大眾點(diǎn)評網(wǎng)這些。

  讀完此文,你也許會(huì )發(fā)現,其實(shí)Siri并沒(méi)有什么革命性的技術(shù),其本質(zhì)是將各種已經(jīng)比較成熟的技術(shù)融合成一個(gè)產(chǎn)品,最終呈現給用戶(hù),因此,完全沒(méi)必要對Siri神圣化。

  另外,Siri其實(shí)是蘋(píng)果買(mǎi)來(lái)的,在蘋(píng)果買(mǎi)來(lái)之前,Siri本來(lái)是會(huì )推出Android版本的,可是,被蘋(píng)果購買(mǎi)后,Android版本的Siri遙遙無(wú)期了(不過(guò),這為廣大的Android開(kāi)發(fā)者以及公司提供了機會(huì ))。而Siri之前默默無(wú)聞,但是一從蘋(píng)果推出,卻聲名鵲起,不得不佩服Apple以及Jobs的眼光以及執行力。

Sigma



相關(guān)閱讀:
Siri10種“非娛樂(lè )”的“正經(jīng)”用法 2011-10-24
蘋(píng)果iPhone 4S銷(xiāo)量達到創(chuàng )紀錄 2011-10-18
Siri語(yǔ)音助手大受歡迎 蘋(píng)果服務(wù)器不堪重負 2011-10-18
蘋(píng)果:Siri語(yǔ)音識別明年將支持5國語(yǔ)言 2011-10-17
回憶喬布斯:不為外界所知的“WiFi教父” 2011-10-17

熱點(diǎn)專(zhuān)題:  語(yǔ)音合成TTS 語(yǔ)音識別ASR    移動(dòng)增值   移動(dòng)互聯(lián)網(wǎng)
分類(lèi)信息:  移動(dòng)增值_與_移動(dòng)互聯(lián)網(wǎng)  移動(dòng)增值_與_CTI文摘  移動(dòng)互聯(lián)網(wǎng)_與_移動(dòng)  CTI文摘_與_移動(dòng)
相關(guān)頻道:  增值電信文摘    
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 周宁县| 苏尼特右旗| 鸡东县| 江口县| 武安市| 长丰县| 汤阴县| 宁夏| 瑞安市| 兴宁市| 九台市| 甘德县| 合肥市| 福清市| 星子县| 大竹县| 布尔津县| 沂源县| 德令哈市| 五家渠市| 登封市| 沂源县| 长治县| 宝山区| 新巴尔虎左旗| 友谊县| 特克斯县| 当雄县| 南木林县| 井研县| 沈丘县| 邳州市| 江口县| 广宗县| 老河口市| 宣城市| 桃园县| 集贤县| 偃师市| 万州区| 东乌珠穆沁旗| http://444 http://444 http://444 http://444 http://444 http://444