引言:蘋(píng)果iPhone 4S的Siri功能推出,可謂是引起了人們對于智能語(yǔ)音技術(shù)的極大關(guān)注。其實(shí),語(yǔ)音技術(shù)非常復雜,表象繁多,本刊通過(guò)采訪(fǎng)國內科大訊飛、國筆等專(zhuān)家對目前的語(yǔ)音市場(chǎng)進(jìn)行梳理和探討。
一、不僅僅是語(yǔ)音,還是人工智能
盡管蘋(píng)果“教主”喬布斯離開(kāi)了我們,盡管iPhone 5沒(méi)有入人們期望的那樣出現,但是iPhone 4S的推出仍然成功吸引了蘋(píng)果粉絲和業(yè)界的所有關(guān)注。根據美國電話(huà)電報公司(AT&T)透露,iPhone 4S在發(fā)布12小時(shí)之內就接到了20萬(wàn)份訂單,而其中最引入注目的一大新功能,就是被稱(chēng)為Siri的語(yǔ)音助手功能。
10月4日上午,蘋(píng)果全球產(chǎn)品副總裁Phil Schiller與負責iOS軟件的副總裁Scott Forstall在新品發(fā)布會(huì )上,隆重介紹了Siri。
什么是Siri?
Forstall在現場(chǎng)進(jìn)行了演示,他拿起iPhone 4S,對手機問(wèn)道:“今天天氣如何?”屏幕上立刻顯示出今天的天氣狀況。他又接著(zhù)問(wèn),我用帶傘嗎?Siri馬上回答,今天會(huì )下雨。隨后,他還用這款應用演示了搜索和設置鬧鐘提、預約等功能。
Siri跟普通的語(yǔ)音搜索不一樣,它能明白你所說(shuō)的,了解你的意思,甚至還能回答你的問(wèn)題。那感覺(jué)就像真正擁有私人助理似的,而且是一位善解人意的私人助理。無(wú)論你用何種方式提問(wèn),它都能以人的思維去思考和反應,而不是以預設的程序答非所問(wèn)。
Siri能為你做的不僅僅是提供答案,它還可以親自替你完成一些基本的事情。比如,你可以吩咐Siri發(fā)短信給你父親、提醒你預約牙醫、幫你查找到達目的地的路線(xiàn),不用擔心Siri不夠聰明,因為它能夠思考完成這些事情需要運行哪些應用程序,還能明白你要打電話(huà)的準確對象。
Siri還包括傳聞中的“語(yǔ)音轉文字”的功能,你只需按下麥克風(fēng),把你想發(fā)送的內容說(shuō)出來(lái),Siri就可以將你所說(shuō)的內容轉換成文字,并發(fā)送出去。除了發(fā)送短信外,Siri還集成到一些第三方應用,這樣,你只需動(dòng)動(dòng)嘴皮子,就能更新Facebook、發(fā)送Twitter消息或者即時(shí)聊天。
如果你認為Siri只是一個(gè)簡(jiǎn)單的聲音控制軟件,而你的Android手機上的語(yǔ)音助手或NOKIA語(yǔ)音提示也可做到這點(diǎn),那你就錯了。
我們不妨探究一下Siri的血統,這家最近剛被蘋(píng)果收購的公司,直接發(fā)端于美國軍方的CALO(Cognitive Assistant that Learns and Organizes)項目,這也是史上最大的人工智能項目,匯聚了全球人工智能方面的頂尖專(zhuān)家。
你如果看過(guò)好萊塢大導演斯皮爾伯格的電影《A I》,相信會(huì )對人工智能有一定了解,通過(guò)人工智能技術(shù),機器人可以把“對話(huà)、自然語(yǔ)言理解、視覺(jué)、演說(shuō)、機器學(xué)習、制定計劃、理性思考、服務(wù)代表全部融合到一起”。Siri的技術(shù)正源自人工智能,而不是簡(jiǎn)單的搜索和語(yǔ)音識別。它能夠自主分析用戶(hù)發(fā)出的口語(yǔ)指令,并給出確切的回應和指導,完全不需要用戶(hù)預選學(xué)習使用方法。
在國外某科技博客錄制的一段視頻中,評測人員對Siri提出了許多含義模糊或有歧義的問(wèn)題。比如:“附近有沒(méi)有什么浪漫的法國餐廳?”,比如:“天空為何是藍色的?”比如“鋼琴上有多少個(gè)八度?”對人類(lèi)而言,這些句子再平常不過(guò)了,但要讓機器去理解這些變化多端的棘手詞匯,尤其是“浪漫”這種形容詞,那就極端困難了,然而這些問(wèn)題Siri都可以回答。
你甚至還可以對Siri表白,對它說(shuō):“我愛(ài)你!”它的回答也很妙:“希望你不會(huì )對其它手機也這么說(shuō)。”
該評測人員隨后在博客中寫(xiě)到:“Android系統的Voice Actions也是一項偉大的技術(shù),但說(shuō)真的,它和Siri不是同一個(gè)層面的產(chǎn)品。Siri非常酷,與之相比Voice Actions雖說(shuō)確實(shí)讓我們省去了打字輸入、觸摸操作的工序,但操作太復雜,只有那些Geek會(huì )使用它。然而,媽媽們會(huì )選擇Siri。”
二、語(yǔ)音技術(shù)的三大種類(lèi)
除了人工智能,Siri的核心功能仍是基于語(yǔ)音識別的語(yǔ)音技術(shù),其語(yǔ)音引擎來(lái)自Nuance,這家公司在全球手機輸入法上處于壟斷地位。
這一技術(shù)并非革 命性的變革,早在計算機發(fā)明之前,自動(dòng)語(yǔ)音識別的設想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語(yǔ)音識別及合成的雛形。而1920年代生產(chǎn)的“Radio Rex”玩具狗可能是最早的語(yǔ)音識別器,當這只狗的名字被呼喚的時(shí)候,它能夠從底座上彈出來(lái)。
近二十年來(lái),語(yǔ)音識別技術(shù)取得顯著(zhù)進(jìn)步,開(kāi)始逐漸從實(shí)驗室走向市場(chǎng)。據了解,許多大公司如IBM、蘋(píng)果、微軟、Google、AT&T和NTT等早在多年前都對語(yǔ)音識別系統的實(shí)用化研究投以巨資。目前主流的語(yǔ)音技術(shù)方案包括IBM公司推出的Via Voice和Dragon System公司的Naturally Speaking, ,Nuance公司的Nuance Voice Platform語(yǔ)音平臺,Microsoft的Whisper,Sun的VoiceTone,以及科大訊飛的口訊等。
電子工程專(zhuān)輯