首頁(yè)>>廠(chǎng)商>>語(yǔ)音識別與合成>>得意音通

鄭方:產(chǎn)學(xué)研合作肩負標準與產(chǎn)業(yè)重任

鄭方 2006/02/24

  比爾·蓋茨在1999年出版的《未來(lái)時(shí)速》一書(shū)中曾經(jīng)預測,人類(lèi)計算的未來(lái)是讓計算機能夠看、聽(tīng)、學(xué),能用自然語(yǔ)言與人類(lèi)進(jìn)行交流。他的話(huà)正逐步成為現實(shí)。

擺在眼前的問(wèn)題

  我們經(jīng)常會(huì )遇到這樣一些問(wèn)題:QQ一下、短信一下,單純的文字交流已經(jīng)不能滿(mǎn)足需求,于是視頻聊天、攝像手機開(kāi)始流行;面對著(zhù)每天上G、上T字節的信息,如何快速搜索有用的信息?google一下、百度一下,幾萬(wàn)甚至幾十萬(wàn)條信息,通常能瀏覽的大概不到100條,于是人們希望精細查找;2008年奧運會(huì )即將到來(lái),學(xué)英語(yǔ)的浪潮正在席卷,然而更多的語(yǔ)種就需要機器翻譯……

  這些關(guān)乎中文語(yǔ)言理解技術(shù)應用的需求日趨高漲。

  除了有關(guān)語(yǔ)言理解內容方面的應用之外,在2005年國際中文語(yǔ)言資源聯(lián)盟年會(huì )上,清華大學(xué)信息技術(shù)研究院副院長(cháng)、CCC理事長(cháng)、北京得意音通技術(shù)有限責任公司董事長(cháng)鄭方教授還提到關(guān)于內容安全的問(wèn)題。首先,內容在傳播過(guò)程中,我們怎么保證有用的信息不被沒(méi)有授權的人獲取;其次,一些有害的信息,甚至一些危險的信息,我們怎么能夠過(guò)濾掉。這是一個(gè)非常大的問(wèn)題。現在,在網(wǎng)上傳播的一些信息讓用戶(hù)很煩,包括垃圾郵件。而我們用簡(jiǎn)單的方法過(guò)濾出這些信息往往達不到一個(gè)有效的效果,有的時(shí)候把一些有用的email、有用的網(wǎng)頁(yè)都擋在門(mén)外,實(shí)際上這樣的結果是我們非常不希望的。為什么會(huì )這樣呢?是因為我們沒(méi)有真正理解這個(gè)email,也沒(méi)有真正理解這個(gè)網(wǎng)頁(yè)它所要表達的內容,到底是反對某個(gè)事情,還是支持某個(gè)事情。如果我們通過(guò)語(yǔ)義的理解,知道這點(diǎn),那就可以做到有的放矢,有用的、有利的、安全的我就讓它過(guò);相反就把它阻止在外面。以上講到的是怎么去防止的問(wèn)題;哪些人可以對這個(gè)信息進(jìn)行存取,哪些人不能,這涉及生物認證技術(shù)。聲紋技術(shù)可以做到進(jìn)行“真實(shí)自我和真實(shí)意思”的判斷。眾所周知,生物特征是不能被借走和偷走的,它展示的是“真實(shí)自我”,而利用語(yǔ)言中所包含的韻律等信息,就可以對“真實(shí)意思”做出判斷。

  這些就是目前中文信息處理產(chǎn)業(yè)要解決的一些問(wèn)題。這些問(wèn)題來(lái)自產(chǎn)業(yè)界的一些需求,也來(lái)自國家戰略的一些需要,而這些需求的滿(mǎn)足,正是中文信息產(chǎn)業(yè)的機遇所在。

觸手可及的商機

  鄭方教授在主題演講《發(fā)揮產(chǎn)學(xué)研通道優(yōu)勢,開(kāi)展自主創(chuàng )新活動(dòng),推動(dòng)中文信息產(chǎn)業(yè)發(fā)展》中充分論證了中文信息處理產(chǎn)業(yè)發(fā)展的商機。7億電話(huà)用戶(hù)的規模,2178億條的短信量和58.8%的增長(cháng)率……這些數據的背后是龐大的市場(chǎng)機遇。

  鄭方以?xún)蓚(gè)行業(yè)為例向與會(huì )者介紹了技術(shù)的增長(cháng)趨勢。國際生物集團提供了一個(gè)未來(lái)生物識別市場(chǎng)的預測,2005年達到21億美元,2007年將達到40億美元。在這里面,各種不同的生物特征,分別占據不同的比例。其中,2003年聲紋識別應用占了4.1%的比例,這個(gè)比例不是很大,但是2004年就上升到了6%。IBG集團曾經(jīng)預測,到2007年,聲紋識別應用可以占到10%,可見(jiàn)數據增長(cháng)速度還是比較快的。

  再從商業(yè)模式的方面來(lái)看。在1980年到1995年之間,主要是門(mén)禁系統和PC的登錄方面應用比較多;從1995年到2005年,在信息系統的身份認證方面比例增加,增長(cháng)速度也比較快;但從2005年開(kāi)始,網(wǎng)絡(luò )用戶(hù)身份的驗證,就逐漸占據主要的、顯著(zhù)的地位了。眾所周知,網(wǎng)絡(luò )用戶(hù)之間可以對話(huà),可以就各種問(wèn)題進(jìn)行討論,但是,彼此之間卻不知道對方是誰(shuí)。因此,“用聲音去判別身份”成為互聯(lián)網(wǎng)用戶(hù)驗證的手段,同時(shí)為中文語(yǔ)音的發(fā)展帶來(lái)很大的空間。

  語(yǔ)言理解也是一樣。搜索引擎的企業(yè)數量和市場(chǎng)規模快速增長(cháng),到2006年,市場(chǎng)規模可達到24億元,增長(cháng)速度很快。其中,面向行業(yè)的垂直搜索目前正在逐步引起業(yè)界的重視,相比而言,垂直搜索也更容易與中文語(yǔ)言處理技術(shù)互相促進(jìn),共同發(fā)展。因為垂直搜索,可以把中文語(yǔ)言理解技術(shù)限定到特定領(lǐng)域,有針對性地去理解用戶(hù)的需求。

  產(chǎn)業(yè)發(fā)展的商機已經(jīng)勢不可擋,從國家戰略來(lái)看,中文信息處理產(chǎn)業(yè)也是符合國家中長(cháng)期規劃提出的科技發(fā)展的指導方針“自主創(chuàng )新、重點(diǎn)跨越、支撐發(fā)展和引領(lǐng)未來(lái)”。正是在這樣天時(shí)、地利、人和的條件之下,中文信息產(chǎn)業(yè)作為“中國信息產(chǎn)業(yè)中為數不多的、跨國企業(yè)未能壟斷、而民族企業(yè)的技術(shù)水平與國際先進(jìn)水平相當的領(lǐng)域之一”,發(fā)展適逢其時(shí)。

產(chǎn)、學(xué)、研通道建設

  盡管產(chǎn)業(yè)機遇當前,但是問(wèn)題不容忽視。鄭方教授指出,在一些科研活動(dòng)和市場(chǎng)活動(dòng)中我們發(fā)現,中文信息處理面臨著(zhù)自主創(chuàng )新成果和產(chǎn)業(yè)開(kāi)發(fā)之間的嚴重脫節。一方面,一些科研成果缺少產(chǎn)業(yè)化的考慮,好多教授、專(zhuān)家在大學(xué)、研究所做的一些成果追求的是高、精、深,追求的是學(xué)術(shù)水平,但是往往脫離產(chǎn)業(yè)需求;另一個(gè)方面,企業(yè)缺乏創(chuàng )新能力。更重要的是,科研機構與企業(yè)之間缺乏溝通的渠道與機制。“國家在中長(cháng)期規劃里面講的‘以企業(yè)為主體的自主創(chuàng )新’,這不應該僅僅停留在口號上,我們必須有一種機制有一種渠道來(lái)做保證。很顯然,產(chǎn)、學(xué)、研的通道就是最好的一個(gè)實(shí)現途徑。”鄭方說(shuō)。

  國際中文語(yǔ)言資源聯(lián)盟的成立,就是為科研機構和企業(yè)之間提供一個(gè)無(wú)縫的交流和合作的平臺。作為聯(lián)盟理事長(cháng),鄭方始終強調產(chǎn)學(xué)研通道建設對于中文信息處理產(chǎn)業(yè)發(fā)展的重要性。通過(guò)聯(lián)盟內成員的合作,目前,聯(lián)盟成員共同承擔公安與邊防領(lǐng)域的課題,應用于司法鑒定、技術(shù)偵查、2008年新版護照等重要領(lǐng)域;聯(lián)盟成員合作推出了多款聲紋認證加密鎖;聯(lián)盟成員通力合作推出了國際首創(chuàng )的中文互動(dòng)短信服務(wù)、無(wú)線(xiàn)智能歌曲搜索業(yè)務(wù)、航班信息查詢(xún),為手機用戶(hù)和互聯(lián)網(wǎng)用戶(hù)提供功能強大的智能信息服務(wù),開(kāi)創(chuàng )了智能互聯(lián)網(wǎng)的新領(lǐng)域,這些產(chǎn)品都是已經(jīng)在中國移動(dòng)正式使用的。

  聯(lián)盟從2004年3月成立,到2005年,數據庫規模翻了一番。雖然從絕對數字上看不是很多,但語(yǔ)音和語(yǔ)言數據庫的創(chuàng )建是非常花時(shí)間,也非常花財力、物力的,因此,實(shí)現數據庫數量翻一番是得到很多聯(lián)盟成員支持的結果,也是得到海淀區支持的結果。另外,目前還有3個(gè)仍在開(kāi)發(fā)的巨型說(shuō)話(huà)人識別數據庫,這些數據庫都是萬(wàn)人規模的。

  “未來(lái)我們要以促進(jìn)標準和產(chǎn)業(yè)的發(fā)展作為己任,首先是中文語(yǔ)音交互標準工作組。聯(lián)盟成員負責或參與起草的有三個(gè)標準:語(yǔ)音識別(參與起草)、數據庫及標注(負責起草)、聲紋識別(負責起草)。我們對標準的起草工作非常重視。另一方面,就是通過(guò)舉辦技術(shù)與應用培訓、與國內及國際性的專(zhuān)業(yè)協(xié)會(huì )進(jìn)行產(chǎn)業(yè)聯(lián)盟等多方面的接觸與交流;通過(guò)發(fā)布聯(lián)盟網(wǎng)站,提供了聯(lián)盟成員之間交流合作、資源共享、形象宣傳、成果推廣等,促進(jìn)產(chǎn)業(yè)的發(fā)展。”鄭方說(shuō)。新的機遇等待著(zhù)聯(lián)盟中產(chǎn)學(xué)研商各方的共同努力和推進(jìn)。

得意音通公司供稿 原文刊登在科學(xué)網(wǎng)



相關(guān)鏈接:
得意珠三角綜合智能信息增值平臺項目中標 2009-08-20
北京軟件產(chǎn)品質(zhì)量檢測檢驗中心對《海量語(yǔ)音文件的目標說(shuō)話(huà)人篩選系統》進(jìn)行測試 2009-06-25
廣東政府和清華大學(xué)舉行了全面開(kāi)展產(chǎn)學(xué)研合作協(xié)議簽約儀式 2009-06-25
得意中文整句輸入法V1.0開(kāi)源for Windows Mobile5.0 2009-01-23
得意聲紋識別VPR4.0_b20080808新版本發(fā)布 2008-08-27

相關(guān)頻道:           文摘   技術(shù)_語(yǔ)音識別_文摘
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 浮梁县| 抚顺市| 忻州市| 喀喇沁旗| 定兴县| 余姚市| 湖口县| 永仁县| 武夷山市| 乡城县| 黎川县| 噶尔县| 玛纳斯县| 诸城市| 五指山市| 青河县| 西盟| 呼和浩特市| 迭部县| 怀宁县| 闽清县| 昌邑市| 梅河口市| 鄂伦春自治旗| 威信县| 洱源县| 湛江市| 永春县| 峨山| 青岛市| 宁南县| 卫辉市| 紫云| 南雄市| 博客| 体育| 莲花县| 江门市| 沐川县| 高淳县| 兴城市| http://444 http://444 http://444 http://444 http://444 http://444