• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>

    安徽中科大訊飛信息科技有限公司總裁劉慶峰專(zhuān)訪(fǎng)

    2004-09-13 14:31:00   作者:   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


    <  劉慶峰博士,中文語(yǔ)音產(chǎn)業(yè)的知名人物。1999年,作為學(xué)生的他傳奇般地創(chuàng )立了科大訊飛,當時(shí)一度成為大學(xué)生創(chuàng )業(yè)的典范,在此后的5年時(shí)間里,使中文語(yǔ)音產(chǎn)業(yè)成為國人的天下,在語(yǔ)音合成(Text To Speech)方面不斷推陳出新,創(chuàng )立了中文語(yǔ)音技術(shù)發(fā)展的一個(gè)又一個(gè)里程碑。科大訊飛也已從幾個(gè)學(xué)生創(chuàng )始的小公司成長(cháng)為規模龐大的中文語(yǔ)音技術(shù)開(kāi)發(fā)基地……

      作者:劉總,您看起來(lái)非常年輕。
      劉:我73年出生的,31歲。

      作者:我們都聽(tīng)說(shuō)您在這行業(yè)是年輕有為,能簡(jiǎn)單地介紹一下您大概的創(chuàng )業(yè)經(jīng)歷嗎?

      劉:我90年進(jìn)中國科技大學(xué),學(xué)的是電子工程系,因為成績(jì)比較好,92年就進(jìn)了中國科技大學(xué)和國家計算機研究開(kāi)發(fā)中心聯(lián)合設立的人機語(yǔ)音通訊實(shí)驗室。95年本科畢業(yè),保送上研究生,那時(shí)就開(kāi)始作為語(yǔ)音合成這個(gè)項目的負責人了。我在本科畢業(yè)論文階段,就在做一個(gè)語(yǔ)音合成的合成器,模擬人發(fā)音的整個(gè)過(guò)程,用數字信號技術(shù)來(lái)處理這個(gè)模型。這個(gè)是我自己獨立設計的,效果挺不錯,參加了863評比,當時(shí)引起了較大的轟動(dòng)。
    95年做語(yǔ)音技術(shù)用參數合成,做到了一般的波型合成的音質(zhì),效果還是很好的。我在那時(shí)就帶些人正式開(kāi)始承擔實(shí)驗室所參加的測試。我在科大本科時(shí)成績(jì)很好,在與數學(xué)、物理相關(guān)的學(xué)科中幾乎都是第一名,又是班長(cháng),本來(lái)是想出國的,但因為對語(yǔ)音合成技術(shù)有濃厚的興趣,就留下來(lái)讀了研究生。98年研究生畢業(yè),當時(shí)科學(xué)院系統最高的榮譽(yù)-中國科學(xué)院長(cháng)獎金特別獎給了我。

      作者:當時(shí)這個(gè)獎金是發(fā)給研究生的?

      劉:是的,是發(fā)給研究生里面學(xué)習和科研都做得最好的學(xué)生。后來(lái)98年參加國際會(huì )議時(shí)也是,在新加坡開(kāi)的首屆國際漢語(yǔ)語(yǔ)音研討會(huì ),我得了唯一學(xué)生最佳論文獎。

      作者:那劉總在讀研究生的時(shí)候有沒(méi)有想過(guò)要出國去發(fā)展,據我所知,中科大的學(xué)生還是相對比較熱衷于出國深造的?

      劉:我當時(shí)出國基礎很好,很多大學(xué)都要我去。可后來(lái)研究生畢業(yè)之所以會(huì )放棄出國,最主要還是看到了產(chǎn)業(yè)化的前景。如果要出國有兩個(gè)選擇,要么去美國幾個(gè)做語(yǔ)音比較好的大學(xué),要么到東京大學(xué),東京大學(xué)做語(yǔ)音是很棒的。無(wú)論去哪里其實(shí)都可能會(huì )跟我原來(lái)的實(shí)驗室形成競爭,這是讓我放心不下的一個(gè)很大的因素。第二個(gè)就是,科大當時(shí)那種開(kāi)放式的研發(fā)體系,不拘一格的研究團隊組合,可以把我們當時(shí)做了一半的想法更快地落實(shí)下去,因為我們在98年863評比時(shí)是第一名,有很好的評價(jià),而且那時(shí)就明確地知道還有很大的余地在后面。第三就是產(chǎn)業(yè)化前景。我記得從96年開(kāi)始,863提倡'頂天立地','頂天'就是核心技術(shù)要做到國際領(lǐng)先,'立地'就是要立足于市場(chǎng),能夠產(chǎn)業(yè)化。當時(shí)我們已經(jīng)開(kāi)始在對外開(kāi)展產(chǎn)業(yè)化合作了,當時(shí)到華為出差一個(gè)多星期,把我們的語(yǔ)音技術(shù)和他們的系統融合,有很大的感觸;98年給福建工商系統做查詢(xún)系統,在把技術(shù)產(chǎn)品產(chǎn)業(yè)化方面得到了很多啟發(fā)。

      我原來(lái)想只做技術(shù),對管理、財務(wù)、市場(chǎng)、銷(xiāo)售這些事情一點(diǎn)興趣也沒(méi)有。我當時(shí)的口號是'要把科大的語(yǔ)音實(shí)驗室做成中國的貝爾實(shí)驗室',把科大一批非常優(yōu)秀的同學(xué)都留下來(lái)了。開(kāi)始只有我一個(gè)人,98年到99年留下了十幾個(gè)人,我做總工組建研發(fā)隊伍。那時(shí)科大BBS站上的六個(gè)版主在訊飛,包括黑客版版主、編程版、還有科大BBS站長(cháng)。我們的創(chuàng )業(yè)團隊,真的是留下了這么一幫很優(yōu)秀、很有沖勁、有激情的人。

      到了98年底感覺(jué)到,一個(gè)新的過(guò)程在被大眾接受時(shí)需要一個(gè)很長(cháng)的過(guò)程,這個(gè)過(guò)程中如果你的產(chǎn)品方向確定不好就是問(wèn)題。

      語(yǔ)言是人們溝通和獲取信息最自然便捷的手段,不管是教育、交通、銀行、電信等等,都能用到語(yǔ)音,如果你每一塊都去做,就象狗熊掰玉米一樣,每樣都沒(méi)有著(zhù)落。我們在語(yǔ)言學(xué)研發(fā)的進(jìn)展還是比較快,參加火炬計劃國家十年展,我們做的是'天音話(huà)王',就是人和電腦對話(huà),在曙光2000CPU、東軟醫療上的應用,都是非常典型的成果。感覺(jué)技術(shù)上做得是挺不錯,又拿了軟博會(huì )的金獎,但是產(chǎn)業(yè)化做的非常累,根本推不出來(lái),到年底時(shí)連發(fā)工資的錢(qián)都沒(méi)有了。所以到1999年大家都說(shuō)你一定要出來(lái)挑頭,我們給自己干,我也覺(jué)得不這么做不行了。最主要是對產(chǎn)業(yè)本身的最前端性的看法你要有,我們提倡的科大訊飛走的道路是創(chuàng )新型的文化。也就是說(shuō)你要比用戶(hù)更了解這個(gè)技術(shù)下一步可能達到什么,哪些東西是有可能做到的;這些可能做到的東西中有哪些是用戶(hù)可能會(huì )接受的,是能夠打動(dòng)消費者的。所以實(shí)際上是開(kāi)發(fā)全新的市場(chǎng),而不是在現有的市場(chǎng)上去增強。這個(gè)就是對技術(shù)趨勢的把握能力和對哪些技術(shù)能打動(dòng)消費者走向市場(chǎng)的把握能力,這兩塊結合起來(lái)是特別重要的。而結合起來(lái)以后,你教育市場(chǎng)需要花費巨大的時(shí)間和精力,另外在全新的產(chǎn)品研發(fā)過(guò)程中的不斷摸索和完善,使得你不可能同時(shí)做非常多的事情,一定要有很清晰的脈絡(luò )和戰略。那時(shí)我就感覺(jué)到,如果由不是非常懂行的人來(lái)領(lǐng)導,不論此人多聰明、多有想法,都是很難的。于是,我們就成立了自己的公司--科大訊飛。

      到99年底選了三家投資方,三百萬(wàn)的公司就變成了估價(jià)五千萬(wàn)。

      有錢(qián)以后首先是把國家863支持了這么多年的語(yǔ)言所、聲學(xué)所這兩塊并起來(lái),請所里我們認為跟我們最有互補、做開(kāi)發(fā)最好的專(zhuān)家成立聯(lián)合實(shí)驗室。

      這么做在當時(shí)也非常符合他們的要求。這兩個(gè)機構本來(lái)要自己做完整的系統,面向市場(chǎng)做銷(xiāo)售,很累。而且他們的研究生畢業(yè)都走了,98、99年微軟、IBM在中國設立研發(fā)中心,把這些機構里的跟語(yǔ)音相關(guān)的研究室、實(shí)驗室連鍋端走,人都挖走。而我們提供了一個(gè)安全的機制,讓他們能安心地從事他們所擅長(cháng)的研究,我們提供研究經(jīng)費,還可以派人協(xié)助他們從事的研究。從基礎上做了有效的整合,使得我們下一步的研發(fā)能夠更快。

      2000年底剛融完資,而我們的收入很少,壓力真的很大。股東方面是要看效益的,希望我們能做些掙錢(qián)的事,我們頂住了,覺(jué)得要做訊飛該做的事情。那正是意氣風(fēng)發(fā)的時(shí)候,我們的人也不多,在安徽本地要做一些信息化建設的項目、系統集成就能掙錢(qián),但我們當時(shí)沒(méi)做,覺(jué)得這不是一個(gè)方向。我們覺(jué)得關(guān)鍵是要有核心技術(shù)和核心產(chǎn)品的突破,我們就提出了'語(yǔ)音平臺戰略'。象Intel提供CPU,大家做各種服務(wù)器和各個(gè)領(lǐng)域的電腦一樣。我們提供語(yǔ)音平臺,讓各行業(yè)熟悉這些行業(yè)應用的、有開(kāi)發(fā)能力的廠(chǎng)商在他們的系統和產(chǎn)品里進(jìn)行推廣。

      到目前為止,股權經(jīng)過(guò)了兩次比較大的變化,一次是99年底,一次是2001年6月份聯(lián)想、Intel的進(jìn)入。在這個(gè)過(guò)程中,我們始終確保了我們的創(chuàng )業(yè)團隊是第一大股東,不光在經(jīng)營(yíng)上是主導,在開(kāi)股東大會(huì )表決確定公司的方向時(shí)我們也是主導。2000年7月,語(yǔ)音平臺終于開(kāi)發(fā)出來(lái)了,在Intel在上海的實(shí)驗室進(jìn)行了測試和優(yōu)化,又通過(guò)了華為的測試。到2000年底,我們的合作伙伴有了50多家。"巨大中華"、Intel、聯(lián)想、上海貝爾阿爾卡特、東軟……全都進(jìn)來(lái)了,大家覺(jué)得我們做的東西跟別人不一樣。2000底我們開(kāi)始逐步扭虧為盈。

      作者:那跟剛才提到的巨頭們合作,是否是完全把你們的語(yǔ)音平臺嵌入到他們的產(chǎn)品里面?

      劉:對。當時(shí)有了50個(gè)開(kāi)發(fā)商,對我們的信心有很大的鼓舞。2001年6月時(shí),開(kāi)發(fā)商有了大約100個(gè)了。那時(shí)正值全球網(wǎng)絡(luò )泡沫破滅,納斯達克股市大跌的時(shí)候。這時(shí)聯(lián)想、Intel和科技部火炬來(lái)投資,還有上海第一的民營(yíng)企業(yè)上海復興。在這個(gè)過(guò)程中,做為語(yǔ)音產(chǎn)業(yè)的領(lǐng)導者和拓荒者的雙重角色是我們始終堅持著(zhù)的原則。

      作者:在您的眼里,其他做語(yǔ)音的企業(yè),比起訊飛來(lái)說(shuō)是要小很多的嗎?

      劉:是的。他們不論從公司規模、研發(fā)投入、市場(chǎng)應用都要小很多,只是在局部領(lǐng)域跟我們有一些競爭。我也并不希望這個(gè)產(chǎn)業(yè)中只有訊飛一家,還是希望能聽(tīng)到更多不同的聲音。

      大家應該在廣闊的應用里百家爭鳴,百花齊放,形成一種良性的合作。國際上對語(yǔ)音行業(yè)是持續關(guān)注的,也是投入了很多精力的,但在中國市場(chǎng)沒(méi)有投入重兵是因為中國市場(chǎng)內有訊飛這樣不易戰勝的對手。目前訊飛在產(chǎn)業(yè)中的地位是確定了。在前五年中,我們的團隊發(fā)展到二百人,在中國科大、中科院聲學(xué)所、社科院語(yǔ)言所建立了三個(gè)聯(lián)合實(shí)驗室。這個(gè)團隊可以說(shuō)是歷經(jīng)了風(fēng)雨,同甘共苦,是非常好的團隊。

      這幾年當中,我們從充滿(mǎn)夢(mèng)想變得理智而腳踏實(shí)地,在創(chuàng )業(yè)過(guò)程中得到磨煉很重要。公司成立之初,華為等IT巨頭正在大張旗鼓地招人。電子計算機領(lǐng)域的人全要,年薪起薪7-13萬(wàn),而我們留下來(lái)的人月薪是1600元。所有的人在99年都簽了三年的勞動(dòng)合同和保密協(xié)議,沒(méi)有一個(gè)人提待遇提福利的。我本來(lái)在98年留下來(lái)時(shí),是想試試看的,還保留了出國的機會(huì )。比如保送我上博士我不愿意,是自己考的,因為考上的博士隨時(shí)可以出國。后來(lái)沒(méi)有走,也有個(gè)很大原因就是因為這個(gè)團隊,因為這些兄弟。

      作者:您在98年后馬上接著(zhù)讀博士,但當時(shí)還是用了很大的精力在語(yǔ)音研發(fā)和公司的運作上。是嗎?

      劉:我讀博士時(shí),我們第二梯隊的研發(fā)還沒(méi)有完全成長(cháng)起來(lái),當時(shí)的關(guān)鍵技術(shù)開(kāi)發(fā)還是由我來(lái)參與的。從02年底到03年開(kāi)始,他們已經(jīng)能夠將研究承擔起來(lái),現在我主要只是把握產(chǎn)品戰略,討論一下研究路線(xiàn),具體的就不參與了。現在從事產(chǎn)業(yè)經(jīng)營(yíng),時(shí)間和精力就不夠了。

      作者:劉總,在語(yǔ)音合成的技術(shù)層面上好象有兩種不同的模式吧。是否能介紹一下?
    劉:一種是參數合成,一種是波形拼接,兩種方法是曲線(xiàn)前進(jìn)的。參數合成就是模擬人的整個(gè)發(fā)音的生理過(guò)程,從腹部出來(lái)的氣流經(jīng)過(guò)聲帶的調整變成脈動(dòng)氣流,經(jīng)過(guò)聲道、牙齒和鼻變成聲音出來(lái),這個(gè)過(guò)程可以用一個(gè)濾波器來(lái)模擬發(fā)音器官。前面肺部的氣流就可以有一個(gè)激勵源,就好象向一個(gè)管子里用鼓風(fēng)機不斷地鼓入不同的東西,管子變化出不同的形狀,聲音就出來(lái)了。語(yǔ)音很大的問(wèn)題是,同一個(gè)字的聲音在不同的語(yǔ)句里,不同的字詞排列,不同的節湊、情況下,發(fā)音都不盡相同。

      要讓一個(gè)機器念出人的聲音來(lái),就好象要蓋一個(gè)大樓,首先是要有一系列的規則,在當前的一句話(huà)里每一個(gè)字、每一個(gè)音節,它的聲調、時(shí)長(cháng)、能量的參數是什么樣,就好象大樓的設計圖紙一樣;

      第二,你要有蓋樓的磚頭,最好是各種初定形狀,有些適合做柱子、有些適合做邊角;

      第三,你要有磚刀,把它切成你圖紙中所需要的各種形狀,最后拼起來(lái)就蓋成大樓了。我們留的那些參數就相當于那些磚頭、原材料,經(jīng)過(guò)一種管子,變成聲音出來(lái)。使用這種方法,在參數中的協(xié)同發(fā)音比較好調節,聽(tīng)起來(lái)會(huì )比較流暢,它基于這種濾波器的模式,很多參數相互之間可以變得很平滑。但是它的缺點(diǎn)是,由參數生成出一個(gè)個(gè)的音節然后拼成的,與原始的音節相比總歸多少會(huì )在音質(zhì)上有一些差距。它的自然度比較好,但聽(tīng)來(lái)音質(zhì)上差一些,有點(diǎn)模糊。

      波形拼接,就是從原始語(yǔ)音中把聲音取出來(lái)直接拼,在聲音剝離上做很小的調整,這種方法的好處是聽(tīng)起來(lái)每個(gè)音都很清楚,但可能會(huì )一字一頓的,自然度比較差。這兩個(gè)方法是可以融合的。最早做語(yǔ)音的首先是用波形拼接,94年中科院聲學(xué)所做得非常好,到95年我們提出了參數合成,得了第一。98年我們基于波形拼接有很多獨特的方法,在國際會(huì )議又拿了最高獎,跟第二名拉出了很大的差距。99年、2000年時(shí),國際上又出現了大語(yǔ)量庫的方法,它就是一種波形拼接,但是它用統計的辦法從海量數據庫里去找。

      我們的語(yǔ)音技術(shù)現在做到超過(guò)一般的講話(huà)人是沒(méi)問(wèn)題,可以達到接近播音員的水平。但是要讓它做得更靈活,比如說(shuō)能夠自動(dòng)地判斷語(yǔ)氣、語(yǔ)調的重點(diǎn),判斷文章的結構,這個(gè)就要涉及到對人類(lèi)高級神經(jīng)活動(dòng)的生理解剖學(xué),這個(gè)突破不了,我們很難做到完整意義上的突破,所以語(yǔ)音要做到跟真人一樣,這個(gè)配套學(xué)科的突破必須要有。但在此之前,我們做到的很多東西已經(jīng)可以使它非常棒了。我們將在今年年底,最遲明年1季度推出一個(gè)新的技術(shù),你對著(zhù)我們的系統講幾分鐘話(huà)后,我們的系統可以模仿你講話(huà),現在國家領(lǐng)導人也很重視。這個(gè)的關(guān)鍵技術(shù)我們在研究,包括摘要跟語(yǔ)言配套的進(jìn)展,我能夠把2萬(wàn)字的內容變成200字的摘要,你先看看有沒(méi)興趣再去看全文。語(yǔ)音技術(shù)的突破一定依賴(lài)于語(yǔ)言技術(shù),這方面我們的進(jìn)展也很快。我們那三個(gè)聯(lián)合實(shí)驗室研究的是更前端性的,訊飛自己有很強的基礎研究中心,主要瞄準未來(lái)一、兩年中馬上將可能用到的東西,同時(shí)消化吸收這三個(gè)實(shí)驗室的東西。

      作者:95、96年時(shí),我就開(kāi)始從事CTI行業(yè),那時(shí)就感覺(jué)到語(yǔ)音識別好象很快就能好了,現在又過(guò)去了近10年,好象還是當初那樣的感覺(jué),沒(méi)有什么本質(zhì)的突破。您能不能再談?wù)務(wù)Z(yǔ)音識別方面的情況?

      劉:語(yǔ)音識別和語(yǔ)音合成這兩個(gè)技術(shù)從關(guān)鍵技術(shù)的突破點(diǎn)上來(lái)說(shuō)有很多的共通的地方。語(yǔ)音合成只要能念出某一個(gè)標準、令人舒服的聲音就行了;如果做對某一個(gè)特定的人的語(yǔ)音識別比較容易做得好,但如果強調的是非特定人的、任意詞匯的、各種噪音環(huán)境下的,這個(gè)就難了。

      語(yǔ)音識別從應用和技術(shù)上可以分為三種類(lèi)型,一種識別就是聲控――命令控制,你說(shuō)出命令,它完成操作。

      第二,身份確認,在一些非高度保密場(chǎng)合,作為一種輔助手段,配合鑰匙的使用,現在也是很不錯了。

      最難的是語(yǔ)音聽(tīng)寫(xiě),你念完后屏幕上就出來(lái)了。現在的語(yǔ)音識別就象一個(gè)小孩子一樣,這個(gè)孩子學(xué)會(huì )了所有的漢字,知道讀音,那么給他一篇文章他能讀出來(lái),但分詞斷句可能會(huì )有錯誤,但大概還是能聽(tīng)得懂。但是你讓他聽(tīng)寫(xiě),特別是專(zhuān)業(yè)文章,他就會(huì )錯得亂七八糟。多音字、新詞匯等等,漢語(yǔ)中存在很多問(wèn)題。如果他只有耳朵和嘴巴,沒(méi)有大腦、知識,他沒(méi)法聽(tīng)寫(xiě)正常,這是第一個(gè)障礙。第二個(gè)障礙是語(yǔ)音聽(tīng)寫(xiě)本身的市場(chǎng)有問(wèn)題,導致這些企業(yè)或者研究機構并沒(méi)有花大力氣去投入。市場(chǎng)需求量不大,軟件盜版問(wèn)題,開(kāi)拓市場(chǎng)的費用,這些都使得大家對這方面的投入持保留態(tài)度。近幾年這項技術(shù)幾乎沒(méi)有什么進(jìn)步,最多就是在詞典庫、在針對特定領(lǐng)域的文本的語(yǔ)料的收集做得好一些。我認為語(yǔ)音識別技術(shù)下一步重點(diǎn)需要突破的是在聲控識別中智能的程度,包括節外詞的處理,和一句話(huà)中關(guān)鍵詞的提取。另外一個(gè)就是面對特定場(chǎng)合的噪音環(huán)境,比如汽車(chē)環(huán)境,或是在一些特定領(lǐng)域的噪音處理,應該作為語(yǔ)音產(chǎn)業(yè)下一步的重點(diǎn)。 作者:在國內做語(yǔ)音的廠(chǎng)商好象不是很多,全國一年總體的市場(chǎng)份額大約是在1個(gè)多億吧?
    劉:我感覺(jué)是的。

    分享到: 收藏

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 岳池县| 永泰县| 通化县| 秭归县| 项城市| 江西省| 凌源市| 宕昌县| 镇远县| 津市市| 锡林浩特市| 古蔺县| 临清市| 嘉祥县| 土默特右旗| 潜山县| 河间市| 德化县| 文成县| 临澧县| 昌邑市| 虎林市| 高青县| 承德市| 独山县| 务川| 旬阳县| 南江县| 瓦房店市| 茌平县| 南华县| 肃宁县| 杭锦旗| 仙游县| 宁都县| 吉安市| 乌拉特后旗| 磐安县| 重庆市| 寻甸| 延边| http://444 http://444 http://444 http://444 http://444 http://444