關(guān)于語(yǔ)音轉寫(xiě)效果,現場(chǎng)一名清華學(xué)生說(shuō)道:這個(gè)語(yǔ)音識別出字快、識別率高,斷句、標點(diǎn)也很準確,不但方便了我們理解學(xué)術(shù)報告的內容和整體邏輯,更是讓現場(chǎng)的聽(tīng)障人士能直接用眼睛來(lái)“聽(tīng)”學(xué)術(shù)報告。

“靈云智會(huì )”語(yǔ)音轉寫(xiě)系統是什么,在現場(chǎng)是怎樣實(shí)現語(yǔ)音轉寫(xiě)實(shí)時(shí)上屏的?捷通華聲現場(chǎng)工程師介紹說(shuō):靈云智會(huì )系統,是以靈云語(yǔ)音識別為核心,具備實(shí)時(shí)語(yǔ)音轉寫(xiě)、實(shí)時(shí)內容校核、實(shí)時(shí)文字上屏功能的智能語(yǔ)音轉寫(xiě)系統,不僅可以應用在各種大型會(huì )議上,也能夠廣泛應用于各種辦公會(huì )議,幫助完成會(huì )議記錄。
關(guān)于現場(chǎng)實(shí)時(shí)語(yǔ)音識別的整體流程,捷通華聲工程師介紹說(shuō),首先,演講者的聲音經(jīng)過(guò)麥克風(fēng)采集,傳輸至聲控臺,聲控臺將聲音送至PC上的靈云智會(huì )系統;然后,靈云智會(huì )系統應用現場(chǎng)服務(wù)器上的靈云語(yǔ)音識別能力平臺,將語(yǔ)音轉寫(xiě)為文字,實(shí)時(shí)反饋至靈云智會(huì )系統;最后,應用靈云智會(huì )系統的上屏展示功能,把文字投到現場(chǎng)的兩塊大屏上。
此次大會(huì )上,靈云智會(huì )系統與人工同傳完美結合,實(shí)現演講內容英中、日中等語(yǔ)言的同聲傳譯與實(shí)時(shí)上屏。通過(guò)靈云智會(huì )系統的輔助,一方面,減輕了同傳人員的工作強度;另一方面,提升了同傳效率,讓參會(huì )人員能更快、更及時(shí)地聽(tīng)到翻譯的內容。
靈云科技 源自清華造頂尖語(yǔ)音技術(shù)
此次大會(huì )上,靈云智會(huì )系統應用的是捷通華聲最新一代靈云語(yǔ)音識別技術(shù)(ASR):在CTC算法的基礎上,對建模單元粗粒度、模型訓練方法、解碼幀率進(jìn)行創(chuàng )新優(yōu)化,有效提升了語(yǔ)音識別引擎的執行效率、魯棒性,增強了對不同口音、語(yǔ)速的適配能力,大幅提升了多人對講、遠場(chǎng)講話(huà)等場(chǎng)景中的語(yǔ)音識別率。
目前,靈云語(yǔ)音識別技術(shù)已支持中文普通話(huà)、英語(yǔ)、粵語(yǔ)、維吾爾語(yǔ)、哈薩克語(yǔ)、藏語(yǔ)安多、藏語(yǔ)康巴、朝鮮語(yǔ)、蒙文、廣東陽(yáng)江話(huà)等多種語(yǔ)言,并針對金融、電信、公檢法、會(huì )議、醫療等領(lǐng)域訓練了專(zhuān)用ASR模型,為行業(yè)客戶(hù)提供識別率更高的ASR能力。
捷通華聲董事長(cháng)張連毅表示,靈云語(yǔ)音識別技術(shù)的重大提升,離不開(kāi)與清華大學(xué)“靈云科技源自清華”的戰略合作。2013年,清華產(chǎn)業(yè)基金投資捷通華聲,共同創(chuàng )建“清華靈云人工智能研究中心”。2018年,捷通華聲與清華海峽研究院共建清華海峽研究院靈云人工智能研究中心,張鈸院士親自?huà)鞄洠鋈窝芯恐行氖紫茖W(xué)家。本次清華國際學(xué)術(shù)會(huì )議實(shí)時(shí)語(yǔ)音轉寫(xiě)的成功,是對清華大學(xué)與捷通華聲科研團隊科研成果的一次完美展現,也是捷通華聲向清華大學(xué)的一次合作成果匯報。
靈云智會(huì ):語(yǔ)音轉錄利器
靈云智會(huì )系統是捷通華聲在政府會(huì )議、公檢法審訊辦案、醫療電子病歷等場(chǎng)景應用中打磨出來(lái)的智能語(yǔ)音轉錄系統,包含豐富的功能:
語(yǔ)音實(shí)時(shí)轉寫(xiě):開(kāi)會(huì )過(guò)程中,發(fā)言實(shí)時(shí)轉寫(xiě),并可在編輯框內實(shí)時(shí)校正修改,實(shí)現會(huì )議內容實(shí)時(shí)上屏與分角色記錄;
離線(xiàn)錄音轉寫(xiě):政府領(lǐng)導外出講話(huà)、司法外出辦案問(wèn)訊、記者采訪(fǎng)等場(chǎng)景的錄音,可直接在靈云智會(huì )系統中轉寫(xiě)為文檔;
語(yǔ)音輸入:安裝在PC上,讓用戶(hù)可以直接通過(guò)麥克風(fēng),進(jìn)行文字輸入,提高辦公效率。
為了進(jìn)一步提升識別率,在行業(yè)客戶(hù)應用中,捷通華聲會(huì )為客戶(hù)提供聲學(xué)模型、語(yǔ)言模型定制訓練服務(wù),快速實(shí)現對行業(yè)術(shù)語(yǔ)、場(chǎng)景環(huán)境噪音的優(yōu)化,為企業(yè)提供專(zhuān)屬、私有化的語(yǔ)音識別能力。
靈云智會(huì )系統已廣泛服務(wù)于大會(huì )會(huì )議、政府辦公會(huì )議、公檢法庭審與辦案、醫療病歷錄入等場(chǎng)景,給辦公帶來(lái)了巨大便利。正如捷通華聲首席科學(xué)家呂士楠先生說(shuō)的,AI技術(shù)不是陽(yáng)春白雪,要實(shí)實(shí)在在服務(wù)國家建設和老百姓生活。捷通華聲董事長(cháng)張連毅也表示:我們AI公司要腳踏實(shí)地,不斷提升算法能力、深入行業(yè)了解需求,開(kāi)發(fā)能夠“落地應用”的產(chǎn)品與方案,為行業(yè)合作伙伴與市場(chǎng)提供更優(yōu)質(zhì)的AI技術(shù)與產(chǎn)品。