• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁 > 資訊 > 國內(nèi) >
     首頁 > 資訊 > 國內(nèi) >

    語音識別+歌聲合成,思必馳想讓普通人“讀詩成曲”

    2019-04-11 10:31:38   作者:   來源:36kr   評論:0  點擊:



      在小年夜,中央電視臺《經(jīng)典詠流傳》第二季節(jié)目中出現(xiàn)了一款“讀詩成曲”的在線互動小工具,用戶僅需要朗讀一段詩詞,就可以聽到用自己聲音演唱的經(jīng)典詩詞唱段。那這是怎么實現(xiàn)的呢?
      原來,“讀詩成曲”的背后是思必馳提供的個性化歌聲合成算法。歌聲合成技術是語音合成(TTS,即Text to Speech)的衍生品,其關鍵區(qū)別在于韻律預測模型不同。在普通TTS系統(tǒng)中,通常有個韻律模型來根據(jù)句子的內(nèi)容和語調(diào)環(huán)境預測每個音素(音節(jié))的時長和音高曲線。在歌聲合成中,這個韻律模型則更換成由樂譜來預測每個音素(音節(jié))的時長和音高的歌曲韻律模型。最終的生成過程仍然跟語音合成類似,將韻律參數(shù)和頻譜參數(shù)結合,生成歌聲。
      在“讀詩成曲”中,韻律預測模型可以使得機器根據(jù)人說話的語調(diào)合成歌曲,且根據(jù)唱段的韻律和節(jié)奏調(diào)整音調(diào),這又是如何實現(xiàn)的呢?思必馳北京研發(fā)院院長兼副總裁初敏博士告訴36氪:韻律方面,思必馳在原有歌曲韻律模型的基礎上增加了個性化學習技術,結合曲庫和名曲唱段的特征生成相應的韻律曲線,使歌曲韻律特征盡量接近名曲唱段的特點;在語調(diào)方面,思必馳應用了聲學模型的個性化學習技術,使得生成的頻譜參數(shù)盡量接近用戶的聲音,通過將接近用戶的頻譜參數(shù)和接近名曲唱段的韻律參數(shù)結合,就能生成用戶“原聲”唱出的“經(jīng)典”曲調(diào)了。
      36氪注意到,這并非思必馳首次將個性化歌聲合成技術運用于泛娛樂領域,此前在央視節(jié)目《機智過人》中,思必馳團隊的“小馳”機器人就曾用撒貝寧的聲音演唱過《好久不見》。不同于以往,此次“讀詩成曲”則在曲目和參與度上更為開放,支持任何用戶從既定曲庫中自選歌曲,曲庫主要來自節(jié)目第一季、第二季嘉賓的演唱曲目。
      近兩年,語音合成技術進入商業(yè)落地加速期,除BAT大廠紛紛著眼外,此前36氪也曾報道過標貝科技等創(chuàng)業(yè)公司。除了在泛娛樂領域布局,思必馳又會如何將語音合成技術商業(yè)落地呢?據(jù)初敏博士透露,思必馳更多會將語音合成技術與語音識別、口語理解等算法配套,為泛物聯(lián)網(wǎng)領域產(chǎn)品提供全鏈路對話交互方案。
      具體來說,思必馳當前的業(yè)務圍繞四個AI進行整體布局:AIOT、AI芯片、AIBOT、AI生態(tài)。AIOT業(yè)務在泛物聯(lián)網(wǎng)領域(包括智能車載、智能家居、智能玩具/機器人、智能手機等)提供軟件、軟硬一體化、Turnkey一站式等多樣化方案。在車聯(lián)網(wǎng)后裝、智能音箱、兒童平板/故事機、知識機器人等領域市場占有率均第一,在汽車前裝、電視/白電、智能客服等重點領域市場增速領先。未來,思必馳將以“云+芯”戰(zhàn)略方向為主,整合智能終端方案能力與全渠道智慧服務能力,形成AllInOne解決方案,進入酒店、地產(chǎn)、物流、養(yǎng)老、醫(yī)療、教育、安全、社區(qū)等更多行業(yè)。
      據(jù)悉,在語音合成領域,目前思必馳已可以提供標準男女聲、童聲、名人合成音等,在最新推出的DUI平臺VoiceShop中,提供100+特色的高自然度合成音,并為不同廠商提供個性化定制服務打造voice-IP。  在小年夜,中央電視臺《經(jīng)典詠流傳》第二季節(jié)目中出現(xiàn)了一款“讀詩成曲”的在線互動小工具,用戶僅需要朗讀一段詩詞,就可以聽到用自己聲音演唱的經(jīng)典詩詞唱段。那這是怎么實現(xiàn)的呢?
      原來,“讀詩成曲”的背后是思必馳提供的個性化歌聲合成算法。歌聲合成技術是語音合成(TTS,即Text to Speech)的衍生品,其關鍵區(qū)別在于韻律預測模型不同。在普通TTS系統(tǒng)中,通常有個韻律模型來根據(jù)句子的內(nèi)容和語調(diào)環(huán)境預測每個音素(音節(jié))的時長和音高曲線。在歌聲合成中,這個韻律模型則更換成由樂譜來預測每個音素(音節(jié))的時長和音高的歌曲韻律模型。最終的生成過程仍然跟語音合成類似,將韻律參數(shù)和頻譜參數(shù)結合,生成歌聲。
      在“讀詩成曲”中,韻律預測模型可以使得機器根據(jù)人說話的語調(diào)合成歌曲,且根據(jù)唱段的韻律和節(jié)奏調(diào)整音調(diào),這又是如何實現(xiàn)的呢?思必馳北京研發(fā)院院長兼副總裁初敏博士告訴36氪:韻律方面,思必馳在原有歌曲韻律模型的基礎上增加了個性化學習技術,結合曲庫和名曲唱段的特征生成相應的韻律曲線,使歌曲韻律特征盡量接近名曲唱段的特點;在語調(diào)方面,思必馳應用了聲學模型的個性化學習技術,使得生成的頻譜參數(shù)盡量接近用戶的聲音,通過將接近用戶的頻譜參數(shù)和接近名曲唱段的韻律參數(shù)結合,就能生成用戶“原聲”唱出的“經(jīng)典”曲調(diào)了。
      36氪注意到,這并非思必馳首次將個性化歌聲合成技術運用于泛娛樂領域,此前在央視節(jié)目《機智過人》中,思必馳團隊的“小馳”機器人就曾用撒貝寧的聲音演唱過《好久不見》。不同于以往,此次“讀詩成曲”則在曲目和參與度上更為開放,支持任何用戶從既定曲庫中自選歌曲,曲庫主要來自節(jié)目第一季、第二季嘉賓的演唱曲目。
      近兩年,語音合成技術進入商業(yè)落地加速期,除BAT大廠紛紛著眼外,此前36氪也曾報道過標貝科技等創(chuàng)業(yè)公司。除了在泛娛樂領域布局,思必馳又會如何將語音合成技術商業(yè)落地呢?據(jù)初敏博士透露,思必馳更多會將語音合成技術與語音識別、口語理解等算法配套,為泛物聯(lián)網(wǎng)領域產(chǎn)品提供全鏈路對話交互方案。
      具體來說,思必馳當前的業(yè)務圍繞四個AI進行整體布局:AIOT、AI芯片、AIBOT、AI生態(tài)。AIOT業(yè)務在泛物聯(lián)網(wǎng)領域(包括智能車載、智能家居、智能玩具/機器人、智能手機等)提供軟件、軟硬一體化、Turnkey一站式等多樣化方案。在車聯(lián)網(wǎng)后裝、智能音箱、兒童平板/故事機、知識機器人等領域市場占有率均第一,在汽車前裝、電視/白電、智能客服等重點領域市場增速領先。未來,思必馳將以“云+芯”戰(zhàn)略方向為主,整合智能終端方案能力與全渠道智慧服務能力,形成AllInOne解決方案,進入酒店、地產(chǎn)、物流、養(yǎng)老、醫(yī)療、教育、安全、社區(qū)等更多行業(yè)。
      據(jù)悉,在語音合成領域,目前思必馳已可以提供標準男女聲、童聲、名人合成音等,在最新推出的DUI平臺VoiceShop中,提供100+特色的高自然度合成音,并為不同廠商提供個性化定制服務打造voice-IP。
    【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專題

    CTI論壇會員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 正宁县| 垣曲县| 泰和县| 汉阴县| 满城县| 额敏县| 金阳县| 湄潭县| 许昌市| 开化县| 台东市| 湖州市| 丰顺县| 东城区| 宜州市| 寻甸| 泰安市| 茶陵县| 弥勒县| 和田县| 教育| 修水县| 曲阜市| 深圳市| 五华县| 肇庆市| 泰兴市| 晋城| 马鞍山市| 罗源县| 万荣县| 临澧县| 囊谦县| 泽库县| 鄯善县| 石渠县| 新兴县| 绍兴市| 永登县| 德安县| 鹤庆县| http://444 http://444 http://444 http://444 http://444 http://444