在將語(yǔ)音串流進(jìn)入辨識前,需要做雜音抑制處理,如果這部分沒(méi)有處理好,會(huì )降低系統的辨識率;例如在安靜的環(huán)境下,辨識率是很高的,而在雜音較多的地方,是不是也能確實(shí)做到語(yǔ)音識別呢?
如何的保持聲音的品質(zhì)呢?將噪音消除,可以透過(guò)降噪的處理方式,如下圖:

在降噪的技術(shù)里有Feedback ANC及Feed-Forward ANC等等,而這噪音的調校又會(huì )跟本身的機構、麥克風(fēng)的位置、方向是息息相關(guān),缺一不可。
當正確取得聲音串流時(shí),后續就是選擇語(yǔ)音的辨識伺服器,以Google所提供的平臺為例,它提供了一系列的Cloud Speech API,讓使用者可以輕松的應用語(yǔ)音識別的控制。

而將聲音串流錄制并傳送到伺服器及進(jìn)行本地的語(yǔ)音回應輸出、控制;這時(shí)你需要一個(gè)強而有力的控制平臺,想當然爾,大多數會(huì )選擇Linux平臺,可以快速的取得相關(guān)的資源并連結網(wǎng)路,所以在挑選Linux開(kāi)發(fā)平臺時(shí),最重要的要確認平臺是否有持續支援Linux main line,這是一個(gè)非常重要的指標,以確保你的Linux平臺是可以持續的支援新的Linux版本。
Microchip的產(chǎn)品SAMA5D2系列提供Linux開(kāi)發(fā)平臺及及豐富周邊控制模組,讓你可以快速的建立產(chǎn)品應用。而為了縮短使用者的開(kāi)發(fā)時(shí)間,也提供SoM的開(kāi)發(fā)平臺,這可以大大的降低使用者的開(kāi)發(fā)時(shí)間及硬體的設計難度。

未來(lái)全球語(yǔ)音識別市場(chǎng)將會(huì )變得更加多樣化,同時(shí)軟體準確度上會(huì )有大幅提升。
在醫療領(lǐng)域的應用:
不僅是簡(jiǎn)單的通過(guò)智慧手表追蹤運動(dòng)情況和心率,還有直接根據人的身體狀況匹配相應的服務(wù)如合適的餐廳或食物等,當然這些大多是基于穿戴式設備的。另外他們還考慮到更多場(chǎng)景,諸如緊急語(yǔ)音求助,醫患對話(huà)存檔,呼叫中心的對話(huà)聽(tīng)寫(xiě)等。由于醫療領(lǐng)域詞匯庫專(zhuān)業(yè)性強演變性弱,只要建立完整的數據庫,就可以做到對疾病名稱(chēng)、藥品名稱(chēng)相對精確的識別。
在智慧車(chē)載的應用:
行車(chē)安全問(wèn)題上一直聚焦了很多目光,去年有人曾經(jīng)設計出一個(gè)車(chē)載屏幕,可以利用多指的簡(jiǎn)單手勢解決司機操作觸控螢幕過(guò)度分散注意力的問(wèn)題。通過(guò)將車(chē)載平臺與手機連接,可以幫用戶(hù)實(shí)現語(yǔ)音控制GPS導航,訊息收發(fā),電話(huà)接打,社群網(wǎng)路更新等等。