聲音具有可跨越障礙物和人群,把握目不可及之處狀況的優(yōu)勢,因此很早之前NEC就開(kāi)始研究聲音識別技術(shù)。然而,當識別范圍很大時(shí),會(huì )混入很多環(huán)境雜音,因此檢測靈敏度和識別精度不高成為一個(gè)課題。
本次開(kāi)發(fā)的“聲音狀況識別技術(shù)”將麥克風(fēng)收集到的目標音與環(huán)境雜音分離開(kāi),使用從目標音中抽取細小構成音的構成音抽取技術(shù)與根據構成音的組合模式判斷事件有無(wú)的事件判別技術(shù),可以從需要辨別的若干事件中判斷正在發(fā)生的狀況(注2)。
NEC通過(guò)“聲音狀況識別技術(shù)”可以監測公共設施、旅游景點(diǎn)等地的犯罪和事故,也可以實(shí)現對老年人的默默守護,總而言之可以在不同環(huán)境下高度感知危險狀況。
值得一提的是,此技術(shù)在國際聲音檢測大賽DCASE2016中,在噪聲(注3)中的日常聲音檢測類(lèi)別榮獲第一名的好成績(jì)。此外,NEC的驗證實(shí)驗也證實(shí),此技術(shù)可以檢測5倍于原來(lái)檢測距離的聲音(注4)。
NEC專(zhuān)注社會(huì )解決方案事業(yè),并強化安全領(lǐng)域的解決方案。今后NEC將通過(guò)提供以此技術(shù)為代表的利用了傳感技術(shù)的產(chǎn)品,為實(shí)現安心、安全、豐富多彩的社會(huì )做貢獻。
背景
近年來(lái),作為安心,安全的舉措,在攝像頭難以拍攝的地點(diǎn)用聲音來(lái)判斷情況的技術(shù)不斷開(kāi)發(fā)改進(jìn)。
原來(lái)的技術(shù)是通過(guò)在不同環(huán)境下大量學(xué)習目標音,從而實(shí)現聲音檢測。然而,在大范圍檢測目標音時(shí),因為混入很多環(huán)境雜音,對于遠處發(fā)生的很小的目標音的檢測精度下降,需要在各個(gè)環(huán)境下學(xué)習目標音等,因而難以導入未知環(huán)境成為課題。
本次開(kāi)發(fā)的“聲音狀況識別技術(shù)”,可以從麥克風(fēng)收集到的聲音中將未知環(huán)境雜音分離,可以高精度的監測不受環(huán)境影響的構成音,并通過(guò)對構成音的組合模式來(lái)判斷是否有事件發(fā)生,從而解決了過(guò)去面臨的課題。

【圖1】聲音狀況識別技術(shù)概要
新技術(shù)的優(yōu)勢
1、可高靈敏地檢測細小聲音的構成音抽取技術(shù)
例如,“玻璃碎了”這種情況發(fā)生的時(shí)候,因環(huán)境而異可能會(huì )發(fā)出“哐當”“啪”“嘭”等聲音。而構成音抽取技術(shù)則可提前學(xué)習麥克風(fēng)采集的聲音,分成“哐”“當”“啪”“嘭”等不受環(huán)境影響的更細小的構成音,將不需要學(xué)習的聲音劃入環(huán)境雜音,從而在不受環(huán)境雜音影響的前提下抽取構成音。
2、可判斷發(fā)生事件性質(zhì)的事件判別技術(shù)
事件判別技術(shù)可以將不受環(huán)境影響的構成音“哐”,“當”“啪”以及“嘭”等組合作為新的事件模式提前學(xué)習,通過(guò)構成音抽取技術(shù)高精度地抽取構成音,并進(jìn)行比對,從而判斷是否出現了目標事件。通過(guò)這種檢測方法,即便是在大范圍內也可以在存在各種雜音的環(huán)境下高敏感度地檢測出微小的聲音,且無(wú)需逐一學(xué)習在不同環(huán)境下的目標聲音,因此可以輕易導入到未知的環(huán)境當中。

【圖2】構成音抽取技術(shù)?事件判別技術(shù)概要
NEC集團致力于在全球范圍內推進(jìn)社會(huì )解決方案,提供安心、安全、高效、公平的社會(huì )價(jià)值,將先進(jìn)的ICT技術(shù)與知識相融合,為實(shí)現更加光明更加豐富多彩的高效社會(huì )盡一份力量。
(注1)

“NEC the WISE”的標志中所蘊含的意義
“NEC the WISE”的標志采用了立體圖形中最簡(jiǎn)單的三角錐體,三角錐體的中心有一個(gè)立方體。銳角的三角錐體作為基礎預示著(zhù)堅固、難以動(dòng)搖,而位于中央的立方體則象征著(zhù)聚集了智慧的AI技術(shù)。該商標的傾斜角度體現了通過(guò)人與人、人與社會(huì )、人與AI技術(shù)的協(xié)調解決所有社會(huì )課題,使其由不穩定轉化為穩定,創(chuàng )造更美好的社會(huì )這一想法。
(注2)無(wú)法識別會(huì )話(huà)的意思。
(注3)IEEE AASP Challenge
Detection and Classification of Acoustic Scenes and Events 2016,
Task2-Sound event detection in synthetic audio
URL:http://www.cs.tut.fi/sgn/arg/dcase2016/
(注4)可實(shí)現將原來(lái)在4m左右的檢測距離擴大到20m,通過(guò)情景模擬演練,確認可以無(wú)縫覆蓋監控攝像頭的設置間隔。