根據New Scientist的報導,谷歌正以自動(dòng)化的爬梳技術(shù)建置全球最豐富的知識資料庫Knowledge Vault,且計畫(huà)在下周於紐約舉行的「發(fā)現知識與資料采礦」(Knowledge Discovery and Data Mining)會(huì )議上發(fā)表。
以搜尋技術(shù)起家的谷歌現為全球最受歡迎的搜尋引擎,為了強化搜尋系統對關(guān)鍵字的處理能力并改善搜尋結果,谷歌在2012年發(fā)表了「知識圖表」(Knowledge Graph),這是一個(gè)以結構化知識為基礎的資料庫,汲取了來(lái)自Wikipedia、CIA的世界概觀(guān)(World Factbook),以及協(xié)作知識網(wǎng)站Freebase的內容,當時(shí)匯整了5億個(gè)條目及35億種的事實(shí)描述。
然而,以眾包模式聚集知識的速度太慢,使得谷歌決定自動(dòng)化蒐集知識的程序,重新打造了Knowledge Vault,自動(dòng)爬梳網(wǎng)路上的內容并利用機器學(xué)習把資訊集結成知識,迄今已取得16億種的事實(shí)描述。
雖然目前Knowledge Graph的知識內容仍多過(guò)Knowledge Vault,但谷歌期望藉由自動(dòng)化蒐集與創(chuàng )造知識的Knowledge Vault成長(cháng)速度將會(huì )大幅超越Knowledge Graph,使其成為全球最豐富的知識資料庫。
有了正確的知識庫將能最佳化使用者的搜尋結果,也可應用在諸如谷歌 Now等各種谷歌服務(wù)中,甚至是基於既有的知識與現象預測未來(lái)。