
Google宣布推出了資料驗證工具(DVT),這是一個(gè)開(kāi)源的Python命令列工具,可以跨不同環(huán)境進(jìn)行自動(dòng)化資料驗證。
Google提到,資料驗證是資料倉儲、資料庫和資料湖搬遷的關(guān)鍵步驟,工作包括比較來(lái)源和目標表格的結構化和半結構化資料,并在每個(gè)搬遷步驟,像是SQL腳本轉換、資料和架構搬遷以及ETL搬遷等,驗證這些步驟是否正確完成。
跨平臺驗證資料雖然重要但是卻非常耗時(shí),用戶(hù)可能必須要建構和維護自定義解決方案,才能完成這項工作,而DVT提供了一個(gè)標準化的解決方案,可供用戶(hù)根據本地端系統中的資料,驗證Google云端中心搬遷的資料,DVT能夠與現有企業(yè)基礎設施和ETL工作管線(xiàn)整合,進(jìn)行無(wú)縫且自動(dòng)化的驗證。
DVT使用Ibis框架來(lái)連接到大量資料來(lái)源,Ibis則是一個(gè)Python框架,能夠用標準方式存取資料,并且對不同來(lái)源的資料進(jìn)行分析運算,簡(jiǎn)單來(lái)說(shuō),Ibis供用戶(hù)方便地使用Python編寫(xiě)SQL,但在存取資料外,其重點(diǎn)在於分析,除了可用於SQL資料庫,還支援後端各種資料儲存系統。
有了Ibis的支援,DVT能夠連接到大量的資料源上,包括BigQuery、AWS S3、MySQL、Oracle、Spanner、SQL Server以及Teradata等。DVT能執行多層資料驗證,從各種表格層級的驗證到列驗證。