大數據在經(jīng)濟學(xué)數據使用方面的潛力
首先,大數據將徹底改變經(jīng)濟學(xué)使用數據的實(shí)時(shí)性。大數據收集的都是實(shí)時(shí)數據,現在很多企業(yè)都在利用實(shí)時(shí)數據,奇怪的是經(jīng)濟學(xué)研究卻主要使用匯總數據,很少使用實(shí)時(shí)數據。匯總數據一般最精準的就是當天的數據,比如匯率,而像通脹數據則是當月的。
其次,大數據將使經(jīng)濟學(xué)可調用的數據集規模極度擴大。經(jīng)濟學(xué)研究調用的一般是成千上萬(wàn)個(gè)時(shí)間點(diǎn)(一般最小的時(shí)間點(diǎn)是天)的數據,相對于大數據而言,這樣的研究樣本是很小的,所以經(jīng)濟學(xué)研究對研究者的統計學(xué)功力依賴(lài)很大。然而大數據可以調用數百萬(wàn)、數千萬(wàn)甚至是更多的數據,因此研究者的統計學(xué)功力就顯得沒(méi)那么重要。

第三,大數據可以同時(shí)觀(guān)察多個(gè)變量之間的互動(dòng)。經(jīng)濟學(xué)常用的數據分析方法是時(shí)間序列分析,一般只能研究?jì)蓚(gè)變量之間的互動(dòng),比如狹義貨幣是如何影響通脹的。
第四,大數據結構更少,但層次更多。比如在零售領(lǐng)域,傳統經(jīng)濟學(xué)的數據收集呈矩形,有N個(gè)觀(guān)察時(shí)間點(diǎn)和K個(gè)變量,一般K遠遠小于N。而大數據記載的只是一系列消費行為,其數據并非矩形,也沒(méi)有更復雜的結構,你可以用統計學(xué)方法把這些數據構造成無(wú)限多個(gè)矩形數據集。
最后,大數據將徹底改變經(jīng)濟學(xué)對數據記錄之間關(guān)系的看法。傳統經(jīng)濟學(xué)認為每一個(gè)記錄的數據都是獨立的,或者可以集結成面板數據,歸根結底也就是時(shí)間序列的衍生物。但大數據卻非如此,比如社交網(wǎng)絡(luò )上人與人之間的互動(dòng)數據是高度復雜的,傳統的經(jīng)濟學(xué)模型無(wú)法揭示社交網(wǎng)絡(luò )上人與人之間的互動(dòng)關(guān)系,必須使用大數據的方法。
大數據在經(jīng)濟政策分析
和經(jīng)濟學(xué)研究領(lǐng)域的應用場(chǎng)景
企業(yè)運用大數據的場(chǎng)景主要是記錄運營(yíng)過(guò)程和結果,并構建涵蓋范圍廣泛的預測類(lèi)算法。比如Amazon和Netflix應用預測模型為客戶(hù)推薦影視劇和書(shū)籍。預算類(lèi)算法的可使用范圍遠遠超越了電子商務(wù)。比如在醫療保險領(lǐng)域,保險公司通過(guò)將病人的付費情況和治療效果數據導入預算類(lèi)算法,可以計算其“風(fēng)險系數”,然后通過(guò)風(fēng)險系數來(lái)調整保費標準,而在大數據技術(shù)之前,“風(fēng)險系數”是由病人的病史和相應的統計學(xué)分析方法來(lái)確定的。其實(shí),大數據若應用到政府領(lǐng)域,也可以極大地改變經(jīng)濟政策分析和經(jīng)濟學(xué)研究。

首先,大數據會(huì )極大地釋放出政府公共事務(wù)管理數據的潛在威力。通過(guò)管理稅收系統、社保系統以及法規條例,政府積累了海量的顆粒狀數據。公共管理數據在很大程度上沒(méi)有被充分利用,主要原因是政府有關(guān)部門(mén)缺乏大數據硬件、軟件和人才基礎,另外這些數據也沒(méi)有通過(guò)開(kāi)放的端口給私營(yíng)數據供應商使用,而且各地方政府的數據收集標準不一,難以統一維護和管理。在這方面,許多歐洲國家走在世界前列,其中央政府將各級地方政府的教育、醫保等數據整合成了針對全國人口的大數據庫。
公共管理數據的潛力非常巨大,這些數據涵蓋不同個(gè)人、企業(yè)和機構相當長(cháng)期的各類(lèi)行為和狀況,一般是面板結構的,數據質(zhì)量也很高。而且由于這些數據集的涵蓋面是普遍的,其可以和其它涵蓋面更具選擇性的數據集搭配使用。
如果政府向私營(yíng)數據供應商有限開(kāi)放這些公共管理數據的應用端口,對經(jīng)濟政策分析和經(jīng)濟學(xué)研究無(wú)疑將產(chǎn)生巨大推動(dòng)。
比如經(jīng)濟學(xué)家Thomas Piketty和Emmanuel Saez利用美國國稅局的數據構建了美國最富家庭占全國收入比例的歷史數據集。他們的相關(guān)研究成果對奧巴馬以來(lái)的決策者產(chǎn)生了極大的影響,美國最富家庭所占全國收入比例和所占全國納稅總額比率的嚴重不對稱(chēng)以及日益失衡成為了決策者和立法者探討稅收政策改革的一個(gè)話(huà)題焦點(diǎn)。
另外一個(gè)例子是:經(jīng)濟學(xué)家John Wennberg與其同事調用了長(cháng)達數十年的美國醫保(Medicare)數據,發(fā)現人均醫保支出數據中有相當大一部分數據差異(variation)無(wú)法用健康狀況、保費價(jià)格來(lái)解釋?zhuān)液腕w檢結果數據也沒(méi)有明顯相關(guān)性。Wennberg領(lǐng)銜的這項研究證實(shí)了美國原有醫保系統的嚴重效率缺失,其研究成果在推進(jìn)奧巴馬醫改法案的進(jìn)程中備受關(guān)注。
其次,大數據可以改變政府測算經(jīng)濟活動(dòng)的方式。政府在經(jīng)濟活動(dòng)的測算方面扮演著(zhù)極其重要的角色,比如通貨膨脹率、失業(yè)率和GDP等等的測算都是由政府主導的。一般而言,政府都是通過(guò)調研的方式來(lái)測算經(jīng)濟活動(dòng)的。比如國家統計局會(huì )派出調研員去商店手動(dòng)收集成千上萬(wàn)商品的價(jià)格,然后將這些數據匯總成不同的通脹指數——CPI就是其中之一。然而大數據技術(shù)可以更大規模地收集物價(jià)數據,甚至可以做到實(shí)時(shí)收集。
比如,由麻省理工學(xué)院斯隆商學(xué)院教授A(yíng)lberto Cavallo和Roberto Rigobon發(fā)起的10億物價(jià)項目(BPP),通過(guò)成百上千個(gè)電商網(wǎng)站和手機應用的端口可以收集數以10萬(wàn)計商品的實(shí)時(shí)價(jià)格數據,從而可以實(shí)時(shí)發(fā)布通脹數據,而不是像國家統計局那樣每個(gè)月發(fā)布一次。
再次,大數據在企業(yè)部門(mén)的一個(gè)巨大作用就是使企業(yè)的議題探討和決策過(guò)程更大程度上得到大數據分析的支持,并且有些公司還在用大數據進(jìn)行廣泛的運營(yíng)實(shí)驗,相比之下,公共部門(mén)在這些方面進(jìn)展十分遲緩。
政府收集了大量的公共事務(wù)管理數據,這些數據對經(jīng)濟政策分析和經(jīng)濟學(xué)研究助益極大,但利用效率卻極低。
比如,醫保部門(mén)有過(guò)去幾十年的每一筆醫保索賠記錄,稍加整理就可以得出無(wú)數個(gè)人的病史數據集,通過(guò)大數據挖掘和預測類(lèi)算法,可以得出關(guān)于不同治療方案和過(guò)程的非常詳細的成本效益分析,從而使醫保支出的效益大大提高。以此類(lèi)推,政府部門(mén)完全可以用大數據技術(shù)對醫保和稅收等涉及財政收支的政策法規改革調整進(jìn)行一定范圍的精準實(shí)驗,再根據效果去調整相關(guān)政策法規。

經(jīng)濟咨詢(xún)服務(wù)與大數據結合前景遠大
未來(lái),經(jīng)濟學(xué)家將更多地使用上面所描述的大數據挖掘技術(shù),經(jīng)濟學(xué)數據分析被時(shí)間序列壟斷的局面也將被打破,預測類(lèi)算法將取代變量之間的因果分析,機器學(xué)習將取代統計模型。
政府公共事務(wù)管理數據的應用端口將更趨開(kāi)放,其數據衍生產(chǎn)品前景遠大,許多重要的經(jīng)濟指標將可以做到實(shí)時(shí)發(fā)布,公共部門(mén)的議題探討和決策過(guò)程將更多地獲取大數據的支持。根據Statista的數據,經(jīng)濟咨詢(xún)服務(wù)(經(jīng)濟咨詢(xún)公司)在美國的市場(chǎng)規模已超過(guò)300億美元(近2000億元人民幣),這并不包括銀行、投行和公共機構內部的經(jīng)濟分析部門(mén),一旦包括起來(lái),其市場(chǎng)規模將更大。經(jīng)濟咨詢(xún)服務(wù)未來(lái)在中國也應該成為一個(gè)千億元級別的產(chǎn)業(yè),大數據技術(shù)將使該行業(yè)發(fā)生根本性的技術(shù)革命,愿景不可估量。
未來(lái),政府公共事務(wù)管理數據的應用端口將更趨開(kāi)放,其數據衍生產(chǎn)品前景遠大,許多重要的經(jīng)濟指標將實(shí)時(shí)發(fā)布,公共部門(mén)的議題探討和決策過(guò)程將更多地獲取大數據的支持。