• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 文章精選 >
     首頁(yè) > 資訊 > 文章精選 >

    大數據已死

    2019-07-16 14:16:32   作者:   來(lái)源:云頭條   評論:0  點(diǎn)擊:


      由于關(guān)注的重心從我們收集數據的方式轉向實(shí)時(shí)處理數據,大數據時(shí)代即將終結。大數據現在是支持多云、機器學(xué)習和實(shí)時(shí)分析這幾個(gè)新時(shí)代的業(yè)務(wù)資產(chǎn)。
      大數據時(shí)代終結于2019年6月5日,當時(shí)Tom Reilly宣布即將從Cloudera辭職,隨后該公司市值應聲下跌。加上MapR前不久宣布將于6月下旬關(guān)門(mén)大吉——這將取決于MapR能否找到買(mǎi)家來(lái)繼續運營(yíng),2019年6月表明了這個(gè)事實(shí):Hadoop推動(dòng)的大數據這個(gè)早期時(shí)代已宣告結束。大數據會(huì )因在這幾方面起到的作用而被世人銘記:促使社交媒體開(kāi)始占主導地位,從根本上改變企業(yè)在處理多出好幾個(gè)數量級的數據方面的理念,以及澄清分析數據、數據質(zhì)量和數據治理的價(jià)值,不斷評估作為企業(yè)資產(chǎn)的數據。
      如果為大數據時(shí)代擬寫(xiě)某種意義上的悼詞時(shí),必須要強調一下:大數據技術(shù)實(shí)際上并沒(méi)“死”,但第一代基于Hadoop的大數據已達到成熟的程度,它已在企業(yè)數據界確立了穩固的角色。大數據不再是無(wú)限增長(cháng)的炒作周期的一部分,而是一種老牌技術(shù)。
      大數據的誕生
      大數據時(shí)代始于A(yíng)pacheHadoop在2006年的亮相,開(kāi)發(fā)人員和架構師將此工具視為有助于處理和存儲多結構化數據和半結構化數據。企業(yè)在數據方面的理念發(fā)生了根本性轉變,并不僅限于傳統企業(yè)數據庫的ACID(原子性、一致性、隔離性和持久性),導致數據使用場(chǎng)合發(fā)生了變化,許多公司意識到以前丟棄或保存在靜態(tài)歸檔中的數據實(shí)際上有助于了解客戶(hù)行為、采取行動(dòng)的傾向、風(fēng)險因素以及復雜的組織、環(huán)境和商業(yè)行為。Cloudera這款商業(yè)發(fā)行版推出后,Hadoop的商業(yè)價(jià)值在2009年開(kāi)始得到確立,MapR、Hortonworks和EMC Greenplum(現在的Pivotal HD)緊隨其后。雖然分析師們預測大數據這個(gè)潛在市場(chǎng)的規模高達500億美元或更多,但Hadoop這種分析工具最終在最近十年受到了質(zhì)疑。
      Hadoop在企業(yè)界面臨的挑戰
      雖然Hadoop在通過(guò)批處理支持大型存儲和ETL(提取、轉換和加載)作業(yè)以及支持機器學(xué)習任務(wù)方面大有價(jià)值,但它在支持公司和大型組織用來(lái)管理日常運營(yíng)的較為傳統的分析工作方面并非最佳選擇。Hive、Dremel和Spark等工具在Hadoop上面使用以支持分析,但Hadoop從未變得足夠快,無(wú)法真正取代數據倉庫。
      Hadoop還面臨這樣的挑戰:NoSQL數據庫和對象存儲提供商在解決Hadoop最初旨在幫助解決的部分存儲和管理難題方面取得了進(jìn)展。隨著(zhù)時(shí)間的推移,在Hadoop上支持業(yè)務(wù)連續性面臨挑戰,加上支持實(shí)時(shí)、地理空間及其他新興的分析使用場(chǎng)合方面缺乏靈活性,這使得Hadoop面對海量數據時(shí)很難在批處理之外大有作為。
      此外,久而久之,許多公司開(kāi)始發(fā)現大數據難題越來(lái)越與此有關(guān):支持一系列廣泛的數據源,并迅速調整數據模式、查詢(xún)、定義和上下文,新的應用程序、平臺和云基礎設施供應商就體現了這一點(diǎn)。為了克服這個(gè)挑戰,分析、集成和復制就必須變得更敏捷更快速。許多供應商紛紛創(chuàng )辦就體現了這個(gè)挑戰,包括:
    • 分析解決方案:比如ClearStory Data、Domo、Incorta、Looker、FineBI、Microsoft Power BI、Qlik、Sisense、Tableau和ThoughtSpot
    • 數據管道供應商:比如Alooma、Attunity、Alteryx、Fivetran和Matillion
    • 數據集成供應商:包括Informatica、MuleSoft、SnapLogic、Talend和TIBCO(后者還憑借其Spotfire產(chǎn)品組合角逐分析領(lǐng)域)。
      如果從收購或融資的角度來(lái)看,許多這些公司似乎都備受矚目,這絕非巧合。最近的例子包括但不限于:
    • ThoughtSpot在2018年5月完成1.45億美元的D輪融資
    • Sisense在2018年9月完成8000萬(wàn)美元的E輪融資
    • Incorta在2018年10月完成1500萬(wàn)美元的B輪融資
    • Fivetran在2018年12月完成1500萬(wàn)美元的A輪融資
    • Looker在2018年12月完成1.03億美元的E輪融資
    • TIBCO在2018年12月收購Orchestra Networks
    • Logi Analytics在2019年2月收購Jinfonet
    • 谷歌在2019年2月收購Alooma
    • Qlik在2019年2月收購Attunity
    • Informatica在2019年2月收購AllSight
    • TIBCO在2019年3月收購S(chǎng)nappyData
    • Alteryx在2019年4月收購ClearStory Data
    • Matillion在2019年6月完成3500萬(wàn)美元的C輪融資
    • 谷歌在2019年6月斥資26億美元收購Looker
    • Salesforce在2019年6月斥資157億美元收購Tableau
    • Logi Analytics在2019年6月收購Zoomdata
      這些解決方案的成功表明了日益需要分析師、數據和平臺靈活性,以便面對諸多云和數據源改進(jìn)數據的上下文分析價(jià)值。2019年會(huì )更鬧猛,因為其中許多公司歸私募股權公司所有,或者已獲得大量的風(fēng)投資金,需要盡快成功退出,幫助資助未來(lái)的風(fēng)投基金。
      隨著(zhù)大數據的消逝,我們進(jìn)入到了后大數據時(shí)代,包括多云時(shí)代、機器學(xué)習時(shí)代以及實(shí)時(shí)和無(wú)處不在的上下文時(shí)代。
      多云時(shí)代恰恰表明日益需要基于現有的各種應用系統跨多云支持應用軟件和平臺,也日益需要支持持續交付和業(yè)務(wù)連續性。“某項任務(wù)有一個(gè)應用軟件”這種觀(guān)念導致了企業(yè)中每個(gè)員工平均有一個(gè)SaaS應用軟件的業(yè)務(wù)環(huán)境,這意味著(zhù)每家大企業(yè)在為數千個(gè)SaaS應用軟件支持數據和流量。后端容器化這個(gè)趨勢導致支持按需和峰值使用環(huán)境的存儲和工作負載環(huán)境日益分散化和專(zhuān)業(yè)化。
      機器學(xué)習時(shí)代專(zhuān)注于分析模型、算法、模型訓練、深度學(xué)習以及算法和深度學(xué)習技術(shù)的倫理。機器學(xué)習需要處理創(chuàng )建干凈數據供分析所用所需的大量相同工作,但還需要另外的數學(xué)、業(yè)務(wù)和倫理上下文以創(chuàng )建持久的長(cháng)期價(jià)值。
      實(shí)時(shí)和無(wú)處不在的上下文恰恰表明,從分析的角度和交互的角度來(lái)看,日益需要及時(shí)的更新。從分析的角度來(lái)看,公司分析處理僅僅每周更新一次或每天更新一次已不夠。員工現在需要近乎實(shí)時(shí)的更新,否則有可能做出糟糕的公司決策,這些決策在制定的那一刻就已過(guò)時(shí)或落伍了。有效使用實(shí)時(shí)分析需要廣泛的業(yè)務(wù)數據,以提供適當的整體上下文以及供針對數據按需執行的分析所用。無(wú)處不在還表明了交互的興起,包括物聯(lián)網(wǎng)提供表明環(huán)境和機械活動(dòng)的更多邊緣觀(guān)察信息,以及仍在發(fā)展中的擴展現實(shí)(Extended Reality,包括增強現實(shí)和虛擬現實(shí))提供身臨其境的體驗。為了提供這種級別的交互,必須以交互的速度分析數據,可能短至300-500毫秒,以提供有效的行為反饋。
      隨著(zhù)大數據時(shí)代走到盡頭,我們現在可以少關(guān)注收集大量數據的機制,多關(guān)注處理、分析海量數據并與之實(shí)時(shí)交互方面的無(wú)數挑戰。我們邁入大數據驅動(dòng)的新時(shí)代時(shí),請牢記以下幾個(gè)概念。
      首先,Hadoop在企業(yè)數據界仍占有一席之地。Amalgam Insights預計,MapR最終會(huì )被一家以管理IT軟件出名的公司收購,比如BMC、冠群或MicroFocus;并認為Cloudera已采取了措施,不僅限于企業(yè)Hadoop,以支持數據的下幾個(gè)時(shí)代。但技術(shù)的步伐不可阻擋,Cloudera的問(wèn)題在于它的行動(dòng)是否夠快、隨勢而變。Cloudera在將其企業(yè)數據平臺完善成下一代洞察力和機器學(xué)習平臺方面面臨數字化轉型挑戰。過(guò)去幾十年,公司能夠為轉型敲定時(shí)間表。現在正如我們從亞馬遜、Facebook和微軟等公司看到的那樣,僅僅為了活命,成功的科技公司必須準備好每十年就要轉型,可能甚至犧牲掉自己的部分業(yè)務(wù)。
      其次,對多云分析和數據可視化的需求比以往任何時(shí)候都要大。谷歌和Salesforce剛斥資180億美元收購了Looker和Tableau,那些收購基本上是針對頗具規模和收入增長(cháng)的公司的市場(chǎng)價(jià)值收購。會(huì )投入更多的巨額資金,以克服這一挑戰:針對眾多數據源提供分析技術(shù),并支持與多云有關(guān)的日益分散且多樣的存儲、計算和集成需求。這意味著(zhù)企業(yè)需要慎重地搞清楚數據集成、數據建模、分析及/或機器學(xué)習/數據科學(xué)團隊可以在多大程度上應對這個(gè)挑戰,因為處理和分析異構數據變得越來(lái)越困難、復雜,但要支持戰略業(yè)務(wù)需求并將數據用作真正的戰略?xún)?yōu)勢又勢必需要這么做。而僅看國內發(fā)展,企業(yè)對多云分析和數據可視化的需求也是一樣劇增。2006年成立的國產(chǎn)BI軟件廠(chǎng)商帆軟軟件自2016年300人左右的團隊短短三年內成長(cháng)到現在的1100余人,據知為了應對更多的市場(chǎng)需求其團隊還在不斷擴大。這樣的成長(cháng)速度源自市場(chǎng)需求的增多和帆軟對于市場(chǎng)需求走勢的判斷。
      第三,機器學(xué)習和數據科學(xué)是下一代分析技術(shù),需要各自做好新的數據管理工作。大規模創(chuàng )建測試數據、合成數據和掩蔽數據,以及數據沿襲、治理、參數和超參數定義以及算法假設,這些都超出了傳統大數據假設的范疇。這里最重要的考量因素是,使用由于種種原因未能很好地服務(wù)于企業(yè)的數據:樣本量小、缺乏數據源、數據定義不清晰、數據上下文不明確,或者算法和分類(lèi)假設不準確。換句話(huà)說(shuō),不使用失實(shí)的數據。失實(shí)的數據會(huì )導致有偏見(jiàn)、不合規、不準確的結果,還可能導致諸多問(wèn)題:比如Nick Leeson在1995年導致巴林銀行(BaringsBank)垮臺,或法國興業(yè)銀行因Jerome Kerviel精心操縱交易而蒙受70億美元的交易損失。AI現在是新的潛在“流氓交易者”,需要得到適當的治理、管理和支持。
      第四,需要將實(shí)時(shí)和無(wú)處不在的上下文既視為協(xié)作和技術(shù)上的挑戰,又視為數據挑戰。我們正進(jìn)入這樣一個(gè)世界:每個(gè)對象、流程和對話(huà)都可以用附加的上下文加以標記、標注或增強,可以實(shí)時(shí)處理數GB的數據,以生成簡(jiǎn)單的兩個(gè)單詞警報,可能就像“減慢速度”或“立即購買(mǎi)”這么簡(jiǎn)單。我們看到“數字孿生”(digital twin)這個(gè)概念方興未艾:在工業(yè)界,PTC、GE及其他產(chǎn)品生命周期和制造公司為設備創(chuàng )建數字孿生;而在銷(xiāo)售界,Gong、Tact和Voicera等公司借助額外的上下文以數字方式記錄、分析和增強模擬對話(huà)。
      結論
      因此,大數據時(shí)代已宣告結束。但在此過(guò)程中,大數據本身已成為IT的一個(gè)核心方面,并引發(fā)了一系列新時(shí)代,每個(gè)時(shí)代未來(lái)一片光明。投入于大數據的公司應該將這些投入視作未來(lái)成為實(shí)時(shí)、增強和交互型互動(dòng)公司的重要基礎。隨著(zhù)大數據時(shí)代走到盡頭,我們現在準備將整個(gè)大數據用作業(yè)務(wù)資產(chǎn),而不僅僅是炒作,從而支持基于作業(yè)的上下文、機器學(xué)習和實(shí)時(shí)交互。
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 广南县| 大理市| 资兴市| 茶陵县| 革吉县| 富锦市| 芮城县| 家居| 开阳县| 泸西县| 内黄县| 平泉县| 昌宁县| 无为县| 轮台县| 余庆县| 翁牛特旗| 榆林市| 绥中县| 临澧县| 桃园县| 高青县| 黑水县| 墨江| 依安县| 湖南省| 博罗县| 民勤县| 焉耆| 濮阳县| 卢湾区| 海宁市| 盘山县| 昭通市| 天台县| 吴旗县| 阳西县| 抚远县| 曲松县| 涪陵区| 盱眙县| http://444 http://444 http://444 http://444 http://444 http://444