生命科學(xué)領(lǐng)域的大數據時(shí)代已然到來(lái)。據相關(guān)統計,全球每年生物數據總量已經(jīng)達到EB量級,完整的人體基因組有約30億個(gè)堿基對,個(gè)體化基因組差異達6百萬(wàn)堿基,基于個(gè)性化的遺傳背景產(chǎn)生了巨大數據。如果能高效、高速地利用這些大數據,無(wú)疑將為生命科學(xué)行業(yè)帶來(lái)無(wú)限機遇。
在不久前由生物谷和華為云服務(wù)聯(lián)合主辦的云服務(wù)與大數據知識分享沙龍活動(dòng)中,演講嘉賓李亦學(xué)教授指出,生命科學(xué)正面臨從實(shí)驗驅動(dòng)向數據驅動(dòng)的轉型局面,海量的數據將成為生命科學(xué)的基礎,云服務(wù)、大數據等相關(guān)技術(shù)將成為轉型重要因素。
李亦學(xué)認為,急劇增加的生物數據和計算機能力間的巨大差距是大數據發(fā)展面臨的首要問(wèn)題。”放眼國內生物科學(xué)院,其在運用現有IT技術(shù)處理大數據方面無(wú)不面臨著(zhù)部署慢、存儲容量小、成本高等困境。
生物科學(xué)高性能計算需要海量的計算資源,且計算擴容速度很快,資源的部署周期長(cháng)。傳統IT服務(wù),從設備采購到安裝調試,需要數月的時(shí)間,難以及時(shí)響應業(yè)務(wù)的變化;同時(shí),生科計算往往比較復雜,傳統生命科學(xué)計算依靠手工進(jìn)行環(huán)境部署,耗時(shí)耗力,效率低下;除此之外,生科計算產(chǎn)生海量數據,對存儲有高要求,由于存儲能力不足,導致數據人工逐行刪除;對于生科企業(yè)來(lái)說(shuō),自建高性能計算平臺一次需耗費大量資金,且設備更新?lián)Q代成本高,可能導致面臨資金不足風(fēng)險等。面對這些問(wèn)題傳統的IT技術(shù)已經(jīng)顯露出它的弊端,亟需尋找傳統IT的替代。
針對高速有效地分析生物大數據所需要的技術(shù), 李亦學(xué)認為云服務(wù)或可提供解決有力支撐。
云服務(wù)具備彈性、快速擴展、即租即用等特征,可向用戶(hù)提供彈性海量的計算、存儲資源,輕松應對大規模計算處理,幫助用戶(hù)快速部署和管理大規模可擴展的IT基礎設施資源。而在生物科學(xué)領(lǐng)域,國內領(lǐng)先的云服務(wù)商華為云已經(jīng)有一整套成熟完整的解決方案。
華為云服務(wù)能夠為基因工程、蛋白質(zhì)工程、生物制藥等需要高性能計算的業(yè)務(wù)提供海量并行計算資源,以及提供包括云主機、云硬盤(pán)、對象存儲服務(wù)、線(xiàn)下傳輸服務(wù)等在內的高性能云服務(wù)。華為生科云解決方案是一套基于行業(yè)特性、工作流程、業(yè)務(wù)分析流程的需求,整合強大的計算能力、存儲能力,為用戶(hù)提供超算、數據存儲等多種服務(wù)的云計算服務(wù)平臺,且操作簡(jiǎn)單、靈活多樣。“華為云服務(wù)面向生物科學(xué)領(lǐng)域進(jìn)行的定制開(kāi)發(fā),運營(yíng)模式設計,支撐服務(wù)方面的能力令人印象深刻。”上海生命科學(xué)院相關(guān)負責人表示。
華為生科云解決方案由分布式計算引擎、彈性計算云、對象云存儲、線(xiàn)下大數據傳輸服務(wù)四部分組成,為客戶(hù)提供端到端的解決方案。其中分布式計算引擎所需的行業(yè)模版由客戶(hù)自定義或者使用合作伙伴提供的預定義行業(yè)模版,華為負責提供計算和存儲資源,以及調度能力。
華為云服務(wù)相關(guān)負責人介紹:分布式計算引擎能夠通過(guò)用戶(hù)定義的業(yè)務(wù)流程,把多步驟的復雜運算過(guò)程固化下來(lái),簡(jiǎn)化運算過(guò)程,提高計算效率,運算過(guò)程由分布式計算引擎進(jìn)行判斷和驅動(dòng),不需要人工干預,實(shí)現計算的自動(dòng)化和流程化。這正好與目前生物科學(xué)大數據所需要的復雜業(yè)務(wù)需求相匹配。
另外,由分布式計算引擎負責部署計算環(huán)境,提高環(huán)境部署效率,降低部署復雜度;整個(gè)業(yè)務(wù)過(guò)程以流程圖的形式進(jìn)行直觀(guān)展示,讓業(yè)務(wù)過(guò)程一目了然;在計算完成或者出現異常情況,會(huì )自動(dòng)提示操作用戶(hù),進(jìn)行人工干預或者修正。
最后,分布式計算引擎可以對資源池里的資源進(jìn)行有效管理,自動(dòng)投放任務(wù)到空閑節點(diǎn);可根據業(yè)務(wù)需要對資源池里的節點(diǎn)資源進(jìn)行增加或者刪除,實(shí)現按需使用,按需付費。
這些都是分布式計算引擎受到客戶(hù)青睞的重要因素。
除此之外,華為云服務(wù)具有中立、安全、高可靠、低成本的數據存儲能力,來(lái)滿(mǎn)足用戶(hù)的原始數據和計算結果的存儲需求;在商業(yè)模式上,可按需使用、按需付費、即租即用的方式,縮短IT建設周期,降低初始投資成本,減輕企業(yè)后期運維成本。
隨著(zhù)基因測序成本等的急劇下降,數字與生物科學(xué)高度融合,大數據背景下的云服務(wù)將超越提升效率和降低成本的支撐地位,成為生物科學(xué)創(chuàng )新的核心競爭力并將重新定義市場(chǎng)的制高點(diǎn)。 對生科企業(yè)及研究院所來(lái)說(shuō),在華為公有云平臺上測試和構建自己的業(yè)務(wù)模式將是一種經(jīng)濟高效的方式, 基于華為云服務(wù)平臺的生物行業(yè)服務(wù)范式將被全新構建。
正如李亦學(xué)教授所說(shuō),生命科學(xué)正面臨從實(shí)驗驅動(dòng)向數據驅動(dòng)轉型。誰(shuí)先掌握了技術(shù)誰(shuí)就掌握了生命科學(xué)的命脈。云服務(wù)無(wú)疑是生命科學(xué)從實(shí)驗驅動(dòng)向數據驅動(dòng)轉型的重要驅動(dòng)因素。
關(guān)于華為云服務(wù)
華為生科云解決方案,由分布式計算引擎、彈性計算云、對象云存儲、線(xiàn)下大數據傳輸服務(wù)四部分組成,為客戶(hù)提供端到端的解決方案。其中分布式計算引擎所需的行業(yè)模版由客戶(hù)自定義或者使用合作伙伴提供的預定義行業(yè)模版;華為負責提供計算和存儲資源,以及調度能力。
關(guān)于李亦學(xué)
李亦學(xué),博士,研究員,博士生導師。上海生物信息技術(shù)研究中心主任,中科院上海生命科學(xué)研究院生物信息中心主任, 中科院系統生物學(xué)重點(diǎn)實(shí)驗室副主任,國家“十一五”863計劃生物與醫藥領(lǐng)域專(zhuān)家組成員。2003年上海市勞動(dòng)模范,2003年度上海市優(yōu)秀學(xué)科帶頭人。現為國家自然科學(xué)基金委員會(huì )生命科學(xué)部自然科學(xué)基金評審專(zhuān)家,德國Journal of Integrative Bioinformatics雜志,美國Medical Science Monitor雜志特邀審稿人,國內《科學(xué)通報》特邀編輯,生物物理和生物化學(xué)學(xué)報、中國生物工程雜志以及Genomics,Proteomics and Bioinformatics 等雜志編委。