CTI論壇(ctiforum)12月16日消息(記者 凡易):華為今日宣布,中央研究院香農實(shí)驗室在2013Hadoop中國技術(shù)峰會(huì )(China Hadoop Summit 2013)上提出業(yè)界首創(chuàng )的HIMM (Hybrid Iterative Matrix Multiplication) 模型。使用該模型表達的圖數據挖掘算法能夠獲得10倍的性能提升,這對于大數據處理的實(shí)時(shí)性具有重要意義。
Hadoop中國技術(shù)峰會(huì )于2013年11月23日在北京圓滿(mǎn)落幕。作為本年度大中華地區規模最大的Hadoop技術(shù)峰會(huì ),本屆大會(huì )的主題是“掘金大數據”。 華為香農實(shí)驗室的首席研究員顏友亮發(fā)表了“HiGraph:一種面向圖計算的領(lǐng)域編程語(yǔ)言”的演講,介紹了華為香農實(shí)驗室在圖計算以及Spark(Berkeley AMP Lab開(kāi)發(fā)的一種基于內存計算的并行計算框架)上所取得的研究成果。
“大數據時(shí)代的一個(gè)重要方面就是圖的規模越來(lái)越大。”顏友亮說(shuō),“Facebook人際關(guān)系網(wǎng),包含頂點(diǎn)數目超過(guò)10億。其他網(wǎng)絡(luò )的規模也在數千萬(wàn)頂點(diǎn)左右。這使得這些圖上的大量應用,例如好友推薦、尋找最短路徑等無(wú)法準實(shí)時(shí)地得到結果。”
華為香農實(shí)驗室提出業(yè)界首創(chuàng )的HIMM模型,與傳統圖計算模型相比,具有操作更簡(jiǎn)單,接口更實(shí)用,編程更輕松等優(yōu)點(diǎn)。算法開(kāi)發(fā)者使用了HIMM模型,不僅可以用矩陣的方式來(lái)表達圖結構,而且還可以用自定義的矩陣運算來(lái)表達圖上的各種操作,并通過(guò)提供一整套圖計算算子來(lái)實(shí)現高效的并行圖算法。在底層框架上,基于HIMM的圖計算框架HiGraph會(huì )根據不同的硬件環(huán)境實(shí)現有針對性的一些優(yōu)化措施,使得HiGraph的性能相比于業(yè)界獲得顯著(zhù)提升。通過(guò)測試Pagerank和單源最短路徑的算法,結果顯示:在集群環(huán)境模式下,HiGraph借助Spark在迭代計算上的優(yōu)勢,相比其他的解決方案如Bagel和Giraph,HiGraph的性能提高3倍到20倍;在單機環(huán)境模式下,HiGraph充分利用了多核的并行處理能力,實(shí)現最大化的并行加速設計,使得在業(yè)界開(kāi)源方案的性能上獲得了至少10倍的提升。
“我們的HiGraph性能比業(yè)界高出了一個(gè)數量級,能夠在秒級完成PageRank、單源最短路徑等算法,完全能夠勝任大數據處理實(shí)時(shí)性的要求。”顏友亮說(shuō)道。
HIMM模型與HiGraph框架對于完善香農實(shí)驗室在高性能計算研究的布局具有重要意義。華為香農實(shí)驗室也將繼續在圖計算領(lǐng)域和Spark框架上發(fā)力,并進(jìn)一步完善HiGraph,為華為的大數據研究提供了堅實(shí)基礎,助力華為更好地進(jìn)駐大數據領(lǐng)域。