CTI論壇(ctiforum)1月18日消息(記者 郭佳):隨著(zhù)互聯(lián)網(wǎng)的日益普及,安徽某大學(xué)科技園的各類(lèi)信息和服務(wù)需求在很大程度上已經(jīng)可以通過(guò)互聯(lián)網(wǎng)數據的采集分析來(lái)完成。根據CNNIC今年的最新統計,中國現已有網(wǎng)民4.85億,各類(lèi)站點(diǎn)域名130余萬(wàn)個(gè),據市場(chǎng)研究機構eMarketer估計,2013年中國網(wǎng)民將增會(huì )達到8.4億人,互聯(lián)網(wǎng)已經(jīng)成為匯聚各類(lèi)企事業(yè)組織動(dòng)態(tài)和社情民意的最大平臺。在國外,甚至包括CIA這樣的情報機構已有70%的情報來(lái)源于互聯(lián)網(wǎng)上的開(kāi)放數據分析,但面對網(wǎng)上海量信息,單純依靠人工進(jìn)行處理已不可能,引入智能化的軟件工具勢在必行。
另一方面,云計算作為一種新興的共享基礎架構的方法,物理形態(tài)通常為大型的服務(wù)器集群,包括計算服務(wù)器、存儲服務(wù)器、寬帶資源等,它可以將大的系統池連接在一起以提供各種IT服務(wù),并由軟件實(shí)現自動(dòng)管理,無(wú)需人為參與,用戶(hù)在享用服務(wù)時(shí)猶如打開(kāi)水龍頭接水一樣方便簡(jiǎn)潔的享受信息服務(wù),而不必關(guān)心后臺的技術(shù)有多復雜。由于云計算具有普適、方便、可用性強等一系列的優(yōu)勢,正在受到越來(lái)越多的關(guān)注,并呈現出廣闊的市場(chǎng)前景。作為服務(wù)上百家企業(yè)的園區,通過(guò)云服務(wù)的方式為上百家在孵企業(yè)提供信息服務(wù)支持便成了一種必然的選擇。
為了滿(mǎn)足園區在招投標,行業(yè)資訊,競爭情報,最新政策等方面的信息需求,寶德設計并實(shí)現了情報云服務(wù)平臺,初期要達到的技術(shù)指標有:
- 50,000以上重點(diǎn)網(wǎng)站(更新頻率在5分鐘以?xún)龋┑牟杉蜋z索,普通網(wǎng)站支持在400,000以上,支持媒體包括新聞,論壇,博客,微博,圖片和視頻等。其中網(wǎng)頁(yè)索引量不低于2億(不含微博)。
- 除了支持存儲靜態(tài)網(wǎng)頁(yè)快照文件外,還應支持新聞和論壇中出現的圖片存儲和部分視頻的存儲,其中靜態(tài)html文件存儲量不低于2億,圖片存儲量不低于1億。
- 在10,000個(gè)并發(fā)用戶(hù)的情況下,單次查詢(xún)數據庫響應時(shí)間小于0.1s,單次索引查詢(xún)響應時(shí)間小于0.2s。
為實(shí)現上述技術(shù)指標,搭建云計算數據計算中心,實(shí)現海量信息的采集,存儲,分析和檢索。該數據中心是云服務(wù)平臺運行的軟硬件環(huán)境,數據中心的建設滿(mǎn)足系統運行的基本要求。根據平臺的業(yè)務(wù)和數據計算中心建設的一般規律,寶德從云設備選型特制定本方案。
一、業(yè)務(wù)需求分析
科技園互聯(lián)網(wǎng)情報采集與智能分析系統架構
情報管理和規劃
根據該大學(xué)科技園的實(shí)際情況,需要系統采用靈活的情報分類(lèi)體系定義方式,以方便科技園靈活定義情報需求。為此,需要預先規劃欲收集情報的行業(yè),欲采集的主題。系統能根據園區訴求會(huì )生產(chǎn)網(wǎng)站采集頻道,并確定信息采集源。
信息采集
由于園區采集的信息涉及面廣,因而需要系統支持多種信息源的采集,除了包括論壇,博客,新聞,政府門(mén)戶(hù)網(wǎng)站等靜態(tài)網(wǎng)頁(yè)信息,還應包含一些政策法規文件的電子文檔(如pdf,doc,xls,ppt等),培訓用視頻和圖片文件等。需要系統能夠提供異構信息整合工具,將非結構化信息結構化,轉換為統一的數據格式進(jìn)行存儲,對外能提供統一的查詢(xún)和統計接口。
信息自動(dòng)分類(lèi)
大學(xué)科技園需加工和處理的信息類(lèi)型多樣,包括政策法規信息,競爭對手信息,園區內部信息,輿情口碑信息,創(chuàng )業(yè)培訓資源,如何對這些資源進(jìn)行分類(lèi)管理,有序使用,是一個(gè)迫切需要解決的問(wèn)題,為此平臺應集成信息自動(dòng)分類(lèi)功能,能將自動(dòng)歸類(lèi)后,形成不同頻道,便于園區進(jìn)行查詢(xún)和歸檔。除此之外,系統還應該提供分類(lèi)規則定義工具和自動(dòng)訓練器,用戶(hù)可以自定義分類(lèi)主題和分類(lèi)規則,進(jìn)行靈活分類(lèi);系統還集成分類(lèi)訓練器功能,用戶(hù)指定類(lèi)別和訓練樣本后,自動(dòng)生成訓練模型進(jìn)行分類(lèi)預測。
自動(dòng)排重
互聯(lián)網(wǎng)存在大量重復信息,如果能對這些重復信息進(jìn)行自動(dòng)判定,那么為情報人員節約大量時(shí)間,系統排重除了能夠支持url的排重外,還能支持內容排重功能,能抽取文檔的特征詞,設定內容相似度閾值,來(lái)調整排重的召回率和準確率。
自動(dòng)摘要
摘要是以提供文獻內容梗概為目的,不加評論和補充解釋?zhuān)?jiǎn)明、確切地記述文獻重要內容的短文。如果計算機程序能根據文章的外在特征抽取能夠表達其中心意思的原文部分句子作為摘要,那么將會(huì )大大大幅情報人員的工作效率。系統能輸出反映文章大意的靜態(tài)摘要,基于用戶(hù)查詢(xún)輸出反映查詢(xún)意圖的動(dòng)態(tài)摘要。
主題跟蹤
系統能夠根據用戶(hù)定義的主題進(jìn)行相似主題的檢測,并形成專(zhuān)題聚焦,能夠自動(dòng)發(fā)現新聞和帖子的源頭,記錄轉載順序,并跟蹤,預測主題未來(lái)的發(fā)展趨勢。
信息自動(dòng)的發(fā)布
系統可以基于用戶(hù)設置的模板自動(dòng)生成簡(jiǎn)報,簡(jiǎn)報支持多種媒體信息,包括圖片,表格,文字等。
通過(guò)手機客戶(hù)端或PC能瀏覽系統自動(dòng)生成的網(wǎng)站頻道,查看競爭情報或輿情信息,對于危機輿情和敏感信息,系統能夠自動(dòng)預警。
用戶(hù)也可以根據多種查詢(xún)條件,查詢(xún)感興趣的信息。
二、配置方案
根據業(yè)務(wù)的分析主要選定的云設備包括服務(wù)器,存儲設備,網(wǎng)絡(luò )設備等。服務(wù)器的類(lèi)型定為機架式服務(wù)器。機架式服務(wù)器被安裝在標準的機柜中,占用的空間小,便于管理和維護。根據功能需要,需要配置以下幾種服務(wù)器。
信息采集服務(wù)器
為了保證信息采集的及時(shí)性,需要進(jìn)行多線(xiàn)程并發(fā)下載,同時(shí)要進(jìn)行下載調度,反垃圾等,對網(wǎng)絡(luò )帶寬,網(wǎng)卡和CPU處理速度要求較高。考慮到該機器需要根據數據規模進(jìn)行水平擴展,故選擇成本較低,易擴展的PC服務(wù)器。適合做下載服務(wù)器的機器PR1280R配置為:內存8GDDR3,CPU為至強E32.3Ghz4核。網(wǎng)卡為千兆雙網(wǎng)卡,硬盤(pán)為500G。
存儲和分析服務(wù)器
主要用于構建分布式文件系統,實(shí)現對快照,圖片的分布式存取。對硬盤(pán)容量和磁盤(pán)讀取速度有要求。另外該集群也可以通過(guò)離線(xiàn)或在線(xiàn)分布式計算實(shí)現數據分析。根據業(yè)務(wù)情況,選擇易擴展,容量擴充相對便宜的PC服務(wù)器。適合做存儲和分析服務(wù)器的機器PR1280R配置為:內存4GDDR3;CPU至強E32.3Ghz4核;網(wǎng)卡選用千兆雙網(wǎng)卡。硬盤(pán)容量2T。該機器配置同采集服務(wù)器基本相同,但硬盤(pán)容量為2T。
數據庫服務(wù)器
主要用于存儲用戶(hù)設置信息,組信息,規則,使用記錄,站點(diǎn)和監控詞信息等。同時(shí)作為緩存服務(wù)器,緩存用戶(hù)頻繁訪(fǎng)問(wèn)的信息。適合做數據庫服務(wù)器的服務(wù)器PR2310R配置為:內存16GDDR3,支持最大內存48G,CPU為Intel(R)Xeon(R)CPUE52.13GHz,網(wǎng)卡為千兆雙網(wǎng)卡,硬盤(pán)為500GSATA。
檢索服務(wù)器
用于存儲索引文件,對外提供數據快速檢索服務(wù),對CPU,內存都有較高要求。適合做檢索服務(wù)器PR2310R的配置為:內存24GDDR3,支持最大內存48G,CPU為2*Intel(R)Xeon(R)CPUE52.13GHz,網(wǎng)卡為雙千兆網(wǎng)卡,硬盤(pán)為3T(3*1T)。
Web服務(wù)器
面向外部用戶(hù),提供web服務(wù),包括面向用戶(hù)的應用,包括信息門(mén)戶(hù),簡(jiǎn)報,查詢(xún)和預警等。還能為管理提供后臺管理的功能。適合做web服務(wù)器PR1310R的配置為:內存8GDDR3,支持最大內存48G,CPU為Intel(R)Xeon(R)CPUE52.13GHz,網(wǎng)卡為雙千兆網(wǎng)卡,硬盤(pán)為1TSATA。