如果要用兩個字來形容當(dāng)下AI技術(shù)熱潮,在模型或AI應(yīng)用層面無疑就是一個“大”字,它背后是越來越復(fù)雜的模型架構(gòu),以及動輒百億千億的參數(shù)規(guī)模;硬件或算力層面則是個“多”字,直指AI算力基礎(chǔ)設(shè)施對GPU或AI加速器“多多”益善的追求,這也是全球頂尖AI玩家們大搞GPU“軍備競賽”或“囤卡備戰(zhàn)”的底層邏輯,即手里卡夠,心里不慌。
卡堆夠了,算力就能隨叫隨到了么?No,這只是萬里長征第一步,下一步考驗(yàn)的是連卡,也就是在小到單個AI服務(wù)器節(jié)點(diǎn),大到千卡萬卡級的集群中,如何才能讓堆上去的多塊GPU或AI加速器實(shí)現(xiàn)最大化互連與通信效率,這才是它們高效協(xié)作輸出充沛算力,不浪費(fèi)每一分投資的關(guān)鍵。
在連卡的過程中,機(jī)頭或主控CPU的作用是不可忽視的,選對產(chǎn)品與型號帶來的收益也超乎想象,以英特爾最新公布的一組數(shù)據(jù)為例,選擇至強(qiáng)6性能核處理器作為機(jī)頭CPU,在最佳場景下,其NCCL All-Reduce帶寬相較第五代至強(qiáng)可擴(kuò)展處理器可提升達(dá)25%以上,All-to-All帶寬提升也有17%以上。
![]()
有趣的是,換來這些提升的成本,對整個AI服務(wù)器或集群的采購或總擁有成本來說,都是九牛一毛——援引國金證券研究所對英偉達(dá)DGX H100零部件成本的拆分,機(jī)頭CPU成本占比只有1.94%。即便把成本拆分的目標(biāo)換成定位中低端的AI服務(wù)器,GPU或AI加速器也依然是大頭所在。相比之下,機(jī)頭CPU雖然在投入上微不足道,卻能扮演撬動整個系統(tǒng)或集群效率的“杠桿”,它能撬開、釋放GPU和整個AI服務(wù)器的全部潛能,這才是真正意義上的花“小錢”、辦“大事”。
![]()
多卡通信,何以“至強(qiáng)”?
收益看到了,要付出什么也很清晰,也許你想進(jìn)一步深究至強(qiáng)6提升多卡互連與通信效率的秘籍,那下面這一張圖就足以揭示它的底氣所在。
![]()
這張圖上涉及的幾乎所有硬件規(guī)格與性能提升,不論是直接服務(wù)于GPU/AI服務(wù)器的PCIe,還是作為整個系統(tǒng)數(shù)據(jù)交換池的內(nèi)存子系統(tǒng),又或是CPU間互連的UPI,其最終目標(biāo)都可作用于多卡通信這一核心場景,即為GPU之間的數(shù)據(jù)交換鋪設(shè)更寬、更快的“高速公路”,其最直觀的體現(xiàn)就是多卡互連通信帶寬及時延壓縮的顯著改善。
這種改善有何實(shí)際意義?以AI模型的分布式訓(xùn)練場景為例:各個GPU節(jié)點(diǎn)需要頻繁地同步梯度參數(shù)(All-Reduce過程),這正是最考驗(yàn)通信效率的環(huán)節(jié),而在樣本分片重分配等場景中,All-to-All 過程同樣對通信鏈路有著強(qiáng)需求。如果機(jī)頭CPU能提供更高的聚合帶寬,能讓數(shù)據(jù)匯總和分發(fā)的速度更快,就可縮短訓(xùn)練的單步迭代時間,加速整個訓(xùn)練進(jìn)程。
再以應(yīng)用更廣泛、也標(biāo)志著AI真正投入實(shí)戰(zhàn)的推理場景,如目前越來越火的多模態(tài)大模型推理為例,雖然它不需要做梯度同步,但All-Reduce性能提升仍可能作用于多節(jié)點(diǎn)推理的協(xié)調(diào)或一致性生成中的多GPU同步; All-to-All性能提升在推理中更加關(guān)鍵,其生成速度(或等待時間)、服務(wù)吞吐(單位時間能否服務(wù)更多客戶)、應(yīng)用規(guī)模(能否支持更多模型或更長序列)等關(guān)鍵指標(biāo),都可借勢得到進(jìn)一步優(yōu)化。
![]()
![]()
行業(yè)背書:機(jī)頭CPU的“默認(rèn)選項(xiàng)”
通過上面的例子,我們能清晰感受到:GPU就像高精尖的“算力工廠”,產(chǎn)能驚人。但如果連接這些工廠的道路網(wǎng)絡(luò)(數(shù)據(jù)鏈路)頻繁“堵車”,信息流轉(zhuǎn)不暢,那么再強(qiáng)的生產(chǎn)力也無法有效協(xié)同,最終導(dǎo)致昂貴的GPU資源在等待中被空耗。在這個背景下,如何高效疏導(dǎo)數(shù)據(jù)流,保障多卡通信的暢通無阻,變得比以往任何時候都更加重要。說白了,算力再強(qiáng)也怕堵!
因此在日趨龐大和復(fù)雜的AI集群中,就需要一個“交通總指揮”來統(tǒng)一調(diào)度數(shù)據(jù)、分派任務(wù)。這個角色,正是由機(jī)頭CPU來擔(dān)當(dāng)。多年以來,英特爾® 至強(qiáng)® 處理器憑借其強(qiáng)勁可靠的通用計算能力、出色的穩(wěn)定性和廣泛的生態(tài)兼容性,一直是業(yè)界公認(rèn)的機(jī)頭CPU默認(rèn)選項(xiàng)。
這種行業(yè)共識并非空穴來風(fēng)。來看看行業(yè)風(fēng)向標(biāo)——英偉達(dá)的動作吧,它早就在其官方解決方案中將至強(qiáng)處理器作為官方認(rèn)證和推薦的機(jī)頭CPU選擇。2025年雙“英”還進(jìn)一步升級了雙方的合作關(guān)系,其中關(guān)鍵一條就是英特爾將利用NVLink設(shè)計和制造定制化的數(shù)據(jù)中心CPU,其用途不言而喻。
![]()
需要說明的是,這種共識的背后,可不僅是行業(yè)對至強(qiáng)處理器在多卡互連與通信這一單項(xiàng)能力的認(rèn)可。也許對于其他CPU產(chǎn)品來說,其計算、通信與存儲的性能可支持GPU高效順暢的工作,就已是接近“滿分線”的表現(xiàn),但對至強(qiáng)來說這些只是作為機(jī)頭CPU的“基線”而已,在這條線之上,它還能用內(nèi)置AMX技術(shù)幫GPU分擔(dān)AI數(shù)據(jù)預(yù)處理,特別是向量數(shù)據(jù)庫的加速;能借助CPU更大容量的內(nèi)存從GPU上卸載MoE,特別是冷專家,以釋放GPU顯存來提升并發(fā)度和拓展上下文窗口;能用六大類52項(xiàng)RAS功能來保障AI服務(wù)器或集群的高可靠、高可用和高可維護(hù),助力用戶實(shí)現(xiàn)99.999%的可靠性;能借助TDX技術(shù)構(gòu)建硬件級“可信AI”執(zhí)行域,甚至CPU與GPU之間都會構(gòu)建加密專線來強(qiáng)化AI模型與數(shù)據(jù)的保護(hù)……這些,才是它的獨(dú)有的加分項(xiàng),才是它能脫穎而出,成為行業(yè)默認(rèn)機(jī)頭CPU靠譜之選的競爭力。
![]()
©英特爾公司,英特爾、英特爾 logo 及其它英特爾標(biāo)識,是英特爾公司或其分支機(jī)構(gòu)的商標(biāo)。
*文中涉及的其它名稱及品牌屬于各自所有者資產(chǎn)。
![]()



