谷歌公司設計了自己的定制芯片,稱(chēng)為T(mén)ensor Processing Unit(TPU),并將這些芯片應用于90%以上的人工智能訓練工作。這個(gè)過(guò)程通過(guò)模型對數據進(jìn)行訓練,以提高其在類(lèi)似人類(lèi)文本響應或生成圖像等任務(wù)中的實(shí)用性。
目前,谷歌TPU已經(jīng)進(jìn)入第四代。谷歌公司在周二發(fā)布了一篇科學(xué)論文,詳細介紹了如何利用自己開(kāi)發(fā)的定制光開(kāi)關(guān)將4000多個(gè)芯片連接成一個(gè)超級計算機。
對于構建AI超級計算機的公司來(lái)說(shuō),改善這些連接已經(jīng)成為競爭的關(guān)鍵點(diǎn),因為所謂的大規模語(yǔ)言模型正在不斷增大,已無(wú)法在單個(gè)芯片上存儲,而這些模型正驅動(dòng)著(zhù)谷歌的Bard或OpenAI的ChatGPT等技術(shù)。
這類(lèi)模型必須分布在成千上萬(wàn)的芯片之間,然后這些芯片要在數周或更長(cháng)時(shí)間內協(xié)同工作來(lái)訓練模型。谷歌的PaLM模型,是迄今為止公開(kāi)披露的最大語(yǔ)言模型,它通過(guò)分布在兩臺4000芯片的超級計算機上進(jìn)行了50天的訓練。
谷歌表示,其超級計算機可以輕松地動(dòng)態(tài)重新配置芯片之間的連接,有助于避免故障并進(jìn)行性能優(yōu)化。
“電路交換使得我們能夠輕松避開(kāi)故障組件,”谷歌高級研究員Norm Jouppi和谷歌杰出工程師David Patterson在一篇關(guān)于該系統的博客文章中寫(xiě)道。“這種靈活性甚至使我們能夠改變超級計算機互聯(lián)網(wǎng)絡(luò )的拓撲結構,以加速ML(機器學(xué)習)模型的性能。”
雖然谷歌直到現在才公開(kāi)其超級計算機的詳細信息,但它自2020年以來(lái)就已經(jīng)在俄克拉荷馬州梅斯縣的數據中心內運行。谷歌表示,初創(chuàng )公司Midjourney使用該系統來(lái)訓練其模型,該模型在輸入幾個(gè)詞的文本后可以生成新的圖像。
谷歌在論文中表示,與相同規模的系統相比,它的超級計算機比基于英偉達A100芯片的系統更快1.7倍,更節能1.9倍。據了解,A100芯片早于第四代TPU面市。
谷歌表示,它沒(méi)有將第四代TPU與英偉達當前旗艦H100芯片進(jìn)行比較,因為H100是在谷歌這款芯片應用后上市的,并且采用了更新的技術(shù)。
谷歌暗示正在研發(fā)一款新的TPU,將與英偉達H100競爭,但沒(méi)有提供詳細信息。Jouppi告訴媒體,谷歌有“充足的未來(lái)芯片儲備”。