公眾號記得加星標??,第一時間看推送不會錯過。
自人工智能實驗室成立初期以來,AWS 一直是 Anthropic 的主要云平臺——這種關系非常重要,即使在 Anthropic 后來又將微軟納入云合作伙伴行列,以及亞馬遜與 OpenAI 的合作關系不斷發(fā)展之后,這種關系依然得以維系。
OpenAI與AWS的合作協(xié)議使其成為OpenAI全新AI智能體構建工具Frontier的獨家供應商。如果智能體真的像硅谷預期的那樣發(fā)展壯大,Frontier可能會成為OpenAI業(yè)務的重要組成部分。我們將拭目以待,看看這項獨家協(xié)議是否會如之前宣布的那樣有效。《金融時報》本周報道稱,微軟可能認為OpenAI與亞馬遜的合作協(xié)議違反了其自身與OpenAI的協(xié)議,即微軟有權訪問OpenAI的所有模型和技術。
AWS 對 OpenAI 的吸引力究竟何在?作為合作的一部分,這家云巨頭同意向 OpenAI 提供 2 吉瓦的 Trainium 計算能力。考慮到 Anthropic 和亞馬遜自家的 Bedrock 服務對 Trainium 芯片的消耗速度已經超過了亞馬遜的生產能力,這無疑是一項巨大的投入。
該公司表示,目前已在所有三代產品中部署了 140 萬個 Trainium 芯片,而 Anthropic 的 Claude 系統(tǒng)則使用了超過 100 萬個已部署的 Trainium2 芯片。
值得注意的是,雖然 Trainium 最初是為更快、更便宜的模型訓練而設計的(這在幾年前是更重要的),但現在它也經過調整并用于推理。推理——即實際運行 AI 模型以生成響應的過程——目前是業(yè)界最大的性能瓶頸。
舉例來說:Trainium2 處理了亞馬遜 Bedrock 服務的大部分推理流量,該服務支持亞馬遜眾多企業(yè)客戶構建 AI 應用程序,并允許應用程序使用多個模型。
“我們的客戶群正以我們能夠提供足夠容量的速度迅速擴張,”金說道。“Bedrock 有朝一日可能會像 EC2 一樣龐大,”他補充道,這里指的是 AWS 的巨型計算云服務。
Trainium 對比 Nvidia
除了為英偉達積壓且難以獲得的 GPU 提供替代方案外,亞馬遜表示,其運行在其新型專用 Trn3 UltraServer 上的新芯片,在性能相當的情況下,運行成本比使用傳統(tǒng)云服務器低 50%。
除了12 月份發(fā)布的 Trainium3之外,AWS 團隊還構建了新的 Neuron 交換機,Carroll 表示,這種組合具有變革性意義。
“這給我們帶來了巨大的優(yōu)勢,”卡羅爾說道。這些交換機使得Trainium3的每個芯片都能與網狀網絡中的其他所有芯片通信,從而降低延遲。“這就是為什么Trainium3能夠打破各種記錄,”他補充道,尤其是在“性價比”方面。
每天涉及數萬億個token,這樣的改進意義重大。
事實上,亞馬遜的芯片團隊在2024年受到了蘋果公司的贊揚。這家向來低調的公司難得地公開了其人工智能總監(jiān)如何使用該團隊的另一款芯片——Graviton。Graviton是一款低功耗的基于ARM架構的服務器CPU,也是該團隊設計的首款突破性芯片。蘋果還贊揚了專為推理而設計的Inferentia芯片,并對當時新推出的Trainium芯片表示認可。
這些芯片代表了亞馬遜的經典策略:了解人們想買什么,然后打造一款在價格上具有競爭力的自有替代品。
從歷史上看,芯片的難點在于轉換成本。為英偉達芯片編寫的應用程序必須重新架構才能與其他芯片兼容——這是一個耗時的過程,阻礙了開發(fā)人員進行轉換。
但AWS芯片團隊自豪地告訴我,Trainium現在支持PyTorch,這是一個流行的開源AI模型構建框架。這其中包括Hugging Face上托管的許多模型,Hugging Face是一個龐大的庫,開發(fā)者可以在這里共享開源模型。
卡羅爾告訴我,這種轉換“基本上只需要修改一行代碼,然后重新編譯,就可以在 Trainium 上運行了”。換句話說,亞馬遜正試圖盡可能地削弱英偉達的市場主導地位。
AWS 本月還宣布與 Cerebras Systems 建立合作伙伴關系,將該公司的推理芯片集成到運行 Trainium 的服務器上,亞馬遜承諾這將帶來超強、低延遲的 AI 性能。
但亞馬遜的雄心壯志遠不止于芯片本身。它還設計了承載這些芯片的服務器。除了網絡組件之外,該團隊還設計了“Nitro”,這是一種軟硬件結合的解決方案,它提供虛擬化技術(允許多個軟件實例在同一臺服務器上獨立運行)、最先進的液冷技術,以及承載這些設備的服務器機架(如下圖所示)。
這一切都是為了控制成本和提升性能。
![]()
全天候 24/7 進行“啟動”工作
亞馬遜的定制芯片設計部門成立于2015年1月,當時這家云計算巨頭以約3.5億美元收購了以色列芯片設計公司Annapurna Labs。因此,該團隊至今已有十余年為AWS設計芯片的經驗。該部門保留了Annapurna的品牌和名稱——其標志在辦公室隨處可見。
這家芯片實驗室位于奧斯汀高檔的“The Domain”區(qū)一棟閃亮的鍍鉻玻璃窗建筑內。“The Domain”是一個步行可達的區(qū)域,遍布商店和餐館,有時也被稱為奧斯汀的硅谷。。
辦公室有著典型的科技公司氛圍:格子間的辦公桌、公共休息區(qū)和會議室。但真正的實驗室卻隱藏在大樓高層深處,可以飽覽城市全景。
這個實驗室擺滿了架子,大約相當于兩個大型會議室的大小,由于設備風扇的運轉,這里噪音很大,像個工業(yè)場所。它看起來像是高中工藝課教室和好萊塢高端實驗室布景的混合體,只不過工程師們穿著牛仔褲,而不是白色實驗服。
![]()
請注意,這里并非芯片的生產地,因此無需穿戴防護服。Trainium3 是一款采用 3 納米工藝制造的尖端芯片,由臺積電 (TSMC) 生產,臺積電堪稱 3 納米制程工藝的領軍企業(yè),其他芯片則由 Marvell 公司生產。
但正是在這個房間里,神奇的“撫養(yǎng)”過程發(fā)生了。
“芯片啟動就是你第一次拿到芯片的時候,就像參加一個大型通宵派對。你得待在這里,就像被鎖在里面一樣,”King解釋道。經過18個月的研發(fā),芯片首次被激活,以驗證其是否按設計運行。
劇透警告:它永遠不會一帆風順。
Trainium3 的原型芯片最初和之前的版本一樣采用風冷散熱。而現在的芯片則采用液冷散熱,這不僅帶來了節(jié)能優(yōu)勢,也是一項相當了不起的工程成就。
在啟動過程中,芯片與空氣冷卻散熱器的連接尺寸有誤,因此芯片無法激活。
金說,團隊并未慌亂,“立刻拿來一臺砂輪機,開始打磨金屬”。由于不想讓噪音破壞披薩派對的氣氛,他們偷偷溜到會議室里繼續(xù)打磨。
金說,熬夜解決問題“就是硅谷創(chuàng)業(yè)的精髓所在”。
實驗室甚至配備了焊接工作站,硬件實驗室工程師兼首席焊工艾薩克·格瓦拉(Isaac Guevara)在那里演示了如何通過顯微鏡焊接微型集成電路元件。這項工作難度極高,以至于高級領導卡羅爾(Carroll)公開承認自己也做不到,引得格瓦拉和在場的其他工程師哄堂大笑。
![]()
該實驗室還配備了用于測試和分析芯片問題的定制工具和商用工具。以下是信號工程師 Arvind Srinivasan 演示實驗室如何測試芯片上的每個微小組件:
![]()
Sled(托盤)是實驗室的明星
但實驗室的亮點是一整排展示團隊設計的每一代“Sled”。
![]()
托盤是用來放置 Trainium AI 芯片、Graviton CPU 芯片以及配套電路板和組件的托盤。將它們與同樣由該團隊定制設計的網絡組件一起堆疊在機架上,就構成了 Anthropic Claude 成功的核心系統(tǒng)。
這是去年 12 月 AWS re:invent 大會上展示的托盤:
![]()
經 Anthropic 和 OpenAI 驗證
我原以為導游會在參觀過程中大肆宣傳OpenAI的交易,但他們并沒有。
這種沉默或許與之前提到的可能籠罩這筆交易的法律陰影有關。但我的感覺是,這些一線工程師(他們目前正在設計下一代產品 Trainium4)還沒有太多機會與 OpenAI 合作。到目前為止,他們的日常工作主要集中在滿足 Anthropologie 和亞馬遜的需求上。
目前,Trainium2 芯片的最大部分部署在 Project Rainier 中——這是世界上最大的 AI 計算集群之一——該項目于 2025 年底上線,擁有 50 萬個芯片。它由 Anthropic 公司使用。
但主辦公室的墻上顯示器上卻顯示著一段關于OpenAI將如何使用Trainium的引言。那種自豪感雖然含蓄,卻也顯而易見。
除了這個實驗室之外,該團隊還擁有自己的私有數據中心,用于質量控制和測試。該數據中心距離實驗室不遠,由于不運行客戶工作負載,因此托管在托管機房而非 AWS 數據中心。
安保措施非常嚴格:進入大樓和亞馬遜內部區(qū)域都有嚴格的規(guī)定。
數據中心的冷卻系統(tǒng)噪音極大,必須佩戴耳塞,空氣中彌漫著刺鼻的金屬燃燒氣味。對于普通人來說,這里并非一個宜人的地方。
![]()
在這個數據中心里,一排排服務器整齊排列,每個服務器都配備了集成了亞馬遜所有最新定制芯片的托盤:Graviton CPU、液冷 Trainium3 和 Amazon Nitro,它們都在高效運轉。工程師們表示,冷卻液在一個封閉系統(tǒng)中循環(huán)使用,這意味著它可以重復利用,這也有助于減少對環(huán)境的影響。
這就是一臺最新的 Trn3 UltraServer 的外觀:頂部和底部有多個托盤,中間是 Neuron 交換機。圖中可以看到硬件開發(fā)工程師 David Martinez-Darrow 正在維護一個托盤:
![]()
雖然這支團隊一直備受關注,但最近受到的審視更是急劇加劇。
亞馬遜首席執(zhí)行官安迪·杰西密切關注著這個實驗室,并像一位驕傲的父親一樣公開吹噓其產品。去年12月,他表示Trainium對AWS來說已經是一項價值數十億美元的業(yè)務,并稱其為他最興奮的AWS技術之一。在宣布與OpenAI達成協(xié)議時, 他也對這款芯片贊不絕口。
團隊也感受到了壓力。在每次試生產活動前后三到四周,工程師們將全天候工作,以解決所有問題,確保芯片能夠大規(guī)模生產并投入數據中心使用。
卡羅爾說:“盡快證明它確實有效至關重要。到目前為止,我們做得非常出色。”
(來源:編譯自techcrunch)
*免責聲明:本文由作者原創(chuàng)。文章內容系作者個人觀點,半導體行業(yè)觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業(yè)觀察對該觀點贊同或支持,如果有任何異議,歡迎聯(lián)系半導體行業(yè)觀察。
今天是《半導體行業(yè)觀察》為您分享的第4354內容,歡迎關注。
加星標??第一時間看推送
![]()
![]()
求推薦
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.