337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

算力堪比三峽發電!上海萬卡GPU集群如何助跑AI大模型 記者實探來了

0
分享至

《科創板日報》4月6日訊(記者 黃心怡)走進位于上海松江的儀電智算中心,機房內風扇轟鳴不止,上萬張GPU設備整齊排列,與縱橫交錯的高速網絡線纜共同編織出一張龐大的算力網絡。每張芯片每秒可執行數十萬億次運算,它們兩天匯聚的計算能量,相當于三峽水電站一臺機組一小時的發電量。

算力是AI發展的根基,而要讓上萬張GPU卡高效協同為一個集群運轉,絕非易事。《科創板日報》記者了解到,目前上海儀電旗下智算科技團隊已成功實現集群99.99%的超高可用性,相當于全年總故障時間縮短至1小時內。

《科創板日報》記者獲悉,該萬卡集群已適配多種國產算力卡,具備多元異構算力的融合與優化調度能力。

▍萬卡級GPU集群穩定運行

2023年,上海儀電成立智算科技,牽頭布局“萬卡集群”,搭建智算云平臺和公共服務體系。

算力集群不僅是加速卡的堆疊,還需要復雜的高速網絡和強大的調度軟件,它與AI大模型的關系好比“電與發電機”。“要讓接近萬卡算力的芯片配上高效的通訊網絡,再結合相應的存儲設備,能夠像一臺電腦這樣,成為一個集群整體高效運轉,難度相當大。”智算科技董事長、總經理孫躍坦言,“而更難的是,這1萬張卡組成的集群,還要7×24小時不間斷地提供算力服務。”

據了解,AI算力底座中算力芯片的故障率遠超傳統的IT設備。而在大模型訓練時,哪怕僅僅1分鐘的算力中斷,都可能會造成幾十個小時的訓練結果損失。調度萬卡,就像是讓上萬架無人機在密集的空中高速穿梭,每張芯片都容不得一毫米的誤差。

面對萬卡級GPU集群穩定運行難的痛點,智算科技這支平均年齡僅32歲的“夢之隊”爆發出極強的戰斗力。團隊曾連續79天吃住在機房駐守,為了0.1%的性能提升每天熬紅雙眼反復打磨代碼,開展算法攻堅。面對緊急任務,他們打破常規,將線性流程優化為“并行施工+邊測邊調”,搶占每一秒進度。

據悉,團隊成功實現了集群99.99%的超高可用性,相當于全年總故障時間縮短至1小時內,這有力支撐了某大模型公司等多模態大模型領先全球的訓練,成功避免了算力中斷可能造成的巨大損失。

▍融合異構芯片 把國產算力用起來

據了解,智算科技萬卡集群已成功適配多種國產算力卡,實現了多元異構算力的融合與優化調度。孫躍介紹,在很多任務中,國產設備發揮了至關重要的作用。

“不同業務、不同行業對芯片的需求各不相同,而各類國產算力芯片在細分領域也各具優勢。通過異構算力的融合,我們把國產算力真正用了起來,可以在同一底座、同一云平臺的基礎上,更好地滿足不同垂類客戶對算力基礎設施的差異化需求,進一步發揮國產軟硬件基礎設施的潛力。”


目前,智算科技萬卡集群的使用率已接近100%,基本實現建成即滿負荷運轉。在某新型科研機構項目中,團隊僅用一周便完成近千卡集群的建設與交付,跑出行業領先速度,隨后又成功部署萬卡集群算力,有力保障國家重點科研任務的推進。截至目前,已具備萬卡規模高性能算力集群的部署與交付能力。

智算科技還首創“動態感知調度方案”,使訓練效率飆升91%,每年為國家節省的算力成本相當于新建3個數據中心,實現了混合架構萬卡集群調度技術的自主可控。

今年全國兩會上,“算電協同”首次被寫入政府工作報告,成為國家級戰略性新基建工程。智算科技也在這一領域積極開展探索。

孫躍透露,“在基礎設施和機房建設過程中間,我們進一步擴大對綠電的使用比例,并通過液冷集群,提高整個能源的使用效率,降低PUE值。另一方面,我們也在和上下游的合作伙伴進行探索。比如,結合淞滬地區海上風電資源,實現風電直接驅動的海底數據中心,從而來降低算力成本,也是當前開展的算電協同的重要嘗試。”

▍推動國產算力生態協同

當前,新一代人工智能快速發展,算力需求持續激增。“越來越多的算力不僅滲透到千行百業,甚至開始走進千家萬戶。從近期備受關注的AI Agent、智能體工作流到OpenClow等,發展速度往往超出想象。這不是一個線性的過程,而是階躍式演進,未來雖難以準確描述其具體目標,但發展的節奏只會越來越快。”孫躍稱。

談及未來規劃,孫躍表示,一方面要提高算力基礎設施的建設效率,以及萬卡集群的使用效率,這是在基礎設施側需要重點攻關的方向。

另一方面,上海儀電將打造開放、靈活、彈性的智算云服務平臺。“去年在世界人工智能大會上,我們發布了智算平臺YI CLOUD,旨在面向各類不同領域的用戶,提供更普惠、更便捷的算力服務。這種算力服務依托于智算云,提供的不僅是算力,還包括行業所需的語料、模型、智能體等能力的適配,幫助用戶在單一垂直領域更高效地使用算力。”孫躍稱。

此外,上海儀電還在生態建設上發力。

“作為一家平臺型的鏈主企業,上海儀電希望發揮生態鏈接的作用,牽引產業鏈上下游軟硬件廠商,包括GPU企業、網絡通訊、模型企業、智能體企業等,帶動合作伙伴實現國產算力生態協同的創新方案,以賦能國產大模型以及相關AI+應用,這是我們未來發展的另一重點。”孫躍表示。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

財聯社 incentive-icons
財聯社
以“準確、快速、權威、專業”為新聞準則,為投資者提供專業的投資資訊。
704279文章數 1019638關注度
往期回顧 全部

專題推薦

洞天福地 花海畢節 山水饋贈里的“詩與遠方

無障礙瀏覽 進入關懷版