近日,作為2026中關(guān)村論壇核心組成部分,由趨境科技與九源智能計(jì)算系統(tǒng)生態(tài)聯(lián)合體共同主辦的“全棧智能 全域推理:Token爆發(fā)元年的全場景大規(guī)模推理服務(wù)”專題研討會成功舉辦。
商湯大裝置首席架構(gòu)師項(xiàng)鐵堯受邀出席研討會,并發(fā)表《商湯大裝置AI原生云基礎(chǔ)設(shè)施探索與實(shí)踐》主題演講,系統(tǒng)闡述了商湯大裝置對AI原生時(shí)代算力集群建設(shè)的前沿判斷與實(shí)踐路徑——如何將軟硬件能力真正轉(zhuǎn)化為客戶可用、易用、高效的算力服務(wù)。
在他看來,當(dāng)算力集群的發(fā)展進(jìn)入AI原生時(shí)代,新的架構(gòu)范式應(yīng)具備統(tǒng)一的規(guī)范、極致彈性的擴(kuò)縮容機(jī)制以及為大模型訓(xùn)練和推理深度優(yōu)化的AI集群runtime。
![]()
01. AI算力池:面向角色、水平分層、資源自由流轉(zhuǎn)
項(xiàng)鐵堯從底層技術(shù)視角切入,指出Kubernetes(全球最流行的容器編排平臺)正朝著AI方向發(fā)展。
隨著動態(tài)資源分配(DRA)、Workload API與Gateway API三項(xiàng)核心新特性的引入,K8s逐漸從簡單的容器編排工具,進(jìn)化為AI時(shí)代的操作系統(tǒng)。這背后,其實(shí)是整個(gè)行業(yè)在加速從云原生集群時(shí)代向AI原生時(shí)代躍遷。
圍繞上述轉(zhuǎn)變過程,項(xiàng)鐵堯重點(diǎn)介紹了商湯大裝置前瞻打造的核心產(chǎn)品——AI算力池。
據(jù)了解,AI算力池面向AI原生時(shí)代全新算力服務(wù)需求,采用"三明治"水平分層架構(gòu),從底層高度優(yōu)化的計(jì)算網(wǎng)絡(luò)存儲基礎(chǔ)設(shè)施,到中間層全新的虛擬集群技術(shù),再到上層涵蓋開發(fā)機(jī)、訓(xùn)練平臺、部署平臺及Agentic Engine的完整PaaS產(chǎn)品體系,全面杜絕不同產(chǎn)品之間的資源孤島問題。
![]()
其中,大裝置AI算力池具備三大優(yōu)勢:
1)面向角色。面對客戶內(nèi)部角色多元、需求復(fù)雜的現(xiàn)實(shí),分別設(shè)計(jì)服務(wù)形態(tài)、提供差異化的解決方案。比如針對集群管理員與平臺工程師提供高彈性虛擬集群資源;針對AI研究員,可提供豐富的腳本工具與高效研發(fā)環(huán)境等等。
2)水平分層。AI算力池采用“三明治”結(jié)構(gòu),杜絕產(chǎn)品間信息、資源孤島的可能。
3)資源自由流轉(zhuǎn)。用戶只需購買一種通用算力形態(tài),即可在虛擬機(jī)、虛擬集群、AI Code Space開發(fā)機(jī)等不同產(chǎn)品形態(tài)之間秒級自由切換,充分應(yīng)對國內(nèi)普遍存在的算力潮汐效應(yīng),大幅提升集群整體資源利用率。
02虛擬集群:全量托管,秒級彈性擴(kuò)縮容
值得一提的是,在底層Infra層,商湯大裝置創(chuàng)新應(yīng)用虛擬集群技術(shù),解決了傳統(tǒng)云托管服務(wù)中“數(shù)據(jù)面管理重、擴(kuò)容慢”的痛點(diǎn)。
有別于主流云廠商僅托管控制面,數(shù)據(jù)面仍需用戶自行管理的傳統(tǒng)模式,全新的虛擬集群技術(shù),實(shí)現(xiàn)了控制面與數(shù)據(jù)面的全量托管,擴(kuò)縮容效率從傳統(tǒng)方案的數(shù)分鐘乃至數(shù)十分鐘壓縮至秒級,同時(shí)提供完全標(biāo)準(zhǔn)的K8s API,用戶無需對現(xiàn)有代碼做任何修改即可無縫接入。
03三大自研套件:護(hù)航超大規(guī)模AI訓(xùn)練與推理
在虛擬集群基礎(chǔ)上,項(xiàng)鐵堯進(jìn)一步提出AI集群Runtime產(chǎn)品概念。
“要快速搭建一個(gè)離線混部、訓(xùn)練推理混合使用的集群非常復(fù)雜,因?yàn)楝F(xiàn)在AI新的技術(shù)層出不窮,各種組件之間協(xié)同優(yōu)化同樣復(fù)雜。”項(xiàng)鐵堯指出,“為了解決這種難題,我們通過智能推薦、深度調(diào)優(yōu)與版本鎖定機(jī)制,幫助用戶快速搭建復(fù)雜的在離線混部、訓(xùn)練推理混合使用集群,降低AI基礎(chǔ)設(shè)施的使用門檻與運(yùn)維復(fù)雜度。”
為了進(jìn)一步滿足超大規(guī)模AI生產(chǎn)場景的極致性能需求,商湯大裝置還自研了三大套件:
1)SenseCore Scheduler:高性能調(diào)度器,支持復(fù)雜異構(gòu)硬件的在離線混合調(diào)度。
2)容錯(cuò)引擎:解決超大規(guī)模訓(xùn)練中的不穩(wěn)定性,實(shí)現(xiàn)故障自動檢測與隔離。
3)Agentic Engine:針對不斷涌現(xiàn)的Agent使用需求,進(jìn)行深入優(yōu)化,包括沙箱預(yù)熱、快速啟動、規(guī)劃保持、狀態(tài)快照等。
04虛擬節(jié)點(diǎn):打通彈性算力最后一環(huán)
為了以更靈活的規(guī)格為客戶提供算力資源,商湯大裝置同步自研虛擬節(jié)點(diǎn)技術(shù),它具備三大優(yōu)勢:
1)虛擬集群體系無縫集成;
2)提供相比于虛擬機(jī)更輕量級的使用體驗(yàn)以及更高效的性能;
3)提供相比于runc更好的安全性和隔離度。
05生態(tài)合作,共同助推國產(chǎn)推理基礎(chǔ)設(shè)施迭代
演講中,項(xiàng)鐵堯還特別感謝九源智能計(jì)算系統(tǒng)生態(tài)聯(lián)合體與生態(tài)伙伴趨境科技。
目前,商湯大裝置已與趨境科技展開深度合作,為趨境科技自研的ATaaS高效能AI Token生產(chǎn)服務(wù)平臺提供高性能、高可靠的算力支撐。
據(jù)了解,趨境ATaaS高效能AI Token生產(chǎn)服務(wù)平臺可支撐萬級別AI推理需求,并達(dá)到日均萬億級別Token整體產(chǎn)能。
在生態(tài)聯(lián)盟層面,商湯大裝置作為九源智能計(jì)算系統(tǒng)生態(tài)聯(lián)合體理事單位,積極參與這一以"產(chǎn)學(xué)研用服"協(xié)同合作為核心模式的開放生態(tài)。
該聯(lián)合體聚焦國產(chǎn)智能計(jì)算系統(tǒng)建設(shè)、軟件生態(tài)統(tǒng)一與技術(shù)成果轉(zhuǎn)化,致力于構(gòu)建自主可控的智能計(jì)算產(chǎn)業(yè)生態(tài)。商湯大裝置加入其中,希望以自身在AI基礎(chǔ)設(shè)施領(lǐng)域的積累,為整個(gè)生態(tài)貢獻(xiàn)實(shí)質(zhì)性力量,推動AI能力真正走向普惠。
未來,商湯大裝置將進(jìn)一步聯(lián)合生態(tài)伙伴,共同推動國產(chǎn)推理基礎(chǔ)設(shè)施迭代升級,為我國人工智能產(chǎn)業(yè)高質(zhì)量發(fā)展、新質(zhì)生產(chǎn)力落地提供堅(jiān)實(shí)支撐。
轉(zhuǎn)載來源:商湯科技
本文為量子位獲授權(quán)轉(zhuǎn)載,觀點(diǎn)僅為原作者所有。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.