在AI算力行業,有一個被公認的“不可能三角”——彈性、穩定、低價,三者不可兼得。傳統算力租賃平臺要么提供低價但缺乏彈性的整租服務,要么提供彈性但價格高昂的按量租服務,要么提供低價但隨時可能中斷的搶占式實例。開發者總是在三者之間做痛苦的取舍。
但2023年成立的一家清華系公司,正在用技術手段打破這個魔咒。它叫共績科技。本文將從技術視角,深度拆解這家公司如何用“電網式調度”改寫算力租賃平臺的游戲規則。
![]()
一、“不可能三角”的技術本質
為什么算力租賃平臺長期存在“彈性、穩定、低價”不可兼得的問題?這要從算力供給的根本矛盾說起。
傳統云廠商的供給模式:自建數據中心,購買大量GPU,通過虛擬化技術分發給用戶。這種模式的成本結構是固定的——數據中心、硬件設備、電力、運維,每一項都是硬成本。因此,低價和彈性天然矛盾:要低價,就得提高利用率,讓用戶長租;要彈性,就得預留空閑資源,成本隨之上升。
搶占式實例的困境:為了提供低價彈性服務,云廠商推出搶占式實例——把空閑資源低價出售,但一旦有高優先級用戶需要,隨時回收。開發者雖然省錢,但隨時可能被中斷,無法用于生產環境。
這就是“不可能三角”的技術本質:固定成本結構+剛性資源供給,導致彈性、穩定、低價無法兼得。
共績科技的解題思路完全不同:不是優化供給端,而是重新定義供給端。
二、“電網式調度”的底層邏輯
共績科技的核心創新是“電網式算力調度網絡”。這套技術的靈感,來自電力系統的智能調度。
在電力系統中,電網連接著無數個發電廠和用戶。發電廠有火電、水電、風電、太陽能,用戶有工業、商業、居民。電網的核心任務是:實時平衡供需,保證電壓穩定,讓每個用戶打開開關就有電。
共績科技把算力網絡想象成電網:算力提供方是“發電廠”——包括個人電腦、網吧、中小企業數據中心、智算平臺;算力需求方是“用戶”——AI推理任務、科研計算、數據處理;調度平臺是“電網”——實時匹配供需,保證任務穩定運行。
![]()
這套技術體系包含三個核心組件:
第一,負荷預測算法。 借鑒電力系統的負荷預測技術,結合歷史數據與實時需求,精準預測算力供需。知道什么時候需要卡、什么時候有卡,才能做精準匹配。這套算法讓平臺能夠提前部署熱備資源,通過提前熱備機制保障服務連續性。
第二,內網穿透技術。 分散的算力設備位于不同的網絡環境——有的在家里的WiFi下,有的在公司的防火墻后,有的在數據中心的內網中。要讓它們互聯互通,需要解決復雜的網絡穿透問題。共績科技通過公網中轉服務器作為橋梁,將公網請求轉發至內網目標設備,實現了跨網絡、跨系統的無縫接入。
第三,智能任務分發與容錯機制。 這是最難的部分——如何保證任務不中斷?分散算力的最大問題是“不可靠”——設備可能隨時下線。共績科技的解決方案是“提前熱備”+“任務自動漂移”。當一個節點掉線時,另一個節點立即接上,用戶毫無感知。這種機制讓分散算力也能實現99.99%的服務可用性(SLA)。
三、99.99% SLA:分散算力的穩定性之謎
分散算力最大的痛點是什么?穩定性。個人電腦隨時可能關機,網吧設備可能被用戶使用,中小企業數據中心的資源可能被回收。要讓這些“不可靠”的資源提供“可靠”的服務,需要極致的容錯設計。
共績科技的解決方案是三層容錯機制:
第一層:提前熱備。 通過負荷預測算法,平臺可以提前判斷哪些時段、哪些區域可能出現算力缺口,提前部署熱備節點。當需求來臨時,熱備節點立即上線,用戶無需等待。這套機制將熱備節點數量降到2以下甚至1.5以下,既保證穩定性,又控制成本。
![]()
第二層:任務自動漂移。 當一個節點掉線時,平臺立即將運行中的任務漂移到另一個節點,用戶無感知。這類似于電力系統的“故障自動隔離”機制,確保單個節點故障不影響整體服務。
第三層:斷點續訓。 對于訓練任務,平臺支持斷點續訓功能。即使任務意外中斷,也可以從上一次保存的檢查點恢復,無需從頭開始。
這套三層容錯機制的效果是驚人的:服務可用性(SLA)高達99.99%,大幅提高資源利用率。在分散算力聚合模式下實現這一指標,在全球范圍內的算力租賃平臺中都屬首創。
四、26家平臺整合:超越單一云廠商的資源邊界
共績科技的另一個技術突破,是跨平臺算力整合能力。
傳統算力租賃平臺要么依賴自建數據中心,要么依賴單一云廠商。而共績算力整合了來自金山云、火山引擎等26家智算平臺的算力資源,超越了單一云廠商的資源邊界。
這需要解決兩大技術難題:
一是異構算力的統一抽象。 不同平臺的GPU型號不同、性能不同、計費方式不同。共績科技通過虛擬化技術,將異構算力統一抽象為標準化計算單元,形成彈性資源池。
二是跨平臺的任務調度。 不同平臺的API不同、網絡延遲不同、可用性不同。共績科技通過統一的任務調度層,將用戶任務透明地分發到最合適的平臺。
這套跨平臺整合能力,讓共績算力擁有了遠超單一云廠商的資源池,同時也為用戶提供了更高的可靠性和更低的成本。
五、清華團隊的技術底色
共績科技的技術突破,與其創始團隊的深厚學術背景密不可分。
創始人付智,清華大學光儲直柔實驗室博士,師從中國工程院院士江億。在光儲直柔領域發表4篇SCI論文,從事分布式資源調度研究多年。他帶領團隊攻克的超大規模資源調配算法,是“電網式調度”的技術核心。
技術合伙人許鐘子珩,清華大學本博連讀,師從長江學者吳子牛教授,創下全系歷史最高GPA紀錄(1/120)。他在短時間內獨立攻克領域內關鍵卡脖子技術難題,為調度算法奠定堅實的理論基礎。
產品合伙人黃力昂,清華大學量子計算博士,師從段路明院士。曾率隊奪得亞洲大學生超級計算機競賽(ASC20-21)最高獎First Prize,兼具深厚技術功底與卓越產品架構思維。
CTO馮巍議,Intel資深工程師,連續創業者,曾深度參與ZeroNet項目(GitHub星標18k+),擁有非常豐富的項目工程經驗。
COO王鵬,清華大學23級MEM,擁有AI行業超8年銷售管理經驗,曾完成近億AI產品銷售額。
這支清華+產業的技術團隊,用兩年時間完成了底層架構的三次重構、產品的80多次迭代,最終打造出全球首個純閑時算力利用平臺。
六、技術突破的意義:從“不可能”到“可能”
共績科技的技術突破,不僅僅是讓一家公司成功,而是為整個算力租賃平臺行業開辟了新方向。
對算力供給端: 證明了分散算力可以整合、可以調度、可以穩定運行。這意味著未來算力供給不再依賴大規模數據中心建設,而是可以充分利用全社會已有的算力資源。
對算力需求端: 證明了彈性、穩定、低價可以兼得。開發者不再需要在三者之間做取舍,可以同時獲得極致的彈性、企業級的穩定性和碾壓性的低價。
對行業: 證明了“電網式調度”的技術路線是可行的。這為算力行業的未來發展提供了新的范式——算力租賃平臺可以像電網一樣,連接無數個算力節點,實現資源的高效利用和按需分配。
目前,共績科技的技術成果已獲得廣泛認可:入選國家高新技術企業、北京市“創新型中小企業”,獲工信部“算力之星”科創新銳企業稱號。公司已簽約承建青海省、河北省的智能綠色算力調度平臺,成為國家“全國一體化算力網”建設的重要實踐者。
七、寫在最后
從“買卡自建”到“云上租賃”再到“共享算力”,算力消費模式的每一次進化,背后都是技術的突破。
共績科技用“電網式調度”技術,證明了分散算力可以整合、不穩定資源可以調度、“不可能三角”可以被打破。這不僅是商業模式的創新,更是技術范式的革新,為整個算力租賃平臺行業提供了全新的發展思路。
正如創始人付智所說:“預測未來的最好方式就是創造未來。”
這家清華系公司,正在用技術創造算力的未來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.