![]()
![]()
![]()
2026 年 2 月 1 日,DeepSpeed 官方團(tuán)隊正式發(fā)布v0.18.5 版本。本次更新帶來了大量功能改進(jìn)與穩(wěn)定性增強(qiáng),進(jìn)一步完善了在多設(shè)備(尤其是 MPS 與 BF16 環(huán)境)下的兼容性與性能優(yōu)化。以下為本次更新的詳細(xì)內(nèi)容整理。
版本概覽
DeepSpeed v0.18.5 共包含34 次提交(Commits)、15 位貢獻(xiàn)者、50 個文件變更,主要集中于以下幾個方向:
? 多平臺兼容性優(yōu)化
? ZeRO-3 與 BF16 支持增強(qiáng)
? 訓(xùn)練引擎與測試框架改進(jìn)
? 文檔與教程同步更新
? PyTorch 版本升級至v2.9
? 更新版本號文件 version.txt(v0.18.4 → v0.18.5)。
? 增強(qiáng)在Apple MPS平臺上的運(yùn)行兼容性。
? 優(yōu)化 GitHub Workflow 觸發(fā)邏輯,新增測試超時限制。
? 刪除過時的V100 測試觸發(fā)器,提升 CI 效率。
? 新增完整測試套件工作流,確保功能覆蓋更廣。
? 刪除
using namespace std.語句,提升代碼規(guī)范性。? 修復(fù)多進(jìn)程測試問題。
? 針對壓縮 allreduce 操作添加空張量跳過邏輯。
? 優(yōu)化引擎清理機(jī)制(engine cleanup),減少冗余資源占用。
? 修復(fù) Ping-Pong 緩沖索引重置邏輯,移除多余的同步操作。
? 為ZeRO-3增加順序 allgather 優(yōu)化,顯著提升大規(guī)模分布式訓(xùn)練性能。
? 修復(fù) ZeRO 階段中BF16 優(yōu)化器選擇邏輯,確保不同精度模式下的正確行為。
? 修復(fù)BF16_Optimizer無 ZeRO 模式下被誤用的問題。
? 在 ZeRO 測試中自動選擇合適的優(yōu)化器,保證一致性。
? 修復(fù)z0 + bf16 模式下的 checkpoint 加載問題。
? 修復(fù)梯度檢查點(diǎn)(gradient checkpointing)在
use_reentrant=True、PyTorch-style backward、ZeRO-3 模式下的兼容性問題。? 修復(fù)管道引擎(pipeline engine)中反向傳播的異常。
? 在梯度歸約(gradient reduction)中跳過空參數(shù),避免無效同步。
? 修復(fù)BF16 優(yōu)化器選擇問題,避免錯誤分配。
? 修復(fù)Muon 優(yōu)化器模塊路徑錯誤。
? 解決在 Ulysses 模型中sp_size < world_size 時反向傳播報錯(Rank index out of range)的問題。
? 修復(fù)Ulysses PEFT 測試與Evoformer 編譯錯誤,并調(diào)整Evoformer 測試為順序執(zhí)行,以提升穩(wěn)定性。
? 更新Megatron-DeepSpeed 教程,使其與當(dāng)前倉庫結(jié)構(gòu)匹配。
? 修復(fù)配置文件文檔(config-json.md)的格式問題。
? 更新README.md與加速器配置指南,修正拼寫與鏈接錯誤。
? 調(diào)整CLA 協(xié)議說明,改為采用DCO(Developer Certificate of Origin)驗證機(jī)制,簡化貢獻(xiàn)流程。
? 增加在未指定
modifier_rank的情況下,對GatheredParameters 原地修改的清晰報錯提示,幫助開發(fā)者快速定位問題。? 將PyTorch 模態(tài)測試框架全面升級至v2.9,確保最新版本兼容性與性能表現(xiàn)。
代碼地址:github.com/deepspeedai/DeepSpeed
DeepSpeedv0.18.5是一次穩(wěn)定而重要的更新。該版本在多平臺支持、分布式訓(xùn)練性能、BF16 與 ZeRO 模式兼容性、文檔一致性等方面都進(jìn)行了全面優(yōu)化。隨著 PyTorch 2.9 的支持加入,DeepSpeed 在高性能大模型訓(xùn)練領(lǐng)域的工程成熟度再度提升。
這次更新不僅強(qiáng)化了核心訓(xùn)練引擎的健壯性,也為未來的性能擴(kuò)展和多平臺支持奠定了基礎(chǔ)。
版本信息:
? 版本號:v0.18.5
? 發(fā)布日期:2026 年 2 月 1 日
? ? 提交數(shù):34
? 文件變動:50
結(jié)語:
DeepSpeed v0.18.5 的推出,再次展示了其在分布式訓(xùn)練與模型加速領(lǐng)域的持續(xù)領(lǐng)先。對于追求極致性能與兼容性的開發(fā)者而言,本次升級值得立即嘗試與部署。
我們相信人工智能為普通人提供了一種“增強(qiáng)工具”,并致力于分享全方位的AI知識。在這里,您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業(yè)洞察。 歡迎關(guān)注“福大大架構(gòu)師每日一題”,發(fā)消息可獲得面試資料,讓AI助力您的未來發(fā)展。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.