![]()
![]()
![]()
2026 年 1 月 8 日,DeepSpeed 官方正式發布 v0.18.4 版本。本次更新主要聚焦于 性能優化、穩定性修復、兼容性增強,并帶來了對 Python 3.11 / 3.12、PyTorch 2.8 / 2.9 與 AMD ROCm 的全面支持。該版本共包含 23 次提交,涉及 14 位貢獻者,修改文件數 41 個,是一次重要的維護與優化版本。下面我們詳細解讀 v0.18.4 的更新內容。
一、核心更新與改進 ? 1. 版本管理與測試體系優化
? 更新版本號并同步測試框架。
? 在編譯測試中禁用 deterministic 選項,以提升測試靈活性與速度。
? 在持續集成(CI)層面新增 AWS 測試工作流,使測試環境更加多樣化和穩定。
? 啟用對 Python 3.11 與 3.12 的自動化測試支持,進一步拓寬兼容邊界。
? 修復 SuperOffloadOptimizer_Stage3 崩潰問題(由缺失
param_names參數引起)。? 改進 Engine 模塊,僅在
scale_wrt_gas為 True 時才對梯度進行縮放,從而提升計算效率。? 修復 Nebula Checkpoint Engine 的
commit()API 不匹配問題,完善接口一致性。? 修復 DecoupledCheckpointEngine 潛在死鎖問題,并增強整體可靠性。
? 優化 DeepSpeed Async I/O 機制,通過釋放 Python GIL 解決罕見的異步等待卡死問題。
? 修復 OnebitLamb 在空參數情況下出現的 NaN 傳播問題,提升分布式優化器穩定性。
? 修復 BF16_Optimizer 在 DummyOptim 模式下的 IndexError 異常,保障兼容性。
? 改進 DeepCompile 模塊,以確保與 PyTorch 2.8 / 2.9 的高度兼容。
? 替換
torch.sqrt為math.sqrt,解決因不同實現導致的學習率縮放誤差問題。? 更正 MOE 檢查點中的分布式尺寸定義,將
dp_world_size替換為seq_dp_world_size。? 修復 UlyssesSPAttentionHF 與 PEFT 模型在注冊時的兼容性錯誤。
? 針對部分依賴 Triton 的測試用例進行修復,確保多平臺一致性。
本次版本顯著提升了 AMD GPU(ROCm 平臺)的支持能力,對相關后端進行了進一步優化。部分 AMP 測試用例被跳過,以確保在 AMD 環境下的執行穩定性。
? 2. BF16 支持檢查優化
新增 BF16 支持的 fallback 檢測邏輯,可在硬件不支持時自動回退至安全路徑,提升兼容性與健壯性。
三、代碼質量與小幅修正
? 修復若干拼寫錯誤,提升代碼可讀性。
? 在反向傳播 Hook 中跳過 None 值,修復潛在異常。
? 移除 OpenMPIRunner 中過早的 MPI 環境變量檢測邏輯,增強啟動靈活性。
? 移除了舊版 AMP 相關測試用例,保持代碼庫簡潔。
? 補充并發布 Core API 更新日志,完善官方文檔體系。
代碼地址:github.com/deepspeedai/DeepSpeed
DeepSpeed v0.18.4 是一次高質量的維護性更新,覆蓋了 兼容性、穩定性、測試體系、性能優化 等多個方面,對 AMD 生態及高版本 Python / PyTorch 的支持尤為顯著。對于研發者而言,本次版本在大規模分布式訓練的可靠性上帶來了切實提升。
版本要點回顧:
? ? 全面支持 Python 3.11 / 3.12 與 PyTorch 2.8 / 2.9
? ? 增強 AMD ROCm 兼容與性能
? ? 提升 DeepSpeed Async I/O、Checkpoint 引擎穩定性
? ? 優化梯度縮放與學習率計算邏輯
? ? 改進 BF16、MOE、Ulysses 等子模塊
? ? 新增 AWS 測試工作流,強化 CI 能力
結語:
隨著 v0.18.4 的發布,DeepSpeed 在多平臺深度訓練生態中進一步鞏固領先地位,為開發者提供了更高效、更可靠的訓練引擎支持。未來版本將繼續深化異構計算與自定義算子的優化,讓大規模模型訓練更快、更穩。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.