![]()
![]()
![]()
近日,DeepSpeed正式發布了v0.18.6版本(2026年2月13日),這一版本以穩定性優化為核心,同時兼顧性能與兼容性,為深度學習分布式訓練帶來更高可靠性與靈活度。下面我們來詳細解析此次更新內容。
? 版本號更新
版本文件已同步到0.18.6,確保用戶可以準確獲取最新版本信息,版本管理更加規范。
?? 并發與模塊優化
本次更新修復了leaf 模塊的競態條件問題,進一步提升了模型在高并發環境下的穩定性。同時,這意味著在分布式訓練過程中,模塊之間的同步與數據安全性得到了更好保障。
推理階段優化
在模型評估(eval)階段,系統將跳過序列并行操作,顯著減少無效計算,進一步優化了推理效率。這一改動對大模型推理特別友好,尤其是資源有限的推理部署場景。
AutoTP智能分區增強
此次版本還新增了AutoTP的自定義分區模式支持,并修復了AutoTP自定義模式中未正確遵循use_default_specs參數的問題。
這讓用戶能夠更加靈活地定義Tensor分區策略,從而在不同硬件架構下獲得最優性能表現。
訓練穩定性改進
修復了Gradient is ready with z2 的梯度計算問題,并修正了在ZeRO stage 0配置下,bf16梯度范數發散的問題,顯著提升了混合精度訓練的收斂穩定性。
這對使用ZeRO優化的超大模型訓練尤為關鍵。
Python 3.14兼容性更新
DeepSpeed v0.18.6全面支持Python 3.14的新注解處理機制,為未來Python版本的適配鋪平道路,開發者可放心升級Python環境。
函數庫更新
用math.gcd替代了已棄用的fractions.gcd,保持代碼兼容性與標準化,確保長遠維護更輕松。
? 性能改進:JIT替換為編譯模式
本次更新將torch.jit.script替換為torch.compile,充分利用PyTorch新一代的編譯優化能力,提升執行效率的同時簡化模型編譯部署流程。
總結
代碼地址:github.com/deepspeedai/DeepSpeed
DeepSpeed v0.18.6 是一個以“穩定與兼容”為關鍵詞的精進版本。
? 解決了訓練中的競態與梯度穩定性問題;
? 提升了AutoTP與ZeRO階段的靈活性;
? 完善了對最新Python版本與PyTorch編譯機制的支持。
我們相信人工智能為普通人提供了一種“增強工具”,并致力于分享全方位的AI知識。在這里,您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業洞察。 歡迎關注“福大大架構師每日一題”,發消息可獲得面試資料,讓AI助力您的未來發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.