![]()
![]()
![]()
lmdeploy v0.11.1 于 2025 年 12 月 24 日正式發布。本次版本更新圍繞功能增強、性能與架構優化、問題修復、文檔完善以及工程與測試體系建設等多個方面展開,進一步提升了模型部署、推理服務和多模態場景下的整體可用性與穩定性。以下為本次版本更新的詳細解讀。
一、新增功能(Features)
在功能層面,v0.11.1 引入了多項重要支持能力。
首先,Ascend 平臺新增了對 dptp 的支持,進一步增強了在特定硬件環境下的部署靈活性。
其次,正式支持 Deepseek v32 模型,使 lmdeploy 能夠覆蓋更多新一代大模型推理需求。
這些功能擴展為用戶在不同模型和不同硬件架構下的部署提供了更廣泛的選擇。
二、改進與增強(Improvements)
在性能和功能增強方面,本次版本更新內容尤為豐富。
1. 監控與指標體系
對 metrics 進行了改進,使性能監控和運行狀態統計更加完善,有助于生產環境中的觀測與調優。2. 調度與引擎優化
重構了調度器與 engine.py,優化了內部結構,提高了整體執行效率和可維護性。同時對 dp 超時時間進行了更新,使分布式場景下的任務調度更加穩定。3. 模型與多模態支持增強
針對 Qwen3-VL 模型進行了多項改進,包括新增 vision id、增加多模態處理器參數,以及整體能力優化,顯著提升了多模態推理的一致性與可擴展性。4. 推理與請求處理能力
在請求被取消時,系統現在能夠返回已路由的專家信息,提升了推理過程中的可解釋性。
同時,v1/chat/completions 接口新增對 chat_template_kwargs 的支持,使對話模板配置更加靈活。5. 內部結構與內存處理
為 dummy 輸入預留 block,優化了內存使用策略;在預填充階段構建 block trie 并增加命中率統計,提升了緩存與推理效率。
v0.11.1 對多個已知問題進行了修復,顯著增強了系統穩定性和安全性。
1. 推理與路由相關修復
修復了按 query 長度拆分路由專家的問題,解決了部分場景下結果異常的問題。
修復了混合請求返回 logprobs 時的請求處理異常。2. 多進程與分布式問題
修復了多進程環境下 HuggingFace 模塊讀寫沖突的問題。
修復了特定硬件環境中 ray 與內存同步相關的問題。3. 量化與數值處理修復
修復了多項與量化相關的問題,包括 quant8 的 fillkv、量化 scale-fmt 處理錯誤以及相關格式問題,保障了低精度推理的正確性。4. 模型與處理器修復
修復了處理器參數錯誤、fope 相關問題,并移除了在 RPC 調用中可能引發 pickle 配置錯誤的 get_model_config 調用。5. 安全性修復
修復了在調用 torch.load 時可能存在的不安全反序列化問題,進一步提升了系統安全性。
在文檔方面,本次版本新增了 VLMEvalKit 使用指南,為多模態模型評測提供了更清晰的參考說明,有助于用戶快速上手和規范化評測流程。
五、其他更新(Other)
代碼地址:github.com/InternLM/lmdeploy
在工程與測試體系方面,v0.11.1 也進行了多項補充與完善。
1. 新增 FA3 支持,擴展了底層能力選項。
2. 新增分布式測試用例和生成測試用例,提升了版本質量保障能力。
3. 在持續集成流程中加入了多模態大模型評測。
4. Ascend 相關代碼進行了重構,使結構更加清晰。
5. Docker 鏡像構建過程中新增自動安裝 serve.txt,簡化部署流程。
6. 版本號正式更新至 v0.11.1。
總結來看,lmdeploy v0.11.1 是一次內容全面且扎實的版本更新,不僅擴展了模型與硬件支持范圍,也在性能、穩定性、安全性和工程化能力上進行了系統性提升,非常適合在生產和研究環境中升級使用。
我們相信人工智能為普通人提供了一種“增強工具”,并致力于分享全方位的AI知識。在這里,您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業洞察。 歡迎關注“福大大架構師每日一題”,發消息可獲得面試資料,讓AI助力您的未來發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.