lmdeploy v0.12.2 發(fā)布！全面支持 GLM5、Qwen3.5，性能與兼容性雙升級，大模型部署再提速

2026-03-22 00:10:53　來源: moonfdd

北京舉報

分享至

一、版本總覽：2026開年關(guān)鍵迭代，大模型部署生態(tài)再進(jìn)化

2026年3月18日，InternLM團(tuán)隊正式發(fā)布lmdeploy v0.12.2版本，作為開年以來的重要迭代，該版本聚焦模型支持廣度、推理性能、量化能力、硬件兼容性、穩(wěn)定性五大核心維度，完成34次提交、277個文件修改，由16位貢獻(xiàn)者協(xié)同打磨，實(shí)現(xiàn)了對GLM5、Qwen3.5等主流大模型的全面適配，同時在TurboMind引擎優(yōu)化、量化技術(shù)升級、Bug修復(fù)等方面實(shí)現(xiàn)突破性進(jìn)展，為大模型高效、穩(wěn)定、低成本部署提供了更強(qiáng)大的技術(shù)支撐。

lmdeploy作為覆蓋大模型壓縮、推理、服務(wù)的一體化部署工具包，憑借TurboMind高性能推理引擎、靈活的量化方案、多模型兼容能力，已成為大模型落地的核心基礎(chǔ)設(shè)施。v0.12.2版本延續(xù)了工具的核心優(yōu)勢，進(jìn)一步拓寬模型適配邊界，強(qiáng)化性能與穩(wěn)定性，無論是個人開發(fā)者的本地部署，還是企業(yè)級的大規(guī)模服務(wù)化，都能提供更優(yōu)的解決方案。

二、核心新特性：模型支持全面擴(kuò)容，推理能力再突破（一）主流大模型全面適配，覆蓋國產(chǎn)與開源生態(tài)

1.支持GLM5模型
作為本次版本的核心亮點(diǎn)之一，lmdeploy v0.12.2正式新增對GLM5模型的支持，補(bǔ)齊了對智譜AI主流大模型的部署能力。GLM5作為智譜AI推出的新一代大模型，在通用理解、邏輯推理、多輪對話等方面具備顯著優(yōu)勢，此次適配讓開發(fā)者可通過lmdeploy快速實(shí)現(xiàn)GLM5模型的本地推理與服務(wù)化部署，無需復(fù)雜的二次開發(fā)，即可將GLM5的能力集成到各類應(yīng)用中。
2.新增Qwen3.5模型支持
緊跟通義千問模型迭代節(jié)奏，v0.12.2版本全面支持Qwen3.5系列模型，包括密集型（Dense）與混合專家型（MoE）架構(gòu)。Qwen3.5作為阿里云推出的高性能大模型，在長文本處理、多模態(tài)交互、實(shí)時推理等場景表現(xiàn)突出，此次適配不僅實(shí)現(xiàn)基礎(chǔ)推理支持，更通過TurboMind引擎深度優(yōu)化，保障Qwen3.5模型在部署后的推理效率與穩(wěn)定性。
3.GLM-4.7-Flash Turbomind專項支持
針對GLM-4.7-Flash模型，版本新增專屬的TurboMind支持能力。GLM-4.7-Flash主打低延遲、高吞吐推理，適配實(shí)時對話、智能客服等對響應(yīng)速度要求嚴(yán)苛的場景，lmdeploy通過定制化的TurboMind引擎適配，充分釋放該模型的性能潛力，實(shí)現(xiàn)推理延遲與吞吐量的雙重優(yōu)化。
4.Qwen/Internlm/Llama系列模型FP8量化在線支持
為解決大模型部署中的顯存占用與推理速度矛盾，v0.12.2版本實(shí)現(xiàn)對Qwen、Internlm、Llama三大主流模型系列（含Dense與MoE架構(gòu)）的FP8量化在線支持。FP8量化作為兼顧精度與效率的量化方案，可在幾乎不損失模型推理精度的前提下，將顯存占用降低約50%，同時提升推理速度，大幅降低大模型部署的硬件門檻，讓中低端GPU也能流暢運(yùn)行百億參數(shù)級大模型。

（二）推理與生成能力升級，提升生成質(zhì)量與靈活性

1.新增TurboMind對Qwen3.5全架構(gòu)支持
除基礎(chǔ)適配外，版本通過專項開發(fā)，實(shí)現(xiàn)TurboMind引擎對Qwen3.5 Dense與MoE架構(gòu)的完整支持。TurboMind作為lmdeploy的核心推理引擎，基于C++/CUDA實(shí)現(xiàn)，具備連續(xù)批處理、分塊KV緩存、高性能算子等優(yōu)勢，此次針對Qwen3.5的深度優(yōu)化，可讓該模型在lmdeploy部署后，吞吐量較原生推理提升數(shù)倍，同時降低推理延遲。
2.支持Router Replay與量化層忽略（Qwen3.5專屬）
針對Qwen3.5模型的MoE架構(gòu)特性，版本新增Router Replay（路由重放）與忽略量化層功能。Router Replay可優(yōu)化MoE模型中專家路由的推理效率，減少重復(fù)計算；忽略量化層則允許開發(fā)者針對模型特定層跳過量化，平衡推理精度與速度，滿足不同場景的部署需求，進(jìn)一步提升Qwen3.5模型部署的靈活性。
3.新增Repetition Ngram Logits Processor
為解決大模型生成過程中的重復(fù)文本問題，v0.12.2版本新增Repetition Ngram Logits Processor（重復(fù)N元語法邏輯處理器）。該功能通過對生成文本的N元語法進(jìn)行檢測與懲罰，有效抑制重復(fù)片段的生成，提升生成文本的連貫性、多樣性與質(zhì)量，尤其適用于長文本生成、內(nèi)容創(chuàng)作、對話交互等場景。

三、性能與兼容性優(yōu)化：引擎升級，適配更廣泛硬件與框架（一）TurboMind引擎深度優(yōu)化，適配最新技術(shù)棧

1.兼容Transformers 5.0框架
隨著Hugging Face Transformers框架迭代至5.0版本，lmdeploy v0.12.2同步完成TurboMind引擎的兼容性升級，確保基于最新Transformers框架訓(xùn)練或?qū)С龅哪Ｐ停蔁o縫通過lmdeploy部署。此次兼容覆蓋模型加載、權(quán)重解析、推理流程等全鏈路，避免因框架版本不匹配導(dǎo)致的部署失敗，保障開發(fā)者使用最新模型與工具鏈的順暢性。
2.支持Qwen與Internlm模型FP32 Head
針對Qwen與Internlm系列模型，版本新增FP32精度的輸出頭（Head）支持。在部分對推理精度要求極高的場景（如金融分析、醫(yī)療診斷、科學(xué)計算），F(xiàn)P32精度可避免量化帶來的精度損失，保障輸出結(jié)果的準(zhǔn)確性；同時，該功能可與模型其他部分的量化方案靈活搭配，實(shí)現(xiàn)精度與效率的動態(tài)平衡。
3.MLA KV緩存內(nèi)存占用優(yōu)化
通過核心算法優(yōu)化，版本實(shí)現(xiàn)MLA（Multi-Head Latent Attention）結(jié)構(gòu)的KV緩存內(nèi)存占用大幅降低。KV緩存作為大模型推理中顯存占用的核心部分，其優(yōu)化直接影響模型可部署的上下文長度與并發(fā)數(shù)，此次優(yōu)化可在相同硬件條件下，支持更長的上下文窗口或更多的并發(fā)請求，顯著提升長文本、多輪對話場景的部署能力。
4.新增Recurrent Gated Delta Rule內(nèi)核
引入全新的Recurrent Gated Delta Rule（循環(huán)門控增量規(guī)則）計算內(nèi)核，針對循環(huán)神經(jīng)網(wǎng)絡(luò)相關(guān)結(jié)構(gòu)的推理進(jìn)行專項加速。該內(nèi)核通過優(yōu)化門控機(jī)制與增量計算邏輯，減少冗余計算步驟，提升循環(huán)結(jié)構(gòu)的推理速度，適配具備循環(huán)特性的大模型架構(gòu)，進(jìn)一步拓寬lmdeploy的模型適配范圍與性能邊界。
5.MLA內(nèi)核性能再提升
在原有MLA內(nèi)核優(yōu)化基礎(chǔ)上，版本推出更快的MLA計算內(nèi)核，通過算子融合、內(nèi)存訪問優(yōu)化、并行計算調(diào)度等手段，進(jìn)一步提升MLA結(jié)構(gòu)的推理效率。對于廣泛采用MLA結(jié)構(gòu)的現(xiàn)代大模型，該優(yōu)化可直接降低推理延遲、提升吞吐量，讓模型在高并發(fā)場景下更流暢運(yùn)行。
6.注意力內(nèi)核自注冊與解耦調(diào)度
重構(gòu)注意力內(nèi)核的注冊與調(diào)度機(jī)制，實(shí)現(xiàn)注意力內(nèi)核的自注冊與解耦調(diào)度。自注冊機(jī)制簡化了新內(nèi)核的集成流程，降低開發(fā)者擴(kuò)展內(nèi)核的門檻；解耦調(diào)度則讓注意力計算與其他推理步驟分離，提升計算調(diào)度的靈活性與效率，同時為后續(xù)多硬件、多架構(gòu)的注意力內(nèi)核適配奠定基礎(chǔ)。

（二）硬件兼容性拓展，覆蓋國產(chǎn)與主流算力平臺

1.昇騰（Ascend）S1-Pro適配優(yōu)化
針對國產(chǎn)昇騰S1-Pro芯片，版本完成深度適配，支持數(shù)據(jù)并行+張量并行+專家并行（dp*tp+ep）混合并行策略。昇騰芯片作為國產(chǎn)算力的核心代表，此次適配讓lmdeploy可在昇騰硬件上實(shí)現(xiàn)大模型的高效分布式部署，充分發(fā)揮國產(chǎn)芯片的算力優(yōu)勢，滿足國產(chǎn)化替代場景的大模型部署需求。
2.GLM4.7模型MTP支持
新增對GLM4.7模型的MTP（Multi-Token Prediction，多令牌預(yù)測）支持。MTP技術(shù)可讓模型單次推理生成多個令牌，大幅提升生成速度，尤其適用于長文本生成、批量內(nèi)容處理等場景，結(jié)合lmdeploy的推理優(yōu)化，GLM4.7模型部署后可實(shí)現(xiàn)更高的生成效率。

四、Bug修復(fù)：全鏈路問題解決，提升部署穩(wěn)定性（一）日志與內(nèi)核問題修復(fù)

1. 修復(fù)RepetitionPenaltyKernel中日志級別錯誤問題，將調(diào)試日志從ERROR級別調(diào)整為DEBUG級別，避免非錯誤日志干擾系統(tǒng)運(yùn)行，同時保留調(diào)試信息的可追溯性。
2. 修復(fù)InternVL AWQ模型的量化配置解析錯誤，解決AWQ量化模型加載時的配置解析異常，保障量化模型的正常部署與推理。

（二）生成與配置問題修復(fù)

1. 修復(fù)XGrammar位掩碼初始化錯誤，同時在生成方法中新增對生成配置（gen_config）的空值檢查，避免因配置異常導(dǎo)致的推理崩潰，提升生成流程的穩(wěn)定性。
2. 修復(fù)會話關(guān)閉邏輯錯誤，優(yōu)化會話資源釋放流程，避免會話關(guān)閉時的資源泄漏與異常，保障多會話場景下的系統(tǒng)穩(wěn)定性。

（三）授權(quán)與推理流程修復(fù)

1. 修復(fù)授權(quán)機(jī)制異常，解決模型部署與推理過程中的授權(quán)驗證問題，保障合規(guī)使用模型的同時，避免授權(quán)錯誤導(dǎo)致的服務(wù)中斷。
2. 修復(fù)Pipeline模塊的多個 minor 問題，并補(bǔ)充完善測試用例，提升Pipeline離線推理與批量處理的穩(wěn)定性，覆蓋更多邊緣場景。
3. 修復(fù)dllm mask在set_step操作中的邏輯錯誤，解決掩碼設(shè)置異常導(dǎo)致的推理結(jié)果偏差，保障生成文本的正確性。

（四）框架兼容與硬件適配修復(fù)

1. 修復(fù)與Transformers 5.0及以上版本的模型兼容問題，解決因框架接口變更導(dǎo)致的模型加載失敗，確保新舊版本模型均可正常部署。
2. 修復(fù)請求中止時的異常拋出問題，優(yōu)化請求中斷處理邏輯，避免中止請求引發(fā)的系統(tǒng)崩潰，提升服務(wù)的健壯性。
3. 修復(fù)V100顯卡運(yùn)行Qwen3.5-0.8B模型時的推理崩潰問題，解決特定硬件與模型組合的兼容性異常，保障主流顯卡的部署可用性。

五、其他優(yōu)化：工程化與生態(tài)完善，提升開發(fā)與部署體驗（一）CI與開發(fā)流程優(yōu)化

1. 優(yōu)化CI lint流程，跳過Python維基頁面中不穩(wěn)定的死鏈接測試，避免因外部鏈接異常導(dǎo)致的CI構(gòu)建失敗，提升持續(xù)集成的穩(wěn)定性與效率。
2. 集成clang-format代碼格式化工具到pre-commit鉤子，強(qiáng)制統(tǒng)一代碼風(fēng)格，減少團(tuán)隊開發(fā)中的代碼格式?jīng)_突，提升代碼質(zhì)量與可維護(hù)性。
3. 修復(fù)FA3安裝問題，解決FA3庫安裝過程中的依賴與編譯異常，保障依賴庫的正常安裝與使用。
4. 修復(fù)代碼 lint 錯誤，清理代碼中的語法、格式與潛在邏輯問題，提升代碼的健壯性。

（二）依賴與環(huán)境升級

1. 升級Triton與PyTorch依賴版本，適配最新的算子優(yōu)化與硬件支持，借助新版本的性能特性，進(jìn)一步提升推理引擎的效率。
2. 新增 speculative decoding（推測解碼）測試用例，完善測試覆蓋范圍，保障推測解碼功能的穩(wěn)定性與正確性，為后續(xù)該功能的正式上線奠定基礎(chǔ)。

（三）Docker鏡像與構(gòu)建優(yōu)化

1. 更新Dockerfile，移除CUDA 11相關(guān)支持，將CUDA 12.4升級為CUDA 12.6，適配最新的NVIDIA顯卡驅(qū)動與CUDA生態(tài)，提升Docker部署的兼容性與性能。
2. 調(diào)整開發(fā)鏡像構(gòu)建策略，改為手動構(gòu)建開發(fā)鏡像，而非每個版本自動發(fā)布，減少不必要的鏡像構(gòu)建與存儲開銷，優(yōu)化CI/CD流程。

（四）版本收尾工作

完成版本號從v0.12.1升級至v0.12.2的收尾工作，同步更新相關(guān)配置文件與文檔，確保版本標(biāo)識的一致性，方便開發(fā)者識別與使用。

六、版本價值與應(yīng)用場景總結(jié) （一）核心價值提煉

1.模型支持更全面：覆蓋GLM5、Qwen3.5、GLM-4.7等最新主流大模型，同時兼容Qwen、Internlm、Llama等經(jīng)典模型，滿足不同開發(fā)者的模型選型需求。
2.推理性能更強(qiáng)勁：TurboMind引擎深度優(yōu)化、MLA內(nèi)核升級、FP8量化在線支持，大幅提升推理速度、降低顯存占用，讓大模型部署更高效、低成本。
3.兼容性更廣泛：適配Transformers 5.0、昇騰S1-Pro芯片、V100等主流硬件與框架，打通國產(chǎn)化與通用化部署路徑。
4.穩(wěn)定性更可靠：全鏈路Bug修復(fù)，覆蓋日志、配置、推理、授權(quán)等多個環(huán)節(jié)，解決部署與運(yùn)行中的各類異常，保障服務(wù)穩(wěn)定運(yùn)行。
5.開發(fā)體驗更友好：CI流程優(yōu)化、依賴升級、Docker鏡像調(diào)整，降低開發(fā)與部署門檻，提升團(tuán)隊協(xié)作效率。

（二）核心應(yīng)用場景

1.企業(yè)級大模型服務(wù)部署：支持多模型、高并發(fā)、長文本場景，適配智能客服、內(nèi)容生成、數(shù)據(jù)分析等企業(yè)應(yīng)用，保障服務(wù)的穩(wěn)定性與效率。
2.國產(chǎn)化算力部署：昇騰芯片深度適配，滿足金融、政務(wù)等領(lǐng)域的國產(chǎn)化替代需求，實(shí)現(xiàn)安全、自主的大模型落地。
3.個人開發(fā)者本地部署：FP8量化降低硬件門檻，中低端GPU即可運(yùn)行大模型，方便個人開發(fā)者快速驗證模型效果、開發(fā)原型應(yīng)用。
4.前沿模型快速適配：對GLM5、Qwen3.5等最新模型的即時支持，讓開發(fā)者可第一時間體驗并部署前沿大模型能力。

七、總結(jié)與展望

代碼地址：github.com/InternLM/lmdeploy

lmdeploy v0.12.2版本作為2026年的關(guān)鍵迭代，以模型適配、性能優(yōu)化、兼容性拓展、穩(wěn)定性提升為核心，完成了一次全面且深入的升級，進(jìn)一步鞏固了其在大模型部署領(lǐng)域的領(lǐng)先地位。無論是模型支持的廣度，還是推理性能的深度，亦或是工程化的完善度，都實(shí)現(xiàn)了質(zhì)的飛躍，為大模型的規(guī)模化落地提供了更強(qiáng)大的工具支撐。

我們相信人工智能為普通人提供了一種“增強(qiáng)工具”，并致力于分享全方位的AI知識。在這里，您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業(yè)洞察。歡迎關(guān)注“福大大架構(gòu)師每日一題”，發(fā)消息可獲得面試資料，讓AI助力您的未來發(fā)展。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.