松果財經(jīng)訊,面壁智能近日發(fā)布了一款基于全新稀疏-線性混合架構(gòu)(SALA)的9B參數(shù)規(guī)模模型,在提升推理效率與降低計算成本方面取得重要突破。
![]()
SALA架構(gòu)的核心在于將稀疏激活機制與線性變換路徑進(jìn)行有機融合。與傳統(tǒng)密集模型在每次推理時激活全部參數(shù)不同,SALA通過動態(tài)路由策略,僅為特定輸入激活部分專家模塊,大幅降低了計算開銷。與此同時,模型中引入的線性計算路徑能夠高效處理通用特征,與稀疏專家模塊形成協(xié)同。
面壁智能團(tuán)隊表示,這一設(shè)計使得9B模型在實際推理時的激活參數(shù)量僅相當(dāng)于3B級別模型,卻保持了接近甚至超越同規(guī)模密集模型的性能表現(xiàn)。在語言理解、代碼生成與長文本處理等多項評測中,SALA-9B展現(xiàn)出優(yōu)異的精度-效率平衡。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.