無論是M1還是Deepseek等其他模型,誰能更好地滿足市場需求,解決實際應用中的問題,誰就能在這場激烈的競爭中占據優勢地位。
![]()
近日,Minimax發布了全新推理模型M1,迅速在大模型領域引發廣泛關注。這款模型不僅在參數規模上頗為可觀,還在長文本處理能力和成本控制等方面展現出獨特優勢,甚至號稱某些性能超越了行業內頗受矚目的Deepseek。在大模型競爭日益激烈的當下,M1的出現無疑為市場增添了新的變量。但它究竟實力幾何,又能否真的撼動Deepseek等模型的地位?讓我們深入剖析。
M1的亮點
1. 超長文本處理能力突破
M1支持最高100萬token上下文輸入 ,這一數據達到DeepSeek R1的8倍,在閉源模型中與谷歌Gemini 2.5 Pro一致,同時還支持最長8萬Token的推理輸出。在實際應用場景中,長文本處理能力至關重要,如處理長篇學術文獻、法律條文、復雜的技術文檔等。以學術研究為例,科研人員在進行文獻綜述時,常常需要處理大量的學術論文,M1的超長上下文輸入能力,使其能夠一次性讀取和理解更豐富的內容,從而為用戶提供更全面、準確的信息整合和分析結果。
M1之所以能夠實現長文本處理能力突破,主要得益于Lightning Attention(閃電注意力)混合構架。傳統Transformer架構在處理長文本時,其注意力機制主導下的計算量增長為平方級,文本序列越長,計算量越發陡增,這對性能和成本均為挑戰。而Lightning Attention將全連接注意力拆成兩大部分,一個是針對局部上下文整合、采用傳統注意力機制的“塊內”attention,一個是針對全局摘要、采用線性注意力的“塊間”attention。這一方案可以減少大量累積性的計算量,并提高處理速度,使得M1在長文本處理上具備顯著優勢。
2. 成本優勢顯著
在成本方面,M1展現出了極高的性價比。根據Minimax的技術報告,在進行8萬Token的深度推理時,M1所需的算力為DeepSeek R1的約30%;生成10萬token時,推理算力約為DeepSeek R1的25%。整個強化學習階段僅使用了512塊英偉達H800 GPU,耗時三周,成本為53.5萬美元。
Minimax提出的CISPO(Clipped IS-weight Policy Optimization)算法在其中起到了關鍵作用。這是一種高效率、高穩定性的強化學習策略,相比于PPO策略實行token級別的裁剪更新,它通過裁剪重要性采樣權重提升強化學習效率,類似“序列級別”裁剪,使其更快實現收斂,并達成更少的訓練時間和資源消耗 。在AIME(AI-powered Moral Evaluator)等測試中,CISPO的收斂性均快于DAPO算法和GRPO算法,從側面證明了其在優化成本上的有效性。對于企業和開發者而言,成本的降低意味著在相同的預算下可以進行更多的模型訓練和應用開發,提高了投入產出比,這無疑是M1吸引市場的一大賣點。
3. 基準測試表現不俗
在多個業內主流的評測基準中,M1也有著可圈可點的表現。在體現長文本處理能力的MRCR(4-needle)上,它大幅超越了一眾開閉源模型,在AIME 2024、LiveCodeBench、SWE-bench Verified等測試中,雖略遜色于DeepSeek-R1-0528,但在TAU-bench上有所趕超 。這表明M1在特定領域和任務上具備較強的競爭力,并非徒有虛名。尤其是在智能體工具使用(Agentic Tool Use)維度上,從評測基準TAU-Bench (airline)中的表現來看,目前M1已經是市面上在該方面能力最強的模型,為其在相關應用場景的拓展奠定了良好基礎。
尚存在的不足
1. 模型泛化能力待驗證
盡管M1在已知的評測基準和特定場景下表現出色,但模型的泛化能力仍有待進一步驗證。大模型需要面對現實世界中千變萬化的任務和數據,在一些未經過充分訓練的領域或場景中,M1是否能夠保持穩定且良好的性能表現,還存在疑問。例如在一些新興的行業應用,如量子計算相關的科普與研究輔助,或是一些小眾但復雜的藝術創作領域,M1能否準確理解和處理相關信息,目前還缺乏足夠的實踐檢驗。若模型泛化能力不足,其應用范圍將會受到較大限制,難以真正實現跨領域的廣泛應用。
2. 生成內容的多樣性與創新性不足
部分用戶反饋,M1在生成內容時,存在嚴謹有余而創新和發散性不足的問題。在需要高度創意的任務中,如創意寫作、廣告文案創作等,M1生成的內容可能顯得較為保守,缺乏獨特的視角和新穎的思路。以廣告文案創作為例,優秀的廣告文案需要能夠吸引消費者的注意力,激發他們的興趣,而M1生成的文案可能難以達到這樣的效果,無法在眾多競爭對手中脫穎而出。在如今強調個性化和創新性的市場環境下,這一缺點可能會影響M1在內容創作相關領域的應用和推廣。
3. 對硬件環境的依賴
雖然M1在算力成本上相較于DeepSeek R1等模型有優勢,但它的運行和推理仍然對硬件環境有一定要求。對于一些硬件資源有限的小型企業或個人開發者來說,部署和使用M1可能存在一定困難。例如,一些創業初期的AI公司,可能無法承擔購買大量高性能GPU的費用,這就限制了他們對M1模型的應用和二次開發。而且,當硬件環境無法滿足M1的最佳運行條件時,其性能表現可能會大打折扣,無法充分發揮出模型的優勢。
4. 市場認可度與生態建設挑戰
目前,大模型市場已經存在眾多參與者,Deepseek、通義千問等模型在市場上已經積累了一定的用戶基礎和市場認可度,擁有相對成熟的開發者社區和應用生態。M1作為后來者,要在市場中分得一杯羹,面臨著不小的挑戰。在開發者社區建設方面,盡管M1發布即開源,但在Github上,M1發布8小時后獲得440星,截至目前得到了620星,與國內更受開發者認可的通義千問和DeepSeek相比,還有較大的提升空間。缺乏廣泛的開發者支持,意味著基于M1的二次開發應用可能相對較少,難以形成完善的應用生態,進而影響其市場推廣和長期發展。
未來展望
Minimax M1模型的發布,無疑為大模型市場注入了新的活力,其在長文本處理和成本控制等方面的優勢,使其具備了在市場中競爭的實力。然而,正如任何新興技術一樣,M1也面臨著諸多挑戰和問題,需要在后續的發展中不斷優化和完善。對于Minimax來說,接下來如何提升模型的泛化能力、增強生成內容的多樣性與創新性,以及進一步降低對硬件環境的依賴,擴大市場認可度和完善生態建設,將是決定M1未來發展走向的關鍵因素。
從市場競爭格局來看,M1的出現加劇了大模型領域的競爭,這對于整個行業的發展而言是有益的。競爭將促使各大模型研發團隊不斷創新和優化,推動技術的進步,最終讓用戶和企業受益。無論是M1還是Deepseek等其他模型,誰能更好地滿足市場需求,解決實際應用中的問題,誰就能在這場激烈的競爭中占據優勢地位。在未來,我們期待看到M1以及整個大模型行業能夠帶來更多的驚喜和突破,為人工智能的發展做出更大貢獻。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.