網易首頁 > 網易號 > 正文申請入駐

DeepSeek R1升級：大模型推理能力新突破，R2還有多遠？

2025-06-03 11:40:32　來源: 競合人工智能

北京舉報

分享至

從R1的升級路徑來看，R2可能會在更大規模的數據、更強的算力支持下進行訓練，進一步提升推理能力和泛化能力，或許會在多模態融合、更復雜任務處理等方面取得突破。

在大模型領域，競爭的浪潮從未停歇。近期，國產大模型公司深度求索（DeepSeek）發布了DeepSeek R1模型的小版本升級，版本號為DeepSeek-R1-0528。這一消息看似低調，實則在業內激起千層浪，尤其是在推理能力提升方面，展現出了令人矚目的成果。

自誕生以來，DeepSeek憑借其獨特的技術路線和對開源的堅持，在大模型領域逐漸嶄露頭角。早期版本的模型已經在自然語言處理的多個任務中表現出不錯的潛力，吸引了眾多開發者和研究人員的關注。其開源策略更是為社區注入了活力，大量開發者基于DeepSeek的模型進行二次開發和應用拓展，涵蓋了智能客服、內容生成、代碼輔助等多個領域。

R1升級核心亮點：思維深度與推理能力顯著提升

此次升級的核心在于思維深度和推理能力的大幅躍升。DeepSeek-R1-0528依舊以2024年12月發布的DeepSeek V3 Base模型為基座，然而在后訓練階段投入了更多算力。這一舉措成效顯著，模型在數學、編程與通用邏輯等多個基準測評中成績斐然，在國內模型中獨占鰲頭，整體表現已接近國際頂尖模型，如o3與Gemini-2.5-Pro。

在復雜推理任務的表現上，新版模型進步尤為突出。以AIME 2025測試為例，舊版模型準確率為70%，而新版躍升至87.5%。從token使用量來看，舊版模型平均每題使用12K tokens，新版則達到23K tokens ，這清晰地表明新版模型在解題時思考過程更加詳盡和深入，能夠處理更復雜的邏輯關系，挖掘問題的深層次內涵。

DeepSeek團隊利用DeepSeek-R1-0528的思維鏈蒸餾訓練了Qwen3-8B Base，推出的DeepSeek-R1-0528-Qwen3-8B模型在數學測試AIME 2024中，僅次于DeepSeek-R1-0528，超越Qwen3-8B達10.0%，與Qwen3-235B表現相當。這不僅體現了DeepSeek-R1-0528模型自身的強大，也為學術界推理模型研究及工業界小模型開發提供了新的思路和方法，具有重要的參考價值。

幻覺問題優化：邁向更可靠的AI交互

“幻覺”問題一直是大模型發展中的痛點。簡單來說，幻覺就是模型生成的內容看似合理，但與事實不符或缺乏依據。在舊版模型中，這一問題在改寫潤色、總結摘要、閱讀理解等場景中時有出現，影響了模型輸出結果的可靠性和實用性。

而新版DeepSeek R1針對幻覺問題進行了卓有成效的優化。與舊版相比，在上述場景中，幻覺率降低了45 - 50%左右。這意味著用戶在使用模型進行信息提取、內容創作等任務時，能夠獲得更為準確、可靠的結果。例如在進行新聞摘要生成時，舊版模型可能會出現對事件關鍵信息的錯誤表述或無中生有的內容，而新版模型則能更精準地提煉核心內容，減少這類錯誤的發生，大大提升了模型在實際應用中的可信度。

創意寫作與工具調用能力優化

除了推理和幻覺問題的改進，新版R1在創意寫作和工具調用方面也有可圈可點之處。在創意寫作上，模型針對議論文、小說、散文等文體進一步優化，能夠輸出篇幅更長、結構內容更完整的長篇作品，寫作風格也更加貼近人類偏好。無論是創作一篇邏輯嚴謹的議論文，還是構思一個情節跌宕的小說，新版R1都能生成更具可讀性和文學性的內容，為內容創作者提供了更強大的助力。

在工具調用方面，DeepSeek-R1-0528支持工具調用（盡管目前不支持在thinking中進行工具調用）。當前模型在Tau-Bench測評成績為airline 53.5% / retail 63.9%，與OpenAI o1-high相當，但與o3-High以及Claude 4 Sonnet仍有差距。雖然還存在提升空間，但這一能力的拓展為模型的應用場景帶來了更多可能性，例如在智能辦公場景中，模型可以調用各類辦公軟件的功能接口，實現更高效的文檔處理、數據分析等任務。

開源策略持續，推動行業發展

DeepSeek團隊此次依舊保持了開源的傳統，新版模型的開源倉庫（包括模型權重）均采用MIT License。這一舉措意義深遠，它允許用戶自由利用模型輸出、通過模型蒸餾等方式訓練其他模型。對于開發者而言，這意味著更低的開發成本和更高的創新自由度。

在開源社區中，已經有眾多開發者基于DeepSeek的模型進行創新應用的開發，從簡單的聊天機器人到復雜的智能數據分析系統，開源的DeepSeek模型成為了創新的基石，推動整個人工智能領域的技術共享與創新發展，促進不同研究機構和企業之間的合作與交流。

用戶實測反饋：代碼能力獲贊，寫作仍需留意幻覺

從用戶的實測反饋來看，新版DeepSeek R1的代碼能力得到了高度認可。許多開發者表示，升級后的模型經常能直接一次生成可運行、可落地的代碼，代碼結構清晰，注釋完整，甚至被評價有Claude 4的味道，而調用成本僅為Claude的1/3，對中小開發者十分友好。同時，模型響應敏捷，能進行長時間思考，在一些復雜編程任務中表現出色，例如在開發復雜的Web應用程序、數據分析腳本時，新版R1能夠快速理解需求并生成高質量的代碼框架。

然而，在寫作方面，盡管模型在文體優化和篇幅控制上有進步，但幻覺問題仍然存在。部分用戶在使用模型撰寫論文時發現，即使在打開聯網搜索、基于真實材料分析的前提下，模型仍可能出現捏造數據、錯誤標注信息源時間等問題。這也提醒用戶，在使用模型進行寫作時，尤其是對內容準確性要求極高的場景，仍需仔細核查，不能完全依賴模型輸出。

與國際競品對比：各有所長，差距縮小

與國際上的頂尖模型如OpenAI的o3、谷歌的Gemini-2.5-Pro以及Anthropic的Claude 4相比，DeepSeek-R1-0528在數學和編程推理方面已迎頭趕上，部分測試成績甚至超越部分競品。例如在LiveCodeBench基準測試中，R1-0528超越了O3-Mini，幾乎與O3（High）評分相當，展現出強大的編程能力。在Extended NYT Connections基準測試中，雖然尚未進入OpenAI o系列模型占據的第一梯隊，但相比前一代也有了顯著提升。

在綜合性能上，DeepSeek-R1-0528與國際競品各有所長。國際大廠的模型在多語言處理、全球知識覆蓋等方面有著深厚的積累和優勢，而DeepSeek-R1-0528憑借對中文語境的深入理解和在推理能力上的優化，在國內市場以及對推理要求較高的特定領域應用中具有競爭力，并且隨著不斷升級，與國際頂尖模型的差距正在逐步縮小。

R2期待：未來大模型進化的想象空間

此次R1的升級無疑是一次成功的迭代，但也讓人們對DeepSeek的下一款重磅產品R2充滿期待。從R1的升級路徑來看，R2可能會在更大規模的數據、更強的算力支持下進行訓練，進一步提升推理能力和泛化能力，或許會在多模態融合、更復雜任務處理等方面取得突破。例如，在圖像與文本的聯合理解和生成、跨領域知識融合推理等當前大模型研究的熱門方向上，R2有望帶來創新性的解決方案，為用戶帶來更智能、更全面的AI服務體驗。

DeepSeek R1的這次升級是其在大模型發展道路上的重要里程碑，展示了國產大模型在推理能力提升和實際應用優化方面的實力。隨著技術的不斷進步和創新，無論是R1的持續優化還是未來R2的推出，都值得我們持續關注，期待其為大模型領域帶來更多的驚喜和變革，推動整個人工智能產業邁向新的高度。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.