寫給大眾用戶的大語言模型通俗指南,避開所有數學公式,直擊本質、從基礎到實踐的清晰指南,你不用懂數學、不用會編程,也不用記復雜的提示詞。
什么是生成式 AI?
如今的生成式模型是十年技術積累的成果,但直到 2022 年,才讓大多數人真正感受到它的 “驚艷時刻”。生成式 AI 是機器學習(Machine Learning,ML)的一個分支,核心是讓 AI 模型學習海量真實世界數據,然后生成類似人類創作的全新內容 —— 比如文本、圖片、代碼等。
這段話可能有點繞,咱們先理清幾個基礎術語,再深入聊大語言模型:
- 人工智能(AI)是個大范疇:讓計算機完成看起來需要 “智能” 才能做到的事。
- 機器學習(ML)屬于 AI 的子集:系統靠數據學習規律,而不是靠硬編碼的規則。
- 深度學習(Deep Learning,DL)是機器學習的一種方式:讓計算機通過海量案例練習,學會識別模式。
- 自然語言處理(Natural Language Processing,NLP)是 AI 專門處理人類語言的分支,就這么簡單。
- 生成式 AI 是 AI 的一個分支:專注于 “創造” 新內容(文本、圖片、音頻、代碼等),核心是 “生成”,而不是像傳統 AI 那樣專注于 “預測”。
- 大語言模型(LLM)是生成式 AI 家族中的深度學習模型,專門負責文本生成。
記住這個關系鏈就夠了:AI → 機器學習 → 深度學習 →(自然語言處理)→ 大語言模型(LLM)
理清了這些標簽,咱們就能明白大語言模型到底是怎么工作的了。
什么是大語言模型(LLM)?
大語言模型本質上是個超強的 “自動補全系統”。它一輩子只在重復回答一個簡單問題:“給定這段文本,下一個最可能出現的token是什么?”
這里的 “token”,就是文本的最小有意義單位 —— 可能是一個完整的詞(比如 “你好”)、單詞的一部分(比如 “run” 和 “ning”),也可能是標點符號(比如 “?”)。
舉個例子:當你問 ChatGPT“什么是微調(fine-tuning)?” 時,它并不是 “知道” 答案,而是逐個預測下一個token:
- 最可能出現的第一個token是 “微調”;
- 基于第一個token,下一個最可能的是 “是”;
- 再接下來是 “將”;
- 依此類推……
直到生成完整句子:“微調是在預訓練模型的基礎上,用更小、更具體的數據集進一步訓練的過程。”
輸入:什么是微調?大語言模型的核心功能:預測序列中的下一個token,從而生成回應。
![]()
它被稱為 “大語言模型”,原因很簡單:
- 規模大(Large):擁有數十億個內部變量(稱為 “參數”),且訓練數據量極其龐大;
- 聚焦語言(Language):專門用于理解和生成人類語言;
- 本質是模型(Model):是對所學模式的數學化表達。
所以說到底,大語言模型就是個超級高級的 “猜詞機器”—— 一次次猜下一個token,直到拼湊出完整答案。
那它怎么能精準猜對呢?這就離不開它漫長的 “學習過程”—— 預訓練(pre-training)。
就像讓一個學生讀完一座巨大圖書館里的所有書(對 LLM 來說,就是互聯網上的海量文本),它不會逐字逐句背誦,而是學習語言、句子和思想之間的搭配模式,直到能準確預測任何句子的下一部分。GPT-5 這類基礎模型(Base Model),就是這么通過預訓練構建出來的。
隱藏的 “黑科技”:大語言模型的內部運作
你不用搞懂 LLM 的每一個 “零件”,但理解token、嵌入、參數這些核心組件,會讓它不再神秘。還能幫你看清模型的優勢、短板,以及如何讓它給出更好的結果。
1. token
大語言模型本質是個數學系統,有個核心問題:它只懂數字,不懂文字。那它怎么 “讀懂” 你問的 “什么是微調?” 呢?
第一步就是把文本轉換成模型能處理的形式 —— 先將句子拆成最小有意義單位,也就是token。
這個拆分工作由 “(tokenizer)” 完成:
- 先把句子拆成token列表:[“什么”, “是”, “微”, “調”, “?”](不同token器拆分規則略有差異,比如可能拆成 [“什么”, “是”, “微調”, “?”]);
- 再把每個獨特的token換成對應的 ID 數字。
最終,“什么是微調?” 會變成一串模型能理解的數字序列,比如 [1023, 318, 5621, 90177, 30]。
但token本身沒有意義,只是一串 ID,要讓模型理解,還需要另一層處理。
![]()
2. 嵌入(embeddings)
通過token化,我們把問題變成了數字 ID 列表,但這些數字只是隨機標簽 —— 比如 “貓” 的 ID 和 “小貓” 的 ID 毫無關聯,模型根本不知道它們的意思和聯系。
這時候 “嵌入” 就派上用場了。嵌入是一串特殊的數字(稱為 “向量”),專門用來表示token的含義。它不再是隨機 ID,而是給每個token分配一組 “意義坐標”,把它放在一個巨大的 “意義地圖” 上。
在這張地圖上,意思相近的詞(比如 “狗” 和 “小狗”)會靠得很近。模型能通過數字計算關系:比如 “國王” 到 “女王” 的坐標變化,和 “男人” 到 “女人” 的坐標變化是一樣的。
這也是聊天機器人和搜索引擎能理解不同表達方式的原因 —— 你搜 “汽車”,嵌入技術會讓引擎知道 “轎車”“機動車” 相關的內容也符合需求。
這些嵌入并不是雜亂無章的,它們都存在于一個更大的結構里。
3. 潛空間(Latent Space)
![]()
詞嵌入通過向量差異體現關系 —— 就像 “狗→小狗” 和 “走→跑” 的向量變化是平行的,這就是意義的幾何編碼方式。
當模型把問題轉換成嵌入后,這個嵌入不會孤立存在,而是進入 “潛在空間”—— 也就是所有嵌入所在的巨大 “意義地圖”。
它不是物理空間,而是模型構建的數學空間。訓練過程中,模型會在這個空間里整理各個概念的嵌入,讓它們的位置和距離能反映真實世界的關系。
比如你問 “什么是微調?”,這個問題的嵌入會和其他關于 “訓練方法” 的嵌入靠得很近。模型的任務很簡單:在這個 “鄰里區域” 里,找到最匹配的內容。
而支撐這種能力的,是模型的內部設置 —— 也就是參數。
4. 參數(Parameters)
ChatGPT 這類系統的基礎模型,擁有數十億個內部變量,這些就是 “參數”。它們不是數據庫里的條目,也不是事實列表,而是可調整的 “設置”,讓模型能捕捉語法、概念和模式。
你可以把參數想象成一堵巨大的 “旋鈕墻”:
- 一開始,所有旋鈕都是隨機設置的,毫無用處;
- 訓練過程中,模型會重復數萬億次 “預測下一個token” 的游戲;
- 每次猜錯,就微調一下這些旋鈕,讓它慢慢接近正確答案;
- 經過無數次微調后,最終的旋鈕設置就編碼了模型學到的一切 —— 包括語言模式、概念關聯和通用知識。
如果不經過訓練,數十億個隨機旋鈕毫無意義,只有通過漫長的訓練,它們才能承載知識。
大語言模型如何學習:“黑科技” 的訓練過程
5. 預訓練(Pre-training)
把隨機參數變成 “知識庫” 的過程,就是預訓練。
這個基礎階段,模型會接觸互聯網上的海量文本和代碼,核心目標只有一個:預測序列中的下一個token。每次預測后,它會對比真實答案,然后通過訓練算法微調數十億個參數。經過數萬億次重復,這些微小的調整會逐漸編碼語言的統計模式 —— 這就是 GPT-5 這類基礎模型在適配實際應用前,學習語法、常識和基礎推理能力的方式。
這個訓練過程可以拆成兩步理解:
(1)核心任務:預測下一個token
給模型一段文本片段,比如 “微調是一個____的過程”,它要猜測缺失的部分。一開始猜測是隨機的,但每次猜錯后,參數會微調,讓下一次更可能猜到 “進一步訓練” 這類正確答案。
(2)訓練結果:一個模式識別引擎
經過數萬億次修正,模型會變得特別擅長識別模式。它見過無數次 “微調是進一步訓練的過程” 這類表達,所以能牢牢記住這種關聯 —— 但它并不是在 “理解” 或 “思考”,只是在復現學到的模式。
預訓練讓模型裝滿了互聯網上的模式,但此時它還只是個 “文本預測器”。要明白這為什么是個問題,就得區分基礎模型和指令模型。
6. 基礎模型(Base Model)vs 指令模型(Instruct Model)
模型完成預訓練后,就是 “基礎模型”。它雖然知識淵博,但還不是個 “貼心助手”。
比如你用原始基礎模型問 “什么是檢索增強生成(RAG)?”,它可能只是機械地續寫句子,或者給出一個籠統無用的定義。它擅長預測文本,但沒被訓練過遵循指令或進行對話。
要讓它變成聊天機器人、搜索助手這類實用工具,就需要 “指令模型”。
指令模型是基礎模型經過額外訓練后的產物 —— 這種訓練叫 “微調”,用的是專門的 “指令 - 答案” 配對數據集。這個過程不會教模型新事實,而是教它 “怎么做事”:理解用戶意圖、給出清晰解釋、結構化呈現回應。
ChatGPT 和 Claude 都是指令模型,它們從設計之初就是為了提供幫助、響應需求,是任務導向型應用的核心。
而把基礎模型變成指令模型的關鍵一步,就是微調。
7. 微調(Fine-tuning)
微調,就是把完成預訓練的模型,用更小、質量更高的數據集再訓練一次,讓它專門適配某個任務。
![]()
這次的數據集不再是整個互聯網,而是幾千個和目標場景高度相關的精選案例。
最典型的例子就是 GitHub Copilot:基礎模型能生成各種文本,通過在數十億行開源代碼上微調,它學會了寫出、補全符合開發者風格的代碼。微調后的模型并沒有 “懂更多” 編程知識,只是更貼合真實世界的代碼模式,實際使用中更可靠。
這種針對性訓練會微調模型的參數,讓它模仿特定數據集的風格和準確性。
塑造模型行為:從 “知識庫” 到 “貼心助手”
8. 對齊(Alignment)
通過微調,模型能遵循指令了,但 “好答案” 的標準是什么?
一個只在互聯網上訓練的原始模型,可能給出技術上正確但對新手來說晦澀難懂的答案,甚至會重復訓練數據里的有害刻板印象。
這就是 “對齊” 要解決的核心問題:讓大語言模型的行為符合人類價值觀和意圖,具體來說就是 “有幫助、誠實、無害”。
![]()
比如 ChatGPT 會拒絕不安全的請求,會應要求簡化復雜概念,還會避免偏見或冒犯性語言。對齊的目標不是讓模型 “更準確”,而是讓它的行為實用、符合社會規范。
9. 基于人類反饋的強化學習(RLHF)
那怎么實現對齊呢?總不能直接告訴模型 “要貼心” 吧?我們需要一種方式,讓它明白人類眼中的 “優質” 和 “貼心” 是什么樣的 —— 這就是基于人類反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF)。
![]()
它不是只靠文本訓練,而是根據人類偏好調整模型,具體步驟如下:
- 人類評分:給模型一個問題(比如 “什么是微調?”),讓它生成多個答案,然后由人類評審員給這些答案排序(從好到壞);
- 訓練 “裁判模型”:用這些排序數據訓練一個單獨的 “獎勵模型”,它的唯一任務就是預測人類會如何評價某個答案;
- 模型向 “裁判” 學習:讓語言模型再次生成答案,由獎勵模型打分,然后微調語言模型的參數,讓它更傾向于生成高分答案 —— 慢慢學會符合人類偏好的回應方式。
這個過程能讓 ChatGPT、Claude 這類模型明白,人類看重的是清晰、貼心、禮貌和安全,而且不用手動編碼這些行為。
但模型只有收到輸入,才會生成回應 —— 那我們該怎么和它 “對話” 呢?
與模型對話:交互層的秘密
10. 提示詞(Prompt):系統提示詞 vs 用戶提示詞
![]()
- 系統提示詞(System Prompt):高層級指令,定義模型角色和約束,
- 用戶提示詞(User Prompt):具體的問題或指令,即時交互
發送給模型的完整指令和上下文,就是 “提示詞”。一個設計良好的提示詞通常包含兩部分:
- 系統提示詞:設定模型的核心角色和邊界,是每次交互都生效的 “永久指南”。比如 ChatGPT 可能有個隱藏的系統提示詞:“你是一個貼心的助手,回答要清晰簡潔,避免不安全或有偏見的內容。”
- 用戶提示詞:用戶當下的具體問題或指令,比如 “什么是微調?”
模型會同時處理這兩部分:系統提示詞告訴它 “怎么表現”,用戶提示詞告訴它 “做什么”。這種分離能確保模型的回應始終貼心、不跑偏。
但對話很少只有一輪,要讓模型記住上下文,就需要 “上下文窗口”。
11. 上下文窗口(Context Window)
聊天助手要實用,必須能處理后續問題。比如你問 “能換種方式解釋嗎?”,模型得知道 “那種方式” 指的是什么 —— 這就靠上下文窗口來管理 “記憶”。
![]()
上下文窗口是模型一次能 “看到” 并處理的最大token數量,包括系統提示詞、完整的對話歷史,以及它正在生成的回應。模型看不到這個窗口之外的內容。
這個 “記憶上限” 很關鍵:如果和 ChatGPT、Claude 的對話太長,應用會自動縮短歷史記錄(通常刪掉最早的消息),避免模型忘記近期上下文。
而在這個窗口內,提示詞的結構會直接影響單個答案的走向。
12. 零樣本學習(Zero-shot)vs 少樣本學習(Few-shot)
這兩個術語描述了兩種控制模型輸出的核心提示詞設計方式,選擇哪種取決于模型完成任務需要多少引導。
- 零樣本提示(Zero-shot Prompting):只給指令,不給任何示例。完全依賴模型已有的能力理解并執行命令。比如問 ChatGPT“什么是微調?”,就是零樣本請求 —— 相信對齊后的模型不用示例也能給出好答案。
- 少樣本提示(Few-shot Prompting):既給指令,又在提示詞里加幾個 “示例”(稱為 “shots”),明確期望的輸出格式或風格。比如想讓模型用三個簡潔的要點總結文本,就可以先在提示詞里給一個這樣的總結示例,再讓它處理新文本。
少樣本提示能讓模型的輸出更可靠、格式更統一。
13. 推理與思維鏈(Chain-of-Thought,CoT)
有時候你會問 ChatGPT 這類復雜問題,需要多步推理才能回答。比如 “對比檢索增強生成(RAG)和微調,哪種更適合解決幻覺問題?” 如果模型直接給答案,很容易出現邏輯錯誤。
這就是 “推理能力不足” 的問題。要解決這個問題,就可以用 “思維鏈(CoT)” 這種提示詞技巧 —— 不用只問最終答案,而是在提示詞里加一句簡單的指令:“咱們一步步想”。
這會讓模型按邏輯步驟推導:先定義 RAG,再定義微調,然后對比兩者,最后得出結論。通過 “展示思考過程”,模型在復雜問題上的推理準確性會大幅提升。
現在一些專注于推理的新模型更進一步:它們自帶 “一步步思考” 的能力,不用專門提示,會自動進行內部思考,比如谷歌 Gemini 2.5 Pro、OpenAI GPT-5 和 Anthropic Claude Opus 4.1 這類尖端模型,都有這種高級推理能力。
實時運行:按下回車后發生了什么?
14. 推理(Inference)
當 ChatGPT 收到完整提示詞后,就開始生成答案 —— 這個訓練好的模型產生輸出的過程,就是 “推理”。
你看到答案逐字逐句出現,就是推理的實時過程:模型不是一次性寫出完整句子,而是每次只預測下一個最可能的token,把它加入序列,再重復這個過程,直到生成一個特殊的 “序列結束”token,或者達到最大輸出長度。
15. 延遲(Latency)
從你提問到收到完整答案的時間,就是 “延遲”—— 這是影響用戶體驗的關鍵因素,延遲太高會讓 AI 顯得又慢又遲鈍。
因為推理是逐token生成的,延遲主要看兩個指標:
- 首token時間(Time-to-first-token,TTFT):第一個答案字符出現的時間,這個指標越低越好,能讓你知道 AI 正在工作;
- token間隔時間:后續token生成的速度,決定了模型的 “打字速度”。
一個好用的聊天機器人,這兩個延遲指標都得低。
16. 溫度(Temperature):確定性輸出 vs 隨機性輸出
“溫度” 這個參數,控制的是模型選擇token時的隨機程度。當你多次問 ChatGPT 同一個問題,它應該每次都給一樣的答案嗎?這就由溫度決定。
![]()
- 高溫(1.0):答案有創意、不可預測,屬于 “隨機性輸出”。比如問 “巴黎是什么樣的?”,可能會得到 “啊,巴黎!這座燈光之都、浪漫之都,想象一個傍晚漫步在……” 這類充滿探索性的回答;
- 中溫(0.7):答案有輕微到中等程度的變化;
- 低溫(0.0):每次輸出完全一樣,屬于 “確定性輸出”。比如問 “巴黎是什么?”,會得到 “巴黎是法國的首都” 這種穩定、客觀的答案。
確定性輸出適合需要一致結果的場景(比如事實定義),隨機性輸出適合需要多樣化表達的場景(比如 “換種方式解釋”)。
架構與擴展:超越基礎模型的能力
17. 接地(Grounding)
“接地” 的核心原則是:讓大語言模型的輸出只基于我們提供的、可驗證的外部真實信息。
這是緩解幻覺問題的最直接方式之一 —— 不讓模型依賴自己龐大但不可靠的 “內部記憶”,而是連接到可信數據源。如果沒有相關信息,接地后的系統會直接說 “不知道”,而不是瞎猜。
18. 檢索增強生成(Retrieval-Augmented Generation,RAG)
那怎么在實時場景中實現接地呢?答案就是 “檢索增強生成(RAG)”—— 這種架構能在需要時連接知識庫或外部數據源,提升答案準確性。
最典型的例子就是 Perplexity AI:你提問后,它不會只靠內部記憶回答,而是先搜索網頁、找到相關來源,再把這些信息融入答案。RAG 的工作流程分三步:
- 檢索(Retrieve):系統先搜索可信文檔或網頁,找到最相關的文本片段;
- 增強(Augment):把這些片段自動加入提示詞,給模型一份 “標準答案 cheat sheet”;
- 生成(Generate):指示模型只基于檢索到的證據生成答案。
![]()
這樣一來,每個回應都有可驗證的來源,既提升了準確性,也讓用戶更信任輸出。
19. 工作流(Workflow)vs 智能體(Agent)
構建具備 “行動能力” 的 AI 系統,主要有兩種方式,各自的控制程度和靈活性不同:
- 工作流(Workflow):開發者定義固定、可預測的步驟序列,LLM 只是這個過程中的一個組件。比如 Perplexity 這類 RAG 系統,永遠遵循 “檢索→增強→生成” 的固定流程,可靠性高、易控制;
- 智能體(Agent):讓 LLM 充當核心 “大腦”,自主主導流程。不給固定路徑,而是給它一個目標和一套工具(比如網頁搜索、計算器),讓它動態規劃該用什么工具、按什么順序用,來實現目標。智能體更靈活,但可預測性較低。
20. 智能體 AI(Agentic AI)
現在大多數聊天機器人都是 “被動響應型”:等你提問,才給一個答案。而智能體 AI 要解決的核心問題是:系統能自主規劃并完成多步驟任務嗎?
智能體 AI 讓 LLM 能規劃行動、執行任務,以達成復雜目標 —— 這讓模型從 “工具” 變成了 “系統大腦”。
比如你不用只問 “什么是微調?”,而是可以說 “做一份關于微調的學習指南”。智能體助手會自主搜索文檔、提取核心概念、整理成結構化總結,全程不用你額外輸入。
現在已經有這類工具的早期版本了:比如 Gemini Deep Research、OpenAI Deep Research、Perplexity Deep Research,能自主搜索來源、收集見解、生成有條理的輸出;編碼領域的 Claude Code 和微軟 Copilot Agent Mode,能規劃并完成多步驟編程任務,不止于研究。
模型的不同形態:大語言模型家族與權衡
21. 專有模型(Proprietary)vs 開源模型(Open-Source)
用 LLM 開發應用時,遲早會面臨一個實際選擇:選哪種模型?
如果只是實驗,可能無所謂,大概率會從 ChatGPT 這類專有 API 開始(好用又易獲取)。但如果要大規模部署、降低成本或定制系統,模型類型的選擇就至關重要了。
主要分三類,各自在成本、控制度和復雜度上有明顯權衡:
- 專有模型(Proprietary Models):由公司擁有和運營(比如 OpenAI 的 GPT-5),通過付費服務訪問,無法查看或修改內部工作機制。很多開發者從這里起步,因為能力強、API 易集成;
- 開放權重模型(Open-Weight Models):公開模型權重(比如 Meta 的 Llama 3.1、Mistral 7B、谷歌的 Gemma 2),但不算完全 “開源”—— 訓練數據和方法通常不公開,許可證也可能有限制。這類模型透明度高、可自行部署,還能享受尖端性能;
- 開源模型(Open-Source Models):真正意義上的開放,不僅公開權重,還提供訓練代碼、數據和方法,且基于寬松許可證。控制力和可復現性最強,但性能通常不如頂尖專有模型或開放權重模型。
22. 應用程序接口(API)
不管選哪種模型(專有、開放權重、開源),你的應用都需要一種方式和它 “溝通”—— 大多數時候,尤其是入門階段,這種溝通是通過 API 實現的。
API(Application Programming Interface)就是應用和模型提供商的 “溝通橋梁”:你發送提示詞,它返回生成的文本。
可以這么理解:就像用外賣軟件點餐,軟件不做飯,只是把你的訂單發給餐廳,再把做好的飯送到你手上。你的代碼也不會運行龐大的 LLM,而是通過 API 向提供商的服務器發送請求,模型生成回應后再返回給你。
比如你在瀏覽器里用 ChatGPT,并不是在筆記本電腦上運行 GPT-5,而是你的消息通過 API 發送到 OpenAI 的服務器,生成答案后再傳回你的屏幕。
就算是在自己設備上用開放權重模型,通常也會通過 API 調用 —— 這樣應用的交互方式能保持一致。
23. 小型語言模型(SLM)
大型模型雖然強大,但運行成本很高。而 “小型語言模型(Small Language Model,SLM)” 的出現,提供了另一種選擇。
SLM 參數少(通常不到 150 億),專門優化特定任務。小巧的體型讓它們速度快、運行成本低,還能在筆記本電腦、智能手機這類本地設備上運行。
比如微軟的 Phi-3 和 Mistral 的 7B,都是能在消費級硬件上運行的 SLM。這意味著應用可以提供私密聊天、離線助手、本地副駕駛等功能 —— 數據存在自己的手機里,不用上傳到云端,既省錢又能離線使用。
24. 模態(Modality)與多模態(Multimodality)
現在很多模型只能處理一種輸入:文本 —— 這就是 “模態”。如果你上傳一張圖表,問 “這張圖是什么意思?”,純文本模型就無能為力了。
這時候就需要 “多模態” 模型 —— 能同時處理文本、圖片、音頻等多種輸入,讓答案更貼合上下文、更實用。
現在已經有這類系統了:GPT-4o 和 Gemini 1.5 Pro 能同時接收文本、圖片和音頻,交互更自然。
順便說下圖像生成:很多工具會把 LLM 和擴散模型(diffusion model)結合 —— 擴散模型從噪聲開始,逐步 “去噪”,在文本引導下生成圖片(比如 Stable Diffusion、Midjourney、DALL?E)。還有些模型本身就是多模態的,能直接結合文本和圖像生成,不用依賴外部工具。
第一種方式模塊化、靈活;第二種更無縫,兩者在質量、控制力、速度和成本上各有權衡。
25. 推理模型(Reasoning Models)
推理模型是一類新型 LLM,專門優化多步驟問題解決。它們不會急于回答,而是會 “先思考、記筆記”,幫助自己專注任務、對比選項、遵循規則、做簡單計算,或回答 “先解釋再決策” 的問題。
你可以把它們理解為自帶 “一步步思考” 功能的模型。如果任務的核心是 “思考”—— 比如整合觀點、權衡利弊、串聯步驟,就適合用推理模型。
當然也有權衡:這類模型通常運行時間更長、成本更高。而簡潔的指令模型,更適合快速查定義、短文本改寫或簡單查詢。
衡量性能:怎么判斷模型好不好用?
26. 基準測試(Benchmarks)
選模型時(比如 GPT-4o、Llama 3.1、Claude 3),怎么客觀對比它們的原始能力?答案是 “基準測試”。
基準測試是標準化的測試,用來衡量和對比不同 LLM 的能力,覆蓋多種任務:常識(比如 MMLU)、編碼(比如 HumanEval)、邏輯推理(比如 BBH)等。
讓不同模型做同一套基準測試,就能得到分數,進而排名、找出它們的優缺點 —— 這在實際應用前非常重要。
要注意兩點:
- 基準測試是 “任務特定” 的:編碼能力最強的模型,不一定擅長推理或總結;
- 新的基準測試不斷出現,隨著模型升級和任務重心變化,排名也會變動。
兩個常用的真實世界基準測試排行榜:
- Hugging Face Open LLM Leaderboard:對比開放權重模型在 MMLU、HumanEval、GSM8K 等任務上的表現;
- Chatbot Arena(由 LMSYS 推出):通過眾包方式讓用戶一對一對比 ChatGPT、Claude、Gemini 等聊天模型,按用戶偏好排名。
27. 指標(Metrics)
基準測試分數高,說明模型有潛力,但不代表它在你的應用里表現好。就算是頂尖模型,也可能因為提示詞設計差、檢索到無關文檔或輸出不清晰,給出糟糕的答案。
所以還需要 “指標”—— 針對具體使用場景的質量評估標準。比如在 RAG 類聊天助手中,常用兩個指標:
- 忠實度(Faithfulness):答案是否只基于檢索到的文檔?(用來衡量幻覺控制效果);
- 答案相關性(Answer Relevance):答案是否直接回應了用戶的問題?(衡量檢索和接地的質量)。
指標能幫我們從 “這個模型總體好不好?”,聚焦到 “這個系統對我們的用戶好不好用?”。
28. 大語言模型作為評判者(LLM-as-Judge)
![]()
有了忠實度、相關性這類指標,怎么在成千上萬次對話中評估它們?手動檢查每一個答案根本不現實 —— 這就是 “大規模評估” 的難題。
解決方案是 “LLM-as-Judge”:用一個強大的尖端 LLM(作為 “裁判”),自動評估另一個模型(作為 “學生”)的輸出。
具體做法:給裁判模型提供原始提示詞、學生模型的回應,以及基于指標設計的評估標準,裁判會返回分數和評估說明。
這讓大規模快速、一致的評估成為可能。比如很多研究實驗室現在用 GPT-5 或 Claude Opus 當 “裁判”,評估小型模型在忠實度、推理能力、風格等方面的表現。
模型的短板(及修復方法)
29. 幻覺(Hallucination)
大語言模型的一個主要問題是 “幻覺”—— 自信地編造虛假信息。
LLM 的目標是預測下一個可能的詞,而不是核實事實。這導致它可能生成聽起來很有道理,但完全是編造的內容:比如偽造不存在的研究論文引用、虛構法庭案例、編造錯誤的人物生平。
危險之處不在于錯誤本身,而在于這些錯誤被呈現得非常有說服力,很難察覺。在醫療、金融、法律等領域,一次幻覺就可能造成嚴重危害。
30. 數學與邏輯推理能力薄弱
雖然 LLM 看起來語言流暢,但它們并不是為遵循嚴格邏輯或執行計算而設計的。它們能模仿數學表達式,但沒有計算器或求解器那樣的可靠性。
這種短板在處理大數乘法或多步驟問題時會暴露:可能第一步是對的,后面就跑偏了,得出矛盾的結論。比如早期 GPT 版本常犯基礎數學錯誤(比如聲稱 7×8=54),也搞不定需要細致思考的邏輯謎題。
這些錯誤凸顯了 LLM 的本質是 “模式匹配者”,而不是 “思考者”。因此,在金融建模、科學分析、代碼調試等任務中,除非搭配能保證步驟準確性的外部工具,否則使用 LLM 風險很高。
31. 繼承偏見(Inherited Bias)
所有 LLM 都會從訓練數據中繼承偏見。互聯網文本反映了人類的各種觀點,包括刻板印象和偏見。
這里的 “偏見” 指模型回應的傾向性 —— 有些偏見有用,有些則有害。比如有偏見的模型可能會把男性和技術工作、女性和護理工作綁定。研究表明,模型在求職推薦、情感分析、圖像生成等場景中可能產生有偏見的結果。
這既是社會問題,也是實際問題:有偏見的輸出會侵蝕信任、加劇不平等,或損害品牌聲譽。
當然也有積極的一面:通過刻意 “引導偏見”,可以培養模型的有用特質 —— 比如讓客服助手始終保持耐心、支持的語氣。
32. 知識截止日期(Knowledge Cutoff)
另一個結構性局限是 “知識截止日期”。模型的訓練數據只到某個特定日期,之后的知識它都 “不知道”—— 相當于知識被 “凍結” 了。
比如 GPT-3.5 的知識截止到 2021 年,無法回答 2021 年后的事件(包括 ChatGPT 自身的發布)。如果你問它上周發布的新 AI 論文,或編程語言的最新版本,它可能給出過時或編造的答案。
這種滯后性讓 LLM 在時事、新研究、企業專屬知識等快速變化的領域不可靠。如果沒有檢索機制或用最新數據微調,它們無法彌補這個時間差 —— 用戶也不能把它們當作實時信息來源。
33. 護欄 / 安全過濾器(Guardrails / Safety Filters)
就算模型答案準確,也可能輸出不安全、不合適或偏離主題的內容。“護欄” 和安全過濾器就是為了防止這種情況而設計的系統。
它們會檢查用戶的輸入和模型的輸出是否符合既定規則,確保助手始終在安全、相關的范圍內回應。
比如有人問聊天機器人 “怎么制造武器”,防護完善的系統會拒絕回答,而沒有防護的系統可能會提供幫助。OpenAI、Anthropic 等公司都會設置這類過濾器,攔截暴力、自殘、隱私數據相關的回應。
沒有這些措施,AI 應用可能面臨聲譽損失、違反法規或損害用戶體驗的風險。護欄是讓原始語言模型變成專業、日常可用工具的關鍵。
解決模型的短板
每個短板(幻覺、推理錯誤、偏見、知識過時、缺乏護欄)都有對應的技術解決方案,但沒有一種方案是萬能的,且各有權衡:
- 幻覺:最好通過 “接地” 緩解,常用檢索增強生成(RAG)。讓模型依賴可信文檔,而不是不可靠的內部記憶 —— 但這需要強大的知識庫支撐;
- 推理薄弱:可以給模型搭配計算器、代碼解釋器、結構化工作流等工具。讓模型不再獨自完成所有工作,是充當 “路由器”,把子任務交給合適的工具 —— 這能提升數學、邏輯和多步驟任務的可靠性,但會增加延遲和系統復雜度;
- 偏見:通過對齊技術(如 RLHF)、精心設計的系統提示詞和安全護欄來管理。這些方法共同引導模型輸出有幫助、公平的內容。同時,偏見也可以被刻意引導:比如讓支持型助手始終保持耐心、鼓勵的語氣;
- 知識截止:有多種解決方式。RAG 能給舊訓練數據補充私有或最新文檔;用新數據集微調能讓模型適配特定領域;實時網頁搜索能獲取最新信息。每種方式在時效性、準確性、隱私性和成本上的表現不同,需根據場景選擇;
- 護欄:作為最后的安全防線,過濾輸入和輸出,確保范圍合規,防止有害、無關或敏感內容。有效的護欄會結合靜態規則和動態監控,在靈活性和安全性之間找到平衡。
實際應用中,難點不在于知道這些短板或解決方案,而在于針對具體場景選擇合適的組合。金融助手、醫療聊天機器人、教育導師,各自需要的檢索、推理、對齊和護欄方案都不同。
每一個決策(準確性 vs 成本、時效性 vs 安全性)都需要權衡。構建可靠的 AI 不是消除限制,而是設計出能妥善應對限制的系統。
總結
大語言模型是高級的模式匹配者,而不是真相來源。它們的優勢是語言流暢、有一定推理能力和廣博的知識,但也存在幻覺、偏見、知識過時等短板。
關鍵在于如何圍繞這些特點設計系統:選擇合適的提示詞技巧、檢索方式、微調策略和護欄機制。
如果只能記住一點,那就是:
了解這些基礎概念,能讓你更有效地使用 LLM,清晰看清它們的局限 —— 這正是區分 “把 LLM 當作魔法或完全不可靠工具” 和 “構建可信任系統” 的關鍵。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.