網易首頁 > 網易號 > 正文申請入駐

一文通關！ChatGPT等大語言模型33個關鍵概念全解！

2025-11-11 22:01:02　來源: 一言楠盡

北京舉報

分享至

寫給大眾用戶的大語言模型通俗指南，避開所有數學公式，直擊本質、從基礎到實踐的清晰指南，你不用懂數學、不用會編程，也不用記復雜的提示詞。

什么是生成式 AI？

如今的生成式模型是十年技術積累的成果，但直到 2022 年，才讓大多數人真正感受到它的 “驚艷時刻”。生成式 AI 是機器學習（Machine Learning，ML）的一個分支，核心是讓 AI 模型學習海量真實世界數據，然后生成類似人類創作的全新內容 —— 比如文本、圖片、代碼等。

這段話可能有點繞，咱們先理清幾個基礎術語，再深入聊大語言模型：

人工智能（AI）是個大范疇：讓計算機完成看起來需要 “智能” 才能做到的事。
機器學習（ML）屬于 AI 的子集：系統靠數據學習規律，而不是靠硬編碼的規則。
深度學習（Deep Learning，DL）是機器學習的一種方式：讓計算機通過海量案例練習，學會識別模式。
自然語言處理（Natural Language Processing，NLP）是 AI 專門處理人類語言的分支，就這么簡單。
生成式 AI 是 AI 的一個分支：專注于 “創造” 新內容（文本、圖片、音頻、代碼等），核心是 “生成”，而不是像傳統 AI 那樣專注于 “預測”。
大語言模型（LLM）是生成式 AI 家族中的深度學習模型，專門負責文本生成。

記住這個關系鏈就夠了：AI → 機器學習 → 深度學習 →（自然語言處理）→ 大語言模型（LLM）

理清了這些標簽，咱們就能明白大語言模型到底是怎么工作的了。

什么是大語言模型（LLM）？

大語言模型本質上是個超強的 “自動補全系統”。它一輩子只在重復回答一個簡單問題：“給定這段文本，下一個最可能出現的token是什么？”

這里的 “token”，就是文本的最小有意義單位 —— 可能是一個完整的詞（比如 “你好”）、單詞的一部分（比如 “run” 和 “ning”），也可能是標點符號（比如 “？”）。

舉個例子：當你問 ChatGPT“什么是微調（fine-tuning）？” 時，它并不是 “知道” 答案，而是逐個預測下一個token：

最可能出現的第一個token是 “微調”；
基于第一個token，下一個最可能的是 “是”；
再接下來是 “將”；
依此類推……

直到生成完整句子：“微調是在預訓練模型的基礎上，用更小、更具體的數據集進一步訓練的過程。”

輸入：什么是微調？大語言模型的核心功能：預測序列中的下一個token，從而生成回應。

它被稱為 “大語言模型”，原因很簡單：

規模大（Large）：擁有數十億個內部變量（稱為 “參數”），且訓練數據量極其龐大；
聚焦語言（Language）：專門用于理解和生成人類語言；
本質是模型（Model）：是對所學模式的數學化表達。

所以說到底，大語言模型就是個超級高級的 “猜詞機器”—— 一次次猜下一個token，直到拼湊出完整答案。

那它怎么能精準猜對呢？這就離不開它漫長的 “學習過程”—— 預訓練（pre-training）。

就像讓一個學生讀完一座巨大圖書館里的所有書（對 LLM 來說，就是互聯網上的海量文本），它不會逐字逐句背誦，而是學習語言、句子和思想之間的搭配模式，直到能準確預測任何句子的下一部分。GPT-5 這類基礎模型（Base Model），就是這么通過預訓練構建出來的。

隱藏的 “黑科技”：大語言模型的內部運作

你不用搞懂 LLM 的每一個 “零件”，但理解token、嵌入、參數這些核心組件，會讓它不再神秘。還能幫你看清模型的優勢、短板，以及如何讓它給出更好的結果。

1. token

大語言模型本質是個數學系統，有個核心問題：它只懂數字，不懂文字。那它怎么 “讀懂” 你問的 “什么是微調？” 呢？

第一步就是把文本轉換成模型能處理的形式 —— 先將句子拆成最小有意義單位，也就是token。

這個拆分工作由 “（tokenizer）” 完成：

先把句子拆成token列表：[“什么”, “是”, “微”, “調”, “？”]（不同token器拆分規則略有差異，比如可能拆成 [“什么”, “是”, “微調”, “？”]）；
再把每個獨特的token換成對應的 ID 數字。

最終，“什么是微調？” 會變成一串模型能理解的數字序列，比如 [1023, 318, 5621, 90177, 30]。

但token本身沒有意義，只是一串 ID，要讓模型理解，還需要另一層處理。

2. 嵌入（embeddings）

通過token化，我們把問題變成了數字 ID 列表，但這些數字只是隨機標簽 —— 比如 “貓” 的 ID 和 “小貓” 的 ID 毫無關聯，模型根本不知道它們的意思和聯系。

這時候 “嵌入” 就派上用場了。嵌入是一串特殊的數字（稱為 “向量”），專門用來表示token的含義。它不再是隨機 ID，而是給每個token分配一組 “意義坐標”，把它放在一個巨大的 “意義地圖” 上。

在這張地圖上，意思相近的詞（比如 “狗” 和 “小狗”）會靠得很近。模型能通過數字計算關系：比如 “國王” 到 “女王” 的坐標變化，和 “男人” 到 “女人” 的坐標變化是一樣的。

這也是聊天機器人和搜索引擎能理解不同表達方式的原因 —— 你搜 “汽車”，嵌入技術會讓引擎知道 “轎車”“機動車” 相關的內容也符合需求。

這些嵌入并不是雜亂無章的，它們都存在于一個更大的結構里。

3. 潛空間（Latent Space）

詞嵌入通過向量差異體現關系 —— 就像 “狗→小狗” 和 “走→跑” 的向量變化是平行的，這就是意義的幾何編碼方式。

當模型把問題轉換成嵌入后，這個嵌入不會孤立存在，而是進入 “潛在空間”—— 也就是所有嵌入所在的巨大 “意義地圖”。

它不是物理空間，而是模型構建的數學空間。訓練過程中，模型會在這個空間里整理各個概念的嵌入，讓它們的位置和距離能反映真實世界的關系。

比如你問 “什么是微調？”，這個問題的嵌入會和其他關于 “訓練方法” 的嵌入靠得很近。模型的任務很簡單：在這個 “鄰里區域” 里，找到最匹配的內容。

而支撐這種能力的，是模型的內部設置 —— 也就是參數。

4. 參數（Parameters）

ChatGPT 這類系統的基礎模型，擁有數十億個內部變量，這些就是 “參數”。它們不是數據庫里的條目，也不是事實列表，而是可調整的 “設置”，讓模型能捕捉語法、概念和模式。

你可以把參數想象成一堵巨大的 “旋鈕墻”：

一開始，所有旋鈕都是隨機設置的，毫無用處；
訓練過程中，模型會重復數萬億次 “預測下一個token” 的游戲；
每次猜錯，就微調一下這些旋鈕，讓它慢慢接近正確答案；
經過無數次微調后，最終的旋鈕設置就編碼了模型學到的一切 —— 包括語言模式、概念關聯和通用知識。

如果不經過訓練，數十億個隨機旋鈕毫無意義，只有通過漫長的訓練，它們才能承載知識。

大語言模型如何學習：“黑科技” 的訓練過程

5. 預訓練（Pre-training）

把隨機參數變成 “知識庫” 的過程，就是預訓練。

這個基礎階段，模型會接觸互聯網上的海量文本和代碼，核心目標只有一個：預測序列中的下一個token。每次預測后，它會對比真實答案，然后通過訓練算法微調數十億個參數。經過數萬億次重復，這些微小的調整會逐漸編碼語言的統計模式 —— 這就是 GPT-5 這類基礎模型在適配實際應用前，學習語法、常識和基礎推理能力的方式。

這個訓練過程可以拆成兩步理解：

（1）核心任務：預測下一個token

給模型一段文本片段，比如 “微調是一個____的過程”，它要猜測缺失的部分。一開始猜測是隨機的，但每次猜錯后，參數會微調，讓下一次更可能猜到 “進一步訓練” 這類正確答案。

（2）訓練結果：一個模式識別引擎

經過數萬億次修正，模型會變得特別擅長識別模式。它見過無數次 “微調是進一步訓練的過程” 這類表達，所以能牢牢記住這種關聯 —— 但它并不是在 “理解” 或 “思考”，只是在復現學到的模式。

預訓練讓模型裝滿了互聯網上的模式，但此時它還只是個 “文本預測器”。要明白這為什么是個問題，就得區分基礎模型和指令模型。

6. 基礎模型（Base Model）vs 指令模型（Instruct Model）

模型完成預訓練后，就是 “基礎模型”。它雖然知識淵博，但還不是個 “貼心助手”。

比如你用原始基礎模型問 “什么是檢索增強生成（RAG）？”，它可能只是機械地續寫句子，或者給出一個籠統無用的定義。它擅長預測文本，但沒被訓練過遵循指令或進行對話。

要讓它變成聊天機器人、搜索助手這類實用工具，就需要 “指令模型”。

指令模型是基礎模型經過額外訓練后的產物 —— 這種訓練叫 “微調”，用的是專門的 “指令 - 答案” 配對數據集。這個過程不會教模型新事實，而是教它 “怎么做事”：理解用戶意圖、給出清晰解釋、結構化呈現回應。

ChatGPT 和 Claude 都是指令模型，它們從設計之初就是為了提供幫助、響應需求，是任務導向型應用的核心。

而把基礎模型變成指令模型的關鍵一步，就是微調。

7. 微調（Fine-tuning）

微調，就是把完成預訓練的模型，用更小、質量更高的數據集再訓練一次，讓它專門適配某個任務。

這次的數據集不再是整個互聯網，而是幾千個和目標場景高度相關的精選案例。

最典型的例子就是 GitHub Copilot：基礎模型能生成各種文本，通過在數十億行開源代碼上微調，它學會了寫出、補全符合開發者風格的代碼。微調后的模型并沒有 “懂更多” 編程知識，只是更貼合真實世界的代碼模式，實際使用中更可靠。

這種針對性訓練會微調模型的參數，讓它模仿特定數據集的風格和準確性。

塑造模型行為：從 “知識庫” 到 “貼心助手”

8. 對齊（Alignment）

通過微調，模型能遵循指令了，但 “好答案” 的標準是什么？

一個只在互聯網上訓練的原始模型，可能給出技術上正確但對新手來說晦澀難懂的答案，甚至會重復訓練數據里的有害刻板印象。

這就是 “對齊” 要解決的核心問題：讓大語言模型的行為符合人類價值觀和意圖，具體來說就是 “有幫助、誠實、無害”。

比如 ChatGPT 會拒絕不安全的請求，會應要求簡化復雜概念，還會避免偏見或冒犯性語言。對齊的目標不是讓模型 “更準確”，而是讓它的行為實用、符合社會規范。

9. 基于人類反饋的強化學習（RLHF）

那怎么實現對齊呢？總不能直接告訴模型 “要貼心” 吧？我們需要一種方式，讓它明白人類眼中的 “優質” 和 “貼心” 是什么樣的 —— 這就是基于人類反饋的強化學習（Reinforcement Learning from Human Feedback，RLHF）。

它不是只靠文本訓練，而是根據人類偏好調整模型，具體步驟如下：

人類評分：給模型一個問題（比如 “什么是微調？”），讓它生成多個答案，然后由人類評審員給這些答案排序（從好到壞）；
訓練 “裁判模型”：用這些排序數據訓練一個單獨的 “獎勵模型”，它的唯一任務就是預測人類會如何評價某個答案；
模型向 “裁判” 學習：讓語言模型再次生成答案，由獎勵模型打分，然后微調語言模型的參數，讓它更傾向于生成高分答案 —— 慢慢學會符合人類偏好的回應方式。

這個過程能讓 ChatGPT、Claude 這類模型明白，人類看重的是清晰、貼心、禮貌和安全，而且不用手動編碼這些行為。

但模型只有收到輸入，才會生成回應 —— 那我們該怎么和它 “對話” 呢？

與模型對話：交互層的秘密

10. 提示詞（Prompt）：系統提示詞 vs 用戶提示詞

系統提示詞（System Prompt）：高層級指令，定義模型角色和約束，
用戶提示詞（User Prompt）:具體的問題或指令，即時交互

發送給模型的完整指令和上下文，就是 “提示詞”。一個設計良好的提示詞通常包含兩部分：

系統提示詞：設定模型的核心角色和邊界，是每次交互都生效的 “永久指南”。比如 ChatGPT 可能有個隱藏的系統提示詞：“你是一個貼心的助手，回答要清晰簡潔，避免不安全或有偏見的內容。”
用戶提示詞：用戶當下的具體問題或指令，比如 “什么是微調？”

模型會同時處理這兩部分：系統提示詞告訴它 “怎么表現”，用戶提示詞告訴它 “做什么”。這種分離能確保模型的回應始終貼心、不跑偏。

但對話很少只有一輪，要讓模型記住上下文，就需要 “上下文窗口”。

11. 上下文窗口（Context Window）

聊天助手要實用，必須能處理后續問題。比如你問 “能換種方式解釋嗎？”，模型得知道 “那種方式” 指的是什么 —— 這就靠上下文窗口來管理 “記憶”。

上下文窗口是模型一次能 “看到” 并處理的最大token數量，包括系統提示詞、完整的對話歷史，以及它正在生成的回應。模型看不到這個窗口之外的內容。

這個 “記憶上限” 很關鍵：如果和 ChatGPT、Claude 的對話太長，應用會自動縮短歷史記錄（通常刪掉最早的消息），避免模型忘記近期上下文。

而在這個窗口內，提示詞的結構會直接影響單個答案的走向。

12. 零樣本學習（Zero-shot）vs 少樣本學習（Few-shot）

這兩個術語描述了兩種控制模型輸出的核心提示詞設計方式，選擇哪種取決于模型完成任務需要多少引導。

零樣本提示（Zero-shot Prompting）：只給指令，不給任何示例。完全依賴模型已有的能力理解并執行命令。比如問 ChatGPT“什么是微調？”，就是零樣本請求 —— 相信對齊后的模型不用示例也能給出好答案。
少樣本提示（Few-shot Prompting）：既給指令，又在提示詞里加幾個 “示例”（稱為 “shots”），明確期望的輸出格式或風格。比如想讓模型用三個簡潔的要點總結文本，就可以先在提示詞里給一個這樣的總結示例，再讓它處理新文本。

少樣本提示能讓模型的輸出更可靠、格式更統一。

13. 推理與思維鏈（Chain-of-Thought，CoT）

有時候你會問 ChatGPT 這類復雜問題，需要多步推理才能回答。比如 “對比檢索增強生成（RAG）和微調，哪種更適合解決幻覺問題？” 如果模型直接給答案，很容易出現邏輯錯誤。

這就是 “推理能力不足” 的問題。要解決這個問題，就可以用 “思維鏈（CoT）” 這種提示詞技巧 —— 不用只問最終答案，而是在提示詞里加一句簡單的指令：“咱們一步步想”。

這會讓模型按邏輯步驟推導：先定義 RAG，再定義微調，然后對比兩者，最后得出結論。通過 “展示思考過程”，模型在復雜問題上的推理準確性會大幅提升。

現在一些專注于推理的新模型更進一步：它們自帶 “一步步思考” 的能力，不用專門提示，會自動進行內部思考，比如谷歌 Gemini 2.5 Pro、OpenAI GPT-5 和 Anthropic Claude Opus 4.1 這類尖端模型，都有這種高級推理能力。

實時運行：按下回車后發生了什么？

14. 推理（Inference）

當 ChatGPT 收到完整提示詞后，就開始生成答案 —— 這個訓練好的模型產生輸出的過程，就是 “推理”。

你看到答案逐字逐句出現，就是推理的實時過程：模型不是一次性寫出完整句子，而是每次只預測下一個最可能的token，把它加入序列，再重復這個過程，直到生成一個特殊的 “序列結束”token，或者達到最大輸出長度。

15. 延遲（Latency）

從你提問到收到完整答案的時間，就是 “延遲”—— 這是影響用戶體驗的關鍵因素，延遲太高會讓 AI 顯得又慢又遲鈍。

因為推理是逐token生成的，延遲主要看兩個指標：

首token時間（Time-to-first-token，TTFT）：第一個答案字符出現的時間，這個指標越低越好，能讓你知道 AI 正在工作；
token間隔時間：后續token生成的速度，決定了模型的 “打字速度”。

一個好用的聊天機器人，這兩個延遲指標都得低。

16. 溫度（Temperature）：確定性輸出 vs 隨機性輸出

“溫度” 這個參數，控制的是模型選擇token時的隨機程度。當你多次問 ChatGPT 同一個問題，它應該每次都給一樣的答案嗎？這就由溫度決定。

高溫（1.0）：答案有創意、不可預測，屬于 “隨機性輸出”。比如問 “巴黎是什么樣的？”，可能會得到 “啊，巴黎！這座燈光之都、浪漫之都，想象一個傍晚漫步在……” 這類充滿探索性的回答；
中溫（0.7）：答案有輕微到中等程度的變化；
低溫（0.0）：每次輸出完全一樣，屬于 “確定性輸出”。比如問 “巴黎是什么？”，會得到 “巴黎是法國的首都” 這種穩定、客觀的答案。

確定性輸出適合需要一致結果的場景（比如事實定義），隨機性輸出適合需要多樣化表達的場景（比如 “換種方式解釋”）。

架構與擴展：超越基礎模型的能力

17. 接地（Grounding）

“接地” 的核心原則是：讓大語言模型的輸出只基于我們提供的、可驗證的外部真實信息。

這是緩解幻覺問題的最直接方式之一 —— 不讓模型依賴自己龐大但不可靠的 “內部記憶”，而是連接到可信數據源。如果沒有相關信息，接地后的系統會直接說 “不知道”，而不是瞎猜。

18. 檢索增強生成（Retrieval-Augmented Generation，RAG）

那怎么在實時場景中實現接地呢？答案就是 “檢索增強生成（RAG）”—— 這種架構能在需要時連接知識庫或外部數據源，提升答案準確性。

最典型的例子就是 Perplexity AI：你提問后，它不會只靠內部記憶回答，而是先搜索網頁、找到相關來源，再把這些信息融入答案。RAG 的工作流程分三步：

檢索（Retrieve）：系統先搜索可信文檔或網頁，找到最相關的文本片段；
增強（Augment）：把這些片段自動加入提示詞，給模型一份 “標準答案 cheat sheet”；
生成（Generate）：指示模型只基于檢索到的證據生成答案。

這樣一來，每個回應都有可驗證的來源，既提升了準確性，也讓用戶更信任輸出。

19. 工作流（Workflow）vs 智能體（Agent）

構建具備 “行動能力” 的 AI 系統，主要有兩種方式，各自的控制程度和靈活性不同：

工作流（Workflow）：開發者定義固定、可預測的步驟序列，LLM 只是這個過程中的一個組件。比如 Perplexity 這類 RAG 系統，永遠遵循 “檢索→增強→生成” 的固定流程，可靠性高、易控制；
智能體（Agent）：讓 LLM 充當核心 “大腦”，自主主導流程。不給固定路徑，而是給它一個目標和一套工具（比如網頁搜索、計算器），讓它動態規劃該用什么工具、按什么順序用，來實現目標。智能體更靈活，但可預測性較低。

20. 智能體 AI（Agentic AI）

現在大多數聊天機器人都是 “被動響應型”：等你提問，才給一個答案。而智能體 AI 要解決的核心問題是：系統能自主規劃并完成多步驟任務嗎？

智能體 AI 讓 LLM 能規劃行動、執行任務，以達成復雜目標 —— 這讓模型從 “工具” 變成了 “系統大腦”。

比如你不用只問 “什么是微調？”，而是可以說 “做一份關于微調的學習指南”。智能體助手會自主搜索文檔、提取核心概念、整理成結構化總結，全程不用你額外輸入。

現在已經有這類工具的早期版本了：比如 Gemini Deep Research、OpenAI Deep Research、Perplexity Deep Research，能自主搜索來源、收集見解、生成有條理的輸出；編碼領域的 Claude Code 和微軟 Copilot Agent Mode，能規劃并完成多步驟編程任務，不止于研究。

模型的不同形態：大語言模型家族與權衡

21. 專有模型（Proprietary）vs 開源模型（Open-Source）

用 LLM 開發應用時，遲早會面臨一個實際選擇：選哪種模型？

如果只是實驗，可能無所謂，大概率會從 ChatGPT 這類專有 API 開始（好用又易獲取）。但如果要大規模部署、降低成本或定制系統，模型類型的選擇就至關重要了。

主要分三類，各自在成本、控制度和復雜度上有明顯權衡：

專有模型（Proprietary Models）：由公司擁有和運營（比如 OpenAI 的 GPT-5），通過付費服務訪問，無法查看或修改內部工作機制。很多開發者從這里起步，因為能力強、API 易集成；
開放權重模型（Open-Weight Models）：公開模型權重（比如 Meta 的 Llama 3.1、Mistral 7B、谷歌的 Gemma 2），但不算完全 “開源”—— 訓練數據和方法通常不公開，許可證也可能有限制。這類模型透明度高、可自行部署，還能享受尖端性能；
開源模型（Open-Source Models）：真正意義上的開放，不僅公開權重，還提供訓練代碼、數據和方法，且基于寬松許可證。控制力和可復現性最強，但性能通常不如頂尖專有模型或開放權重模型。

22. 應用程序接口（API）

不管選哪種模型（專有、開放權重、開源），你的應用都需要一種方式和它 “溝通”—— 大多數時候，尤其是入門階段，這種溝通是通過 API 實現的。

API（Application Programming Interface）就是應用和模型提供商的 “溝通橋梁”：你發送提示詞，它返回生成的文本。

可以這么理解：就像用外賣軟件點餐，軟件不做飯，只是把你的訂單發給餐廳，再把做好的飯送到你手上。你的代碼也不會運行龐大的 LLM，而是通過 API 向提供商的服務器發送請求，模型生成回應后再返回給你。

比如你在瀏覽器里用 ChatGPT，并不是在筆記本電腦上運行 GPT-5，而是你的消息通過 API 發送到 OpenAI 的服務器，生成答案后再傳回你的屏幕。

就算是在自己設備上用開放權重模型，通常也會通過 API 調用 —— 這樣應用的交互方式能保持一致。

23. 小型語言模型（SLM）

大型模型雖然強大，但運行成本很高。而 “小型語言模型（Small Language Model，SLM）” 的出現，提供了另一種選擇。

SLM 參數少（通常不到 150 億），專門優化特定任務。小巧的體型讓它們速度快、運行成本低，還能在筆記本電腦、智能手機這類本地設備上運行。

比如微軟的 Phi-3 和 Mistral 的 7B，都是能在消費級硬件上運行的 SLM。這意味著應用可以提供私密聊天、離線助手、本地副駕駛等功能 —— 數據存在自己的手機里，不用上傳到云端，既省錢又能離線使用。

24. 模態（Modality）與多模態（Multimodality）

現在很多模型只能處理一種輸入：文本 —— 這就是 “模態”。如果你上傳一張圖表，問 “這張圖是什么意思？”，純文本模型就無能為力了。

這時候就需要 “多模態” 模型 —— 能同時處理文本、圖片、音頻等多種輸入，讓答案更貼合上下文、更實用。

現在已經有這類系統了：GPT-4o 和 Gemini 1.5 Pro 能同時接收文本、圖片和音頻，交互更自然。

順便說下圖像生成：很多工具會把 LLM 和擴散模型（diffusion model）結合 —— 擴散模型從噪聲開始，逐步 “去噪”，在文本引導下生成圖片（比如 Stable Diffusion、Midjourney、DALL?E）。還有些模型本身就是多模態的，能直接結合文本和圖像生成，不用依賴外部工具。

第一種方式模塊化、靈活；第二種更無縫，兩者在質量、控制力、速度和成本上各有權衡。

25. 推理模型（Reasoning Models）

推理模型是一類新型 LLM，專門優化多步驟問題解決。它們不會急于回答，而是會 “先思考、記筆記”，幫助自己專注任務、對比選項、遵循規則、做簡單計算，或回答 “先解釋再決策” 的問題。

你可以把它們理解為自帶 “一步步思考” 功能的模型。如果任務的核心是 “思考”—— 比如整合觀點、權衡利弊、串聯步驟，就適合用推理模型。

當然也有權衡：這類模型通常運行時間更長、成本更高。而簡潔的指令模型，更適合快速查定義、短文本改寫或簡單查詢。

衡量性能：怎么判斷模型好不好用？

26. 基準測試（Benchmarks）

選模型時（比如 GPT-4o、Llama 3.1、Claude 3），怎么客觀對比它們的原始能力？答案是 “基準測試”。

基準測試是標準化的測試，用來衡量和對比不同 LLM 的能力，覆蓋多種任務：常識（比如 MMLU）、編碼（比如 HumanEval）、邏輯推理（比如 BBH）等。

讓不同模型做同一套基準測試，就能得到分數，進而排名、找出它們的優缺點 —— 這在實際應用前非常重要。

要注意兩點：

基準測試是 “任務特定” 的：編碼能力最強的模型，不一定擅長推理或總結；
新的基準測試不斷出現，隨著模型升級和任務重心變化，排名也會變動。

兩個常用的真實世界基準測試排行榜：

Hugging Face Open LLM Leaderboard：對比開放權重模型在 MMLU、HumanEval、GSM8K 等任務上的表現；
Chatbot Arena（由 LMSYS 推出）：通過眾包方式讓用戶一對一對比 ChatGPT、Claude、Gemini 等聊天模型，按用戶偏好排名。

27. 指標（Metrics）

基準測試分數高，說明模型有潛力，但不代表它在你的應用里表現好。就算是頂尖模型，也可能因為提示詞設計差、檢索到無關文檔或輸出不清晰，給出糟糕的答案。

所以還需要 “指標”—— 針對具體使用場景的質量評估標準。比如在 RAG 類聊天助手中，常用兩個指標：

忠實度（Faithfulness）：答案是否只基于檢索到的文檔？（用來衡量幻覺控制效果）；
答案相關性（Answer Relevance）：答案是否直接回應了用戶的問題？（衡量檢索和接地的質量）。

指標能幫我們從 “這個模型總體好不好？”，聚焦到 “這個系統對我們的用戶好不好用？”。

28. 大語言模型作為評判者（LLM-as-Judge）

有了忠實度、相關性這類指標，怎么在成千上萬次對話中評估它們？手動檢查每一個答案根本不現實 —— 這就是 “大規模評估” 的難題。

解決方案是 “LLM-as-Judge”：用一個強大的尖端 LLM（作為 “裁判”），自動評估另一個模型（作為 “學生”）的輸出。

具體做法：給裁判模型提供原始提示詞、學生模型的回應，以及基于指標設計的評估標準，裁判會返回分數和評估說明。

這讓大規模快速、一致的評估成為可能。比如很多研究實驗室現在用 GPT-5 或 Claude Opus 當 “裁判”，評估小型模型在忠實度、推理能力、風格等方面的表現。

模型的短板（及修復方法）

29. 幻覺（Hallucination）

大語言模型的一個主要問題是 “幻覺”—— 自信地編造虛假信息。

LLM 的目標是預測下一個可能的詞，而不是核實事實。這導致它可能生成聽起來很有道理，但完全是編造的內容：比如偽造不存在的研究論文引用、虛構法庭案例、編造錯誤的人物生平。

危險之處不在于錯誤本身，而在于這些錯誤被呈現得非常有說服力，很難察覺。在醫療、金融、法律等領域，一次幻覺就可能造成嚴重危害。

30. 數學與邏輯推理能力薄弱

雖然 LLM 看起來語言流暢，但它們并不是為遵循嚴格邏輯或執行計算而設計的。它們能模仿數學表達式，但沒有計算器或求解器那樣的可靠性。

這種短板在處理大數乘法或多步驟問題時會暴露：可能第一步是對的，后面就跑偏了，得出矛盾的結論。比如早期 GPT 版本常犯基礎數學錯誤（比如聲稱 7×8=54），也搞不定需要細致思考的邏輯謎題。

這些錯誤凸顯了 LLM 的本質是 “模式匹配者”，而不是 “思考者”。因此，在金融建模、科學分析、代碼調試等任務中，除非搭配能保證步驟準確性的外部工具，否則使用 LLM 風險很高。

31. 繼承偏見（Inherited Bias）

所有 LLM 都會從訓練數據中繼承偏見。互聯網文本反映了人類的各種觀點，包括刻板印象和偏見。

這里的 “偏見” 指模型回應的傾向性 —— 有些偏見有用，有些則有害。比如有偏見的模型可能會把男性和技術工作、女性和護理工作綁定。研究表明，模型在求職推薦、情感分析、圖像生成等場景中可能產生有偏見的結果。

這既是社會問題，也是實際問題：有偏見的輸出會侵蝕信任、加劇不平等，或損害品牌聲譽。

當然也有積極的一面：通過刻意 “引導偏見”，可以培養模型的有用特質 —— 比如讓客服助手始終保持耐心、支持的語氣。

32. 知識截止日期（Knowledge Cutoff）

另一個結構性局限是 “知識截止日期”。模型的訓練數據只到某個特定日期，之后的知識它都 “不知道”—— 相當于知識被 “凍結” 了。

比如 GPT-3.5 的知識截止到 2021 年，無法回答 2021 年后的事件（包括 ChatGPT 自身的發布）。如果你問它上周發布的新 AI 論文，或編程語言的最新版本，它可能給出過時或編造的答案。

這種滯后性讓 LLM 在時事、新研究、企業專屬知識等快速變化的領域不可靠。如果沒有檢索機制或用最新數據微調，它們無法彌補這個時間差 —— 用戶也不能把它們當作實時信息來源。

33. 護欄 / 安全過濾器（Guardrails / Safety Filters）

就算模型答案準確，也可能輸出不安全、不合適或偏離主題的內容。“護欄” 和安全過濾器就是為了防止這種情況而設計的系統。

它們會檢查用戶的輸入和模型的輸出是否符合既定規則，確保助手始終在安全、相關的范圍內回應。

比如有人問聊天機器人 “怎么制造武器”，防護完善的系統會拒絕回答，而沒有防護的系統可能會提供幫助。OpenAI、Anthropic 等公司都會設置這類過濾器，攔截暴力、自殘、隱私數據相關的回應。

沒有這些措施，AI 應用可能面臨聲譽損失、違反法規或損害用戶體驗的風險。護欄是讓原始語言模型變成專業、日常可用工具的關鍵。

解決模型的短板

每個短板（幻覺、推理錯誤、偏見、知識過時、缺乏護欄）都有對應的技術解決方案，但沒有一種方案是萬能的，且各有權衡：

幻覺：最好通過 “接地” 緩解，常用檢索增強生成（RAG）。讓模型依賴可信文檔，而不是不可靠的內部記憶 —— 但這需要強大的知識庫支撐；
推理薄弱：可以給模型搭配計算器、代碼解釋器、結構化工作流等工具。讓模型不再獨自完成所有工作，是充當 “路由器”，把子任務交給合適的工具 —— 這能提升數學、邏輯和多步驟任務的可靠性，但會增加延遲和系統復雜度；
偏見：通過對齊技術（如 RLHF）、精心設計的系統提示詞和安全護欄來管理。這些方法共同引導模型輸出有幫助、公平的內容。同時，偏見也可以被刻意引導：比如讓支持型助手始終保持耐心、鼓勵的語氣；
知識截止：有多種解決方式。RAG 能給舊訓練數據補充私有或最新文檔；用新數據集微調能讓模型適配特定領域；實時網頁搜索能獲取最新信息。每種方式在時效性、準確性、隱私性和成本上的表現不同，需根據場景選擇；
護欄：作為最后的安全防線，過濾輸入和輸出，確保范圍合規，防止有害、無關或敏感內容。有效的護欄會結合靜態規則和動態監控，在靈活性和安全性之間找到平衡。

實際應用中，難點不在于知道這些短板或解決方案，而在于針對具體場景選擇合適的組合。金融助手、醫療聊天機器人、教育導師，各自需要的檢索、推理、對齊和護欄方案都不同。

每一個決策（準確性 vs 成本、時效性 vs 安全性）都需要權衡。構建可靠的 AI 不是消除限制，而是設計出能妥善應對限制的系統。

總結

大語言模型是高級的模式匹配者，而不是真相來源。它們的優勢是語言流暢、有一定推理能力和廣博的知識，但也存在幻覺、偏見、知識過時等短板。

關鍵在于如何圍繞這些特點設計系統：選擇合適的提示詞技巧、檢索方式、微調策略和護欄機制。

如果只能記住一點，那就是：

了解這些基礎概念，能讓你更有效地使用 LLM，清晰看清它們的局限 —— 這正是區分 “把 LLM 當作魔法或完全不可靠工具” 和 “構建可信任系統” 的關鍵。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.