網易首頁 > 網易號 > 正文申請入駐

馬煜曦：為什么AI總寫出“正確”卻無聊的故事？

2026-03-01 15:12:14　來源: 集智俱樂部

北京舉報

分享至

導語

讓AI幫你寫故事，體驗往往是這樣的：情節流暢，邏輯無懈可擊，角色各就其位——但讀完之后，你會發現這個故事早就在腦海中某個模糊的地方見過。沒有意外，沒有驚喜，只有一種令人舒適卻又失望的“正確感”。

這不是幻覺，也不是你的提示詞寫得不夠好。這是大語言模型（LLM）的結構性缺陷。近日，北京大學心理與認知科學學院、北京大學人工智能研究院的研究團隊，在頂級人機交互會議CHI 2026上發表了一項研究，提出了基于進化論原理的AI輔助創意寫作系統——NarrativeLoom。他們的核心主張是：更大的模型不是解藥；打破“創意均質化”，需要有理論支撐的系統設計。

關鍵詞：大語言模型、創意寫作、AI人格、概率陷阱

馬煜曦丨作者

趙思怡丨編輯

論文題目：NarrativeLoom: Enhancing Creative Storytelling through Multi-Persona Collaborative Improvisation 論文鏈接：https://yzhu.io/publication/creativity2026chi/ 發表時間：2026年1月23日發表期刊：CHI 2026

作者簡介：

AI為什么會掉入“概率陷阱”？

大語言模型的訓練目標，是在給定上下文的情況下，預測下一個最可能出現的詞。這一機制賦予了它驚人的流暢度——但也制造了一個根本性的矛盾：統計意義上最可能的續寫，恰恰是創意上最無趣的選擇。

研究者將這個現象稱為“概率陷阱”（probability trap）。模型采樣時總傾向于落在訓練數據的統計中心，回避那些偏離均值的“異常點”。而好故事恰恰需要這些異常點——亞里士多德稱之為“突轉”（peripeteia）：出乎意料卻又合乎邏輯的戲劇性轉變。

研究團隊在正式研究之前訪談了5位從業2到15年以上的編劇和作家，得到了一個共識：現有AI寫作工具“只會接著你說的往下寫”，而不是帶來“新的節拍或新的元素”。單一聲音的AI輸出，讓寫作者感到內容重復，缺乏真正新穎的敘事可能性。

向進化論借一個框架：十個AI人格上場

NarrativeLoom的答案，來自心理學家坎貝爾（Donald T. Campbell）在1960年提出的創造力理論——盲目變異與選擇保留理論（BVSR），將進化論邏輯引入創造力研究：創造性思維需要兩個階段——不受既有模式約束地生成多樣備選項（盲目變異），以及對有價值備選項的審慎篩選（選擇保留）。

圖1：NarrativeLoom 系統架構，基于 BVSR 理論的三階段流程：盲目變異（10個AI人格并行生成）→ 選擇保留（用戶篩選編輯）→ 集體即興創作（展開為完整敘事）

系統同時調用10個具有不同敘事專長的AI人格（Persona），包括科幻未來主義者、懸疑解謎者、浪漫愛情紅娘、恐怖氛圍營造者、反烏托邦先知、魔幻現實主義者等。每個人格為故事的當前節點（“故事節拍”）獨立生成一個敘事方案，10個方案彼此隔絕。關鍵細節在于：這些人格并非風格差異，而是類型差異——不同的文學類型決定了不同的敘事邏輯和因果結構。

圖2：NarrativeLoom 用戶界面，展示從敘事初始化、多人格節拍選擇、結構編輯到文本擴展的完整交互流程

面對10個差異化的方案，人類用戶充當“創意總監”：評估、選擇，或在選中方案上二次編輯。被選中的“故事節拍”（包含地點、時間、角色、事件的結構化單元）隨后被擴展為800-1000字的敘事文本。用戶重復以上過程，逐拍推進，構成完整故事。

為維護長篇故事的一致性，系統引入了基于RAG（檢索增強生成）的情節控制器。每個新生成的故事節拍都會與歷史敘事內容做語義一致性檢驗——如果檢測到邏輯矛盾（如已死亡角色復活、時間線沖突），系統不會直接丟棄該方案，而是標注矛盾供用戶參考，同時將一致性更高的方案排列靠前。

40 輪盲測，38 次勝出：NarrativeLoom 擊敗單一AI

研究團隊招募了50名參與者（24女26男，平均年齡34.8歲），進行組內對照實驗——每位參與者分別使用NarrativeLoom和單一AI聊天機器人各20分鐘，寫作順序隨機平衡，底層均調用同一模型GPT-4o。

文本分析結果相當直接：使用NarrativeLoom生成的故事平均字數為3803字，而單一聊天機器人僅1908字，差距超過一倍。NarrativeLoom故事的場景地點數量更多（3.86處 vs 2.44處），對話比例更高（30% vs 16%），可讀性更好。

圖3：用戶評估對比（左：NarrativeLoom在多樣性維度顯著優于聊天機器人；右：人格使用模式，歷史/反烏托邦人格充當"啟動者"，懸疑人格為主要“推進者”）

更有力的證據來自專家評審。4位有8-18年經驗的專業編劇和作家，對隨機抽取的20對故事進行盲評，采用Torrance創意寫作測試（TTCW），涵蓋流暢性、靈活性、獨創性、細化性四維度共14個標準（滿分14分），在40組故事中，專家對NarrativeLoom生成的故事產生了壓倒性偏好（38次）。專家的定性反饋印證了數字：一位記者評價“這些故事把你帶到你意想不到的地方……聊天機器人的故事太可預測了”。一位編劇指出NarrativeLoom的故事“以場景開始，給人一種故事被緩緩展開的感覺”，而聊天機器人“更像說明書，從上帝視角直接列舉事件”。

新手受益更多，但老手寫得同樣更好

寫作經驗的分組分析中出現了一個有趣的現象。對于新手寫作者，NarrativeLoom在“新穎性”維度的評分明顯高于聊天機器人；對于有經驗的寫作者，兩個系統的新穎性評分幾乎相同。在易用性維度，有經驗的寫作者反而更偏好聊天機器人。

這與認知科學中的“專家效應逆轉”（expertise reversal effect）吻合：對新手有效的腳手架式輔助，對專家而言可能是多余的認知負荷。然而有一點值得強調：從專家評審的最終故事質量看，新手和有經驗寫作者使用NarrativeLoom的提升幅度并無顯著差異。喜不喜歡這個工具是主觀偏好，但故事寫得更好這件事，對兩類用戶都成立。

更大的模型，不是答案

這項研究提出了一個更宏觀的主張：創意AI的進步，不只需要更大的模型，還需要有理論依據的系統設計。NarrativeLoom使用的底層模型與對照組完全相同——都是GPT-4o。差距并非來自算力或參數規模，而來自架構：把生成過程分離為"變異"和"篩選"兩個階段，并用人類判斷占據篩選權。

當然，研究也誠實地指出了局限。類型化人格設計依賴于既有的文學傳統，可能難以產生真正反傳統的創意組合。評估框架主要反映西方敘事標準，跨文化適用性尚待驗證。還有一個更深層的擔憂：對于新手寫作者，長期依賴這類腳手架式系統，是否會妨礙獨立創意能力的發展？這一問題目前尚無定論，需要縱向研究來追蹤。

創意從來不是孤獨的產物——它從對話、碰撞與選擇中誕生。NarrativeLoom把這個古老的道理編碼進了系統架構。當AI不再只是續寫機器，而是能遞給你十種可能性、等你做決定的協作伙伴，人機共創也許才找到了它該有的樣子。剩下的問題是：當這個伙伴越來越強，我們還會保留多少真正屬于自己的決定？

「大模型時代下的Agent建模與仿真」讀書會

集智俱樂部聯合山東工商學院副教授高德華、天津大學教授薛霄、北京師范大學教授張江、國防科技大學博士研究生曾利共同發起。讀書會自2025年7月8日開始，每周二晚上7:30-9:30進行，現讀書會已結束，支持查看課程回放。掃碼加入Agent建模與仿真的前沿探索之旅，一起共學、共創、共建、共享「大模型時代下的Agent建模與仿真」社區，共同暢想大模型時代人工社會的未來圖景！

核心問題

Agent建模與仿真是什么，核心技術發生了怎樣的演變？

大模型時代，Agent建模與仿真會給復雜系統理論帶來哪些突破？

大模型如何賦能Agent實現自主思考與動態適應？

大模型驅動的Agent交互會涌現出什么新型的社會現象？

Agent建模與仿真如何改變金融、心理、管理、軍事等領域的研究范式？

你將收獲

梳理Agent建模與仿真的歷史發展脈絡與方法論；

掌握一套理解、分析、控制、預測復雜系統的計算實驗框架；

掌握基于多主體強化學習的復雜系統優化方法；

領略領域前沿學者的研究體系與科研路徑。

詳情請見：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.