![]()
導語
讓AI幫你寫故事,體驗往往是這樣的:情節流暢,邏輯無懈可擊,角色各就其位——但讀完之后,你會發現這個故事早就在腦海中某個模糊的地方見過。沒有意外,沒有驚喜,只有一種令人舒適卻又失望的“正確感”。
這不是幻覺,也不是你的提示詞寫得不夠好。這是大語言模型(LLM)的結構性缺陷。近日,北京大學心理與認知科學學院、北京大學人工智能研究院的研究團隊,在頂級人機交互會議CHI 2026上發表了一項研究,提出了基于進化論原理的AI輔助創意寫作系統——NarrativeLoom。他們的核心主張是:更大的模型不是解藥;打破“創意均質化”,需要有理論支撐的系統設計。
關鍵詞:大語言模型、創意寫作、AI人格、概率陷阱
馬煜曦丨作者
趙思怡丨編輯
![]()
論文題目:NarrativeLoom: Enhancing Creative Storytelling through Multi-Persona Collaborative Improvisation 論文鏈接:https://yzhu.io/publication/creativity2026chi/ 發表時間:2026年1月23日 發表期刊:CHI 2026
作者簡介:
AI為什么會掉入“概率陷阱”?
大語言模型的訓練目標,是在給定上下文的情況下,預測下一個最可能出現的詞。這一機制賦予了它驚人的流暢度——但也制造了一個根本性的矛盾:統計意義上最可能的續寫,恰恰是創意上最無趣的選擇。
研究者將這個現象稱為“概率陷阱”(probability trap)。模型采樣時總傾向于落在訓練數據的統計中心,回避那些偏離均值的“異常點”。而好故事恰恰需要這些異常點——亞里士多德稱之為“突轉”(peripeteia):出乎意料卻又合乎邏輯的戲劇性轉變。
研究團隊在正式研究之前訪談了5位從業2到15年以上的編劇和作家,得到了一個共識:現有AI寫作工具“只會接著你說的往下寫”,而不是帶來“新的節拍或新的元素”。單一聲音的AI輸出,讓寫作者感到內容重復,缺乏真正新穎的敘事可能性。
向進化論借一個框架:十個AI人格上場
NarrativeLoom的答案,來自心理學家坎貝爾(Donald T. Campbell)在1960年提出的創造力理論——盲目變異與選擇保留理論(BVSR),將進化論邏輯引入創造力研究:創造性思維需要兩個階段——不受既有模式約束地生成多樣備選項(盲目變異),以及對有價值備選項的審慎篩選(選擇保留)。
![]()
圖1:NarrativeLoom 系統架構,基于 BVSR 理論的三階段流程:盲目變異(10個AI人格并行生成)→ 選擇保留(用戶篩選編輯)→ 集體即興創作(展開為完整敘事)
系統同時調用10個具有不同敘事專長的AI人格(Persona),包括科幻未來主義者、懸疑解謎者、浪漫愛情紅娘、恐怖氛圍營造者、反烏托邦先知、魔幻現實主義者等。每個人格為故事的當前節點(“故事節拍”)獨立生成一個敘事方案,10個方案彼此隔絕。關鍵細節在于:這些人格并非風格差異,而是類型差異——不同的文學類型決定了不同的敘事邏輯和因果結構。
![]()
圖2:NarrativeLoom 用戶界面,展示從敘事初始化、多人格節拍選擇、結構編輯到文本擴展的完整交互流程
面對10個差異化的方案,人類用戶充當“創意總監”:評估、選擇,或在選中方案上二次編輯。被選中的“故事節拍”(包含地點、時間、角色、事件的結構化單元)隨后被擴展為800-1000字的敘事文本。用戶重復以上過程,逐拍推進,構成完整故事。
為維護長篇故事的一致性,系統引入了基于RAG(檢索增強生成)的情節控制器。每個新生成的故事節拍都會與歷史敘事內容做語義一致性檢驗——如果檢測到邏輯矛盾(如已死亡角色復活、時間線沖突),系統不會直接丟棄該方案,而是標注矛盾供用戶參考,同時將一致性更高的方案排列靠前。
40 輪盲測,38 次勝出:NarrativeLoom 擊敗單一AI
研究團隊招募了50名參與者(24女26男,平均年齡34.8歲),進行組內對照實驗——每位參與者分別使用NarrativeLoom和單一AI聊天機器人各20分鐘,寫作順序隨機平衡,底層均調用同一模型GPT-4o。
文本分析結果相當直接:使用NarrativeLoom生成的故事平均字數為3803字,而單一聊天機器人僅1908字,差距超過一倍。NarrativeLoom故事的場景地點數量更多(3.86處 vs 2.44處),對話比例更高(30% vs 16%),可讀性更好。
![]()
圖3:用戶評估對比(左:NarrativeLoom在多樣性維度顯著優于聊天機器人;右:人格使用模式,歷史/反烏托邦人格充當"啟動者",懸疑人格為主要“推進者”)
更有力的證據來自專家評審。4位有8-18年經驗的專業編劇和作家,對隨機抽取的20對故事進行盲評,采用Torrance創意寫作測試(TTCW),涵蓋流暢性、靈活性、獨創性、細化性四維度共14個標準(滿分14分),在40組故事中,專家對NarrativeLoom生成的故事產生了壓倒性偏好(38次)。專家的定性反饋印證了數字:一位記者評價“這些故事把你帶到你意想不到的地方……聊天機器人的故事太可預測了”。一位編劇指出NarrativeLoom的故事“以場景開始,給人一種故事被緩緩展開的感覺”,而聊天機器人“更像說明書,從上帝視角直接列舉事件”。
新手受益更多,但老手寫得同樣更好
寫作經驗的分組分析中出現了一個有趣的現象。對于新手寫作者,NarrativeLoom在“新穎性”維度的評分明顯高于聊天機器人;對于有經驗的寫作者,兩個系統的新穎性評分幾乎相同。在易用性維度,有經驗的寫作者反而更偏好聊天機器人。
這與認知科學中的“專家效應逆轉”(expertise reversal effect)吻合:對新手有效的腳手架式輔助,對專家而言可能是多余的認知負荷。然而有一點值得強調:從專家評審的最終故事質量看,新手和有經驗寫作者使用NarrativeLoom的提升幅度并無顯著差異。喜不喜歡這個工具是主觀偏好,但故事寫得更好這件事,對兩類用戶都成立。
更大的模型,不是答案
這項研究提出了一個更宏觀的主張:創意AI的進步,不只需要更大的模型,還需要有理論依據的系統設計。NarrativeLoom使用的底層模型與對照組完全相同——都是GPT-4o。差距并非來自算力或參數規模,而來自架構:把生成過程分離為"變異"和"篩選"兩個階段,并用人類判斷占據篩選權。
當然,研究也誠實地指出了局限。類型化人格設計依賴于既有的文學傳統,可能難以產生真正反傳統的創意組合。評估框架主要反映西方敘事標準,跨文化適用性尚待驗證。還有一個更深層的擔憂:對于新手寫作者,長期依賴這類腳手架式系統,是否會妨礙獨立創意能力的發展?這一問題目前尚無定論,需要縱向研究來追蹤。
創意從來不是孤獨的產物——它從對話、碰撞與選擇中誕生。NarrativeLoom把這個古老的道理編碼進了系統架構。當AI不再只是續寫機器,而是能遞給你十種可能性、等你做決定的協作伙伴,人機共創也許才找到了它該有的樣子。剩下的問題是:當這個伙伴越來越強,我們還會保留多少真正屬于自己的決定?
「大模型時代下的Agent建模與仿真」讀書會
集智俱樂部聯合山東工商學院副教授高德華、天津大學教授薛霄、北京師范大學教授張江、國防科技大學博士研究生曾利共同發起。讀書會自2025年7月8日開始,每周二晚上7:30-9:30進行,現讀書會已結束,支持查看課程回放。掃碼加入Agent建模與仿真的前沿探索之旅,一起共學、共創、共建、共享「大模型時代下的Agent建模與仿真」社區,共同暢想大模型時代人工社會的未來圖景!
核心問題
Agent建模與仿真是什么,核心技術發生了怎樣的演變?
大模型時代,Agent建模與仿真會給復雜系統理論帶來哪些突破?
大模型如何賦能Agent實現自主思考與動態適應?
大模型驅動的Agent交互會涌現出什么新型的社會現象?
Agent建模與仿真如何改變金融、心理、管理、軍事等領域的研究范式?
你將收獲
梳理Agent建模與仿真的歷史發展脈絡與方法論;
掌握一套理解、分析、控制、預測復雜系統的計算實驗框架;
掌握基于多主體強化學習的復雜系統優化方法;
領略領域前沿學者的研究體系與科研路徑。
詳情請見:
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.