![]()
內容來源:2026年3月7日,在深圳舉辦的筆記俠PPE書院西哲坊03期第3講【真理與決策】內容筆記。
分享嘉賓:蘇德超,武漢大學哲學學院教授、博士生導師、筆記俠PPE書院創始顧問、西方哲學模塊全程授課導師。
高級筆記達人 | 李云
責編| 賈寧排版| 拾零
第 9511篇深度好文:7682字 | 20 分鐘閱讀
哲學思維
筆記君說:
AI正在以驚人速度接管我們的工作流程,但它也正在成為決策失誤的放大器。當所有人都沉浸在"效率革命"的驚喜中時,一個危險的真相被忽略了:AI不會幫你承擔責任,它只會在你犯錯時,讓你錯得更快、更徹底。
3月7日,武漢大學哲學學院教授、筆記俠PPE書院創始顧問、西方哲學模塊全程授課導師蘇德超老師,在筆記俠PPE書院西哲坊03期的課堂上為我們拆解了科學決策的底層邏輯。
他講透了為什么找不到中間變量的措施,全是無效的壞措施;再深挖了大模型幻覺的核心成因,還拆解用AI做決策最容易踩的3個致命坑;更點破一個扎心真相:比AI幻覺更可怕的,是我們人類的主動幻覺。
文末還有可直接落地的4步核查法,幫你建立一套可追溯、可糾錯的決策系統,在不確定的世界里,做出真正穩準可控的判斷,做自己決策的主人。
希望今天的分享,對你有所啟發。
一、所有靠譜的決策,
都必須找到中間變量
所有的因果關系,都應該找到一個中間變量,找不到中間變量的措施,都是壞措施。
比如,“通過老師的輔導,我孩子就變好了”這句話,就值得推敲。
很多經過老師輔導的孩子并沒有變好。老師的輔導改變了孩子的“什么”,孩子才變好了?重要的不是老師的輔導,而是這個“什么”。要把這個“什么”找到,一定要找到中間變量。
找不到的中間變量,是什么?那是愛,那是信仰,愛是沒有中間變量的,它是最直接的。但是我們所有人類可以操作的東西,都是在操作中間變量。
所以做決策,一定要找到中間變量。沒有中間變量的決策,就跟表白似的:“我愛你”,對方問“為什么愛我”,你說不出個所以然,這對愛有意義。因為真愛拒絕中間變量。
你要是說“我圖你有錢”,對方大概率不喜歡;你說“我圖你長得漂亮”,對方可能會喜歡,但也只是一陣子。不一定總有錢,也肯定不會一直漂亮。
傳聞中華爾街投資客說:永遠不要為異性的漂亮買單。為什么?因為漂亮太容易貶值了,我們要購買的是不貶值、能保值的東西。
眼下黃金為啥越來越貴?就是因為它保值。而美麗呢,貶值速度特別快,年紀一上來就擋不住,哪怕靠化妝、整容也沒用,膠原蛋白只會以肉眼可見的速度流失。
這就是中間變量的重要性。決策必須找到它。不要只說“因為A,所以B”,一定要在A和B之間找到C。
中間變量找得越多,你出錯的可能性就越小。因為中間變量多了,就給你留了回頭的機會,它是一個指標,一旦某個中間變量變了,你就知道“壞了,我可能錯了”。
舉個例子,要是你只盯著A到B,哪怕A還沒到B,你還會傻傻等;但如果是A先到C再到B,而C根本不可能出現,你就不用等了,直接掉頭就行,不用浪費時間。
在經濟和科學領域,不存在“沒有中間變量”的情況,只有情感和信仰是例外。比如你的孩子愛你,沒有任何中間變量,就是純粹的愛,不為什么。這是人類最寶貴的情感,它恰恰不需要中間變量。也許有吧,我們希望沒有。
但我們做決策、搞管理,必須有中間變量,不然就無從研究、無從把控。管理本身就是過程,要是連中間環節都沒有,那根本不會有科學的決策。
二、AI為什么會一本正經地胡說?
說到決策的科學性,就不得不提AI。
我們需要注意:AI輸出的不是事實,因為AI并不直接接觸世界,它接觸的都是數據,而且還是二手數據。
我們人類去做調查,拿到的是一手數據。AI接受的,就是我們調查結果的二手數據,而且這些數據還經過了所謂的“清洗”。它自認為是清洗,你怎么知道不是越洗越臟呢?
當然,AI也有厲害的地方,就像做閱讀理解,好學生和差學生不一樣:差學生可能匆匆做完所有題,好學生卻能精準提煉核心,從數據中提取、壓縮后還能保證正確,這是一種非常高級的能力。
但到目前為止,AI能不能保證,在決策鏈條中必須有可追溯、符合人類認知的確鑿證據(grounding evidence)?如果沒有,它就會把幻覺當成情報。
OpenAI團隊在2025年7月出了一篇文章,標題是《why language models hallucinate?》(為什么大語言模型有幻覺),專門講了大語言模型產生幻覺的原因。
文章首先定義了幻覺:就是語言模型會自信地生成“看起來合理,但實際上不真實”的事實。早期的大模型主要基于概率生成內容,現在它們的邏輯推理能力已經很強了,大模型的水平甚至能達到國際奧林匹克競賽金獎的級別。
所以回頭想想,我們應該教孩子什么?國際奧林匹克競賽金牌的大模型,過幾天大家可能很快就能用到了,你物理強、化學強不算什么,現在大家拼的核心是什么?
這篇文章的核心觀點就是:大模型之所以會出現幻覺,是因為主流的訓練和評估機制,往往獎勵“猜測”,而不是承認“不確定”,這種激勵機制從根本上推動了幻覺的形成。
這就跟我們高考前,老師跟我們說的一樣:哪怕這道題不會,猜都要猜,萬一猜對了呢?訓練早期大模型也是這樣:用戶問答案,哪怕不知道,也得猜一個,猜對了客戶就會認同,猜錯了也沒關系。
所以第一代、第二代大模型,全都是這么干的;但現在的最新版本不一樣了,它會直接說“這個問題我不確定,不能給你回答”,已經能做到這一點了。
還有一個關鍵點:我們問AI的時候,永遠要加一句“你不要急于做出判斷,要是覺得缺哪些信息,就問我,確保得到足夠信息后再做判斷”,它就真的會主動問你問題。
一定要加這句話,現在AI已經能做到了,這都是那篇文章發表之后的進步,因為大家都意識到了“猜答案”的問題,在此之前,一旦不確定,它就是一味地猜。
不知道答案還去猜,有概率蒙對,但如果直接說不知道,肯定得不了分。與其得不了分,不如猜一猜還有可能得分,這是很簡單的推理。
有三種回答:答對、答錯、棄權。棄權體現的是謙遜,但早期的大模型訓練,并不給“謙遜”賦值,也就是說,謙遜得不到任何獎勵。要么答錯被懲罰,要么答對被獎勵,要是說“不知道”(棄權),也會被懲罰。既然都是被懲罰,那不如去猜一猜,還有可能蒙對,這就是早期大模型總愛猜答案的原因。
可見,只看準確率會掩蓋模型的錯誤與幻覺問題,這是早期訓練方式帶來的缺陷,單純用準確率打分并不合理,后來則更注重真實可靠性。
在復雜的真實場景中,模型準確率不可能長期達到100%,因為存在信息缺失、問題歧義、能力邊界等客觀限制。因此,想靠追求滿分準確率來消除幻覺并不現實,幻覺本質上無法徹底消除。
![]()
這一點已經被論證:大模型不可能完全消除幻覺,就像人類也永遠無法杜絕犯錯一樣。承認幻覺不可消除,才是科學的認知。
從機制上看,幻覺和大模型“下一個詞預測”的預訓練方式直接相關。模型學習的是語言模式與詞向量分布,而很多低頻、冷門的事實知識沒有穩定規律,預測本身就容易出錯。
幻覺源于能力邊界與信息缺失,所以無法根除。只有拼寫、括號匹配這類強規則任務,會隨模型優化越來越準確;而生日等冷門知識的任務,仍然容易輸出看似流暢、實則不可靠的內容。
所以結論很明確:與其只增加少量新測試題,不如重構行業通用的核心評估指標,讓整個行業從獎勵“敢猜”轉向獎勵“誠實表達不確定”。
這篇文章發表后,大模型的表現確實改善很多:現在它真的會老實說“我不知道”,而不是隨便亂編。
放到組織和企業里也一樣:不知道就說不知道,反而更好。
明確說“我不知道”,大家才會意識到:這里缺信息、缺數據、缺推理。如果明明不懂還硬猜,一個人猜、兩個人附和,第三個人也跟著同意,最后全員拍板下注,風險極大。
三、用AI做決策,
最容易踩的3個致命坑
我們先看組織里對AI的誤用,再看組織幻覺。
第一個坑:把AI當權威,把流暢自信當成正確
首先,是把AI當權威,把表達流暢、自信、速度快當成正確性與可追責的結論,就如我們直接用龍蝦(openclaw),雖然它是我們放大的工具。從哲學本身來看,可能帶來兩個挑戰。
AI會嚴格執行你給的策略和指令。可一旦你的策略本身就是錯的,AI只會更高效、更精準地把錯誤執行到底,你還很難及時發現,直到釀成災難性后果。
![]()
AI本質上只是在提升執行效率,不會主動更新你的底層邏輯。任務是你派的,團隊是你搭的,老板一開始就錯了,AI只會幫你錯得更快、更徹底。
這也是AI和人類員工最大的區別:人有情緒、有判斷,會提醒、會反駁,你能感知到風險。但你把AI訓練得越“聽話”,它越沒有情緒、不會質疑。
我們訓練AI工作流時,追求的是流暢、自信、響應快、執行力強。但前提一旦錯了,AI根本不會質疑你的出發點;真要讓它隨便質疑前提,效率就會極低。
這也意味著:前提的討論、哲學與管理的底層邏輯,會變得無比重要。只要底層不錯,AI就不會放大錯誤;底層一錯,AI就是錯誤的加速器。一根杠桿并不區分兩頭的內容。
第二個坑:把AI當事實庫,不做溯源和核查
你搭建的AI工作流,本質上還是依賴大模型。而大模型的幻覺問題依然存在,無法徹底消失。
就算讓多個AI之間相互對話、交叉驗證,幻覺也不會消失,甚至可能錯誤疊加、越放越大。正確的信息很難指數級放大,但一個小錯誤,卻很容易被不斷放大,這是極度不對稱的。
古人說,千里之堤潰于蟻穴。不能掩蓋錯誤。一個幻覺可能越放越大,就形成了蝴蝶效應。蝴蝶效應往往是負面效應擴大,正面的很難有擴大。
![]()
所以,我們養“龍蝦”,用AI,都要注意底層不能出錯,否則幻覺可能持續放大。
不要把AI當權威,也不要把AI當事實庫。AI沒辦法給我們事實,一定要去追溯它的來源。
當然,養“龍蝦”可以部分解決這個問題,你讓它去查,查了之后讓它把數據鏈給你注出來(在哪本書、多少頁,在什么網址上),如果可以的話,還讓它對關鍵信息進行截圖,不截圖都可能出錯。
我沒養過“龍蝦”,但我用大模型去網上爬過資料。因為我的一篇文章要做引用,需要查相關資料。文章的主題是“AI來臨之后,我們可怎么辦呢?”背景是很多人都唱衰文科,但我覺得文科會越來越重要。
我引用了很多的觀點,但出差在外,手頭沒有書,我就讓AI去查,要它找到觀點出處。
最初,它幾乎找到了所有出處。但當我讓它截圖時,它就普遍地回答“找不到”了。有些它找到了,有些它找不到。它找到的,未必是對的,它沒有找到的,未必不存在。所以,不要把AI當事實庫。
第三個坑:把AI當背鍋俠,出了事全怪模型
絕對不要把AI當成背鍋俠。出了問題就怪模型,把責任一推了之,這是完全錯誤的。從我做AI哲學研究的核心觀點來看:現階段,AI難以自主承擔責任,真正負責的只能是人。
所以使用AI時,必須明確指定責任人。AI確實能極大提升效率,但它只提供選項和依據,最終決策永遠是人來做,責任永遠是你的,可靠性不能只靠愿望。
![]()
這個世界本身并不完美,但我們必須通過人來負責、通過機制來約束,就相對穩定一點。
四、怎樣對抗AI幻覺帶來的
三大核心風險?
AI給出的是線索,不是答案;AI給出的是建議,不是決策。因為它不能自查:生成式模型的本質,就是在給定輸入和訓練分布下,生成高概率的文本,這不等于檢索事實。
所以才會出現三類風險,核心都是幻覺:
第一,編造信息:比如編造數據、編造因果鏈,明明沒有的事,它能說得有模有樣;
第二,錯配信息:時間點不對、地區或行業不對,把一個行業的經驗套到另一個行業,很可能全錯,畢竟不同行業的情況天差地別;
第三,偏差和漂移:訓練數據本身有偏差,或者現實情況已經變了,但AI還是自信地輸出舊結論,自然會出錯。
更關鍵的是,AI一旦進入組織,風險就不只是“答案錯了”那么簡單。錯的答案會被規模化傳播,進入郵件、進入匯報、進入我們的決策。我們的公司、我們的組織,會變成AI錯誤的放大器和杠桿,最后釀成悲劇。
解決這個問題的路徑,不是一味追求“更大的模型”,而是要做到“來源可追溯”:所有結論都要建立在事實基礎上,數據血緣必須清晰:這個數據指標從哪來、誰能修改,都要明確;人機責任要分清,誰為AI的輸出負責,必須確定。
![]()
你可以用AI,但你要為最終的結果負責任,就像你開車,車可以給你開,但走錯路、出事故,責任永遠是你的。
有個4步核查法,可以讓我們避開AI胡說的坑。所有用于決策的AI結論,必須附上這四點:
信息來源是什么?生效時間是何時?統計口徑是什么?核查人是誰?這些必須標注清楚,責任落實到人,而不是推給AI。
另外,關鍵指標要建立明確的口徑和負責人,還要定期做抽樣審計。在會議上也要明確:AI可以用來起草文件、匯總信息、提出假設,但絕對不能作為最終的事實依據,至少到目前為止是這樣。
所以,我們面對AI時,一定要有核查思維,多問四個問題:
這個信息來自哪里?生效時間是什么時候,什么時候更新的,現在過時了嗎?這個結論、這個數字的口徑是什么,定義是什么?能不能復查?
比如AI顯示“38%的人對某產品滿意”,那什么叫“滿意”?口徑是誰定的?這很重要,口徑一松一緊,結果天差地別。以10分值為例,6分以上算滿意,還是8分以上才算?
責任一定要明確:誰核查過、誰簽字,誰就負責;把AI結論放進決策材料的人,一定要簽字。你要用AI,就必須承擔這個責任。
很多人有個誤解,覺得沒必要做這些核查工作,但其實不然。
我們可以做一個AI數據溯緣與核查表,明確這些內容:數據源頭是誰?口徑定義是什么,分子、分母分別是什么,包含什么、不包含什么?誰能修改這個數據?我們怎么驗證它、怎么抽樣審計?AI的引用規則是什么?在哪些異常情況下,必須暫停使用AI、進行人工復核?
這些規則一定要清晰,AI我們當然要用,但要用得規范、用得安全。
五、比AI幻覺更可怕的,
是人類的主動幻覺
面對AI,我們要轉變思維:把自己當成AI的審計員,它是員工,我們負責審計,這樣就對了。
而且大家會發現,從AI幻覺到人類幻覺,底層邏輯是一樣的。AI的幻覺,其實就是我們人類自身幻覺的投射。
舉個例子:你下班回家本來就累,你老公或老婆又告訴你孩子沒考好,你還在家長會上被班主任陰陽怪氣說了一頓。這時你一推門,看見孩子在桌子旁,身體一彈,還把抽屜推進去了。你立馬就火了:“又在玩手機、打游戲?成績那么差還玩!”
這個邏輯看起來特別合理,但你有沒有想過,他可能根本沒打游戲?他可能正在拿試卷、拿文具,看到你進來太緊張,條件反射地把抽屜推回去了,這完全有可能。
就像親子教育里,我們常說“你就是懶,別找理由”,這就和模型被獎勵給出確定答案一樣:我們把自己的主觀動機,當成了客觀事實,卻缺少“我不確定,我需要證據”的意識。
這和AI幻覺一模一樣:你把一個“最容易想到、最符合自己情緒”的答案,當成了真實答案。AI也是如此,它輸出的不是正確答案,而是它最容易找到、最符合訓練分布的答案。
我們人類也一樣,孩子一次考差,就斷定“他根本沒用功”;對方不回消息,就認定“他不在乎我”。這都是把單次觀測當成了充足的訓練數據,缺少中間變量的考量。
我們在不確定的場景里,被迫生成一個答案,而這個答案還被情緒左右,最后生成了一個“最像正確答案”的猜測。
就像對方不回消息,你根本不會想“他是不是在開車、在開會、在跟重要的人聊天”,反而會鉆牛角尖:“他不及時回復,就是不在乎我”,情緒拉滿,最后吵起來,這和AI瞎猜亂輸出,簡直一模一樣。
在公司協作時,我們也經常能聽到這些話:“這個需求已經很清楚了,你怎么還做錯呢?”“大會、小會說了那么多,怎么還錯了呀?”
這也很像AI幻覺,把看見的清楚當成已經對齊了。那你是不是沒有給具體指標?給了指標之后是不是沒有提醒他有哪些驗算點?驗算的時間對齊了嗎?都沒有。
他(下屬)確實做錯了,但你把你的責任盡到了嗎?準確表達了嗎?在該需要你跟他做過程對齊的時候,你對齊了嗎?
一些公司的領導經常說“這事別解釋,結果說明一切,你就是不認真”,這就是把單一的輸出結果當成真實的標簽。
類似的話還有“像個好答案,就是個好答案”“現在提風險就是不想擔責,提什么風險”,這樣說連證偽精神都沒有了,肯定會出錯。
這時組織激勵在起作用,表達不確定會被懲罰,表達確定就會被獎勵,于是系統就開始偏向于大膽生成,而不是校準與保守。
所以,永遠不要對下屬說這樣的話:你們給我承諾,你提風險,你就是不擔責任。
這樣你沒法負責,就相當于你在訓練第一代、第二代大模型,每個答案猜一個,給不出你就是“懶”,這樣任何時候它都給你答案,但這個答案是不確定的。
而你,只是為了完成流程,它猜了答案之后,你趕緊簽個字,往上一遞交,上面給拍板,就這么干。決策流程都做了,但沒有人負責,因為整個流程都是對的。
部門溝通時,有人會說:“按照經驗,這次一定翻車,別冒險,按老辦法干”。這也是個AI幻覺實驗:用過去熟悉的模板替代對當前情景的驗證。
不能這么講,你要說“這次怎么翻車,把道理講出來”,找到一個證偽點就夠了。不要說“按經驗不起作用”這種話。
在算法時代,清潔的數據是唯一的硬通貨。數據是干凈的,這是最重要的東西。算力很容易打造,但數據很難。
現在大模型訓練最缺的是什么?高質量數據的匱乏。
大家用DeepSeek都有一個感覺,剛剛出來的時候非常牛,用上半年之后體感水平下降了,為什么?有人說,這是因為,大量的網友跟它聊天,把它水平搞下來了。這個未必對,但其中有正確的直覺。
在智人社群,干凈的事實是最穩的出發點。我們是智人,我們是動物里面最厲害的那群動物,在智人的群落里面,干凈的事實是最穩定的,事實要是干凈的,沒有被錯誤地清洗過的。
把AI當人,把人當AI,就會極大地降低認知負擔。
結語
很多人唱衰文科,覺得AI時代數理能力才是核心,但真相并不那么簡單:AI能替代奧林匹克金獎級別的解題能力,卻替代不了底層的邏輯判斷、因果洞察、證偽思維和責任擔當。
對抗AI幻覺,本質是修煉自己的認知能力。我們要做的,不是追求一個永遠正確的AI,而是建立一套“承認不確定性、敬畏客觀事實、可追溯、可糾錯”的決策系統。
這個世界永遠是不確定的,真正靠譜的決策,從來都不是找到一個全對的答案,而是哪怕身處不確定中,也能守住事實的底線、承擔決策的責任。
我們要永遠記住:AI給出的是線索,不是答案;是建議,不是決策。沒有可追溯的事實,就沒有靠譜的決策;沒有中間變量與因果鏈條,全是自欺欺人的賭局。
AI是提升效率的工具,而我們永遠是決策的主人。
今天我們深嵌于一個政治、經濟、科技、哲學都在經歷持續變革和深刻重塑的復雜社會與商業系統之中。
真正的挑戰是:我們的認知框架、組織形態和行動工具,還停留在“前AI時代”。在前所未有的復雜系統性變革中,我們需要的是理解世界底層的“元能力”。
面向AI新時代,筆記俠PPE(哲學、政治學與經濟學)課程,正是為理解這樣的復雜系統而生:理解國際貿易與經濟政策、理解國際政治與治理模式、理解全球技術與科技范式、理解AI哲學和科技經濟、理解文明進程與哲學意義。這是第五代企業家應有的一套“操作系統”。
筆記俠PPE課程26級招生現已啟動。駕馭技術、洞察世界、扎根中國、修煉心力,在應對時代重重挑戰中尋找決策底牌。
穿越變革的舊世界,找到時代的新大陸,從升級你的PPE決策底層開始。
歡迎你掃描下方海報二維碼,添加課程主理人咨詢詳情。
![]()
好文閱讀推薦:
“子彈筆記”是筆記俠的矩陣公眾號,聚焦職場效率追求、人際關系與高潛成長者,幫你3分鐘吃透核心觀點和方法論。歡迎關注~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.