![]()
公眾號規則是部分推送,您只有設了星標??,才能及時接收最新推送
“過擬合”的人生
1/5
一個精心編織的“謊言”
如果你給一位量化基金經理看一條近乎完美的凈值曲線——回撤極小、收益極高、波動規律得像心跳。他大概率不會感到興奮,而是會冷冷地問一句:“你確定策略沒有過擬合嗎?”
量化研究和所有的研究一樣,都是試圖從海量的歷史價格數據中尋找規律,但這個規律不是為了解釋過去,而是希望預測未來。
所謂“過擬合”,通俗來說就是,你的模型表現得太好了,以至于它除了能解釋過去,對未來一無所知。
為什么在投資的世界里,解釋過去和預測未來會發生矛盾呢?
下面的三張圖展現了“過擬合”發生的原因:
![]()
左圖屬于“欠擬合”,它只發現了藍點大概在左邊,橙點大概在右邊,但界線太過簡單;
中間的圖屬于“完美模型”,它用簡單的曲線描繪了藍點和橙點的界線,只有少數點不符合模型,可以視為“噪聲”,這樣的模型就擁有了泛化能力,所謂“泛化”,就是個別經驗可以推到更多的應用場景。
右圖就是“過擬合”,它不但試圖描繪了藍點和橙點的界線,甚至把幾個明顯是“噪聲”的點也納入模型,因此顯得非常復雜。
可以想象,這個模型盡管在訓練數據上表現優秀,一旦進入實盤環境,面對從未見過的、隨機分布的未來數據,它們就會迅速失效。
“過擬合”產生的原因在于,你太想找一個完美的策略了,比如夏普比率大于2、最大回撤小于5%等。而金融市場是一個信噪比極低的環境,大部分的價格波動其實是無意義的隨機噪聲。如果你追求極致的績效指標,你的算法就會不由自主地去迎合這些噪聲,把噪聲當成信號來建模時,得到的策略其實只是恰好契合了某段特定歷史樣本的產物。
就像右圖一樣,“過擬合”的策略,往往不斷增加各種過濾條件,比如“只在周二買入”、“MACD金叉且當天北京有雨”,等等,而一個擁有20個參數的策略,遠比只有2個參數的策略更容易在歷史數據中“拼湊”出一條漂亮的凈值曲線,也更容易出現“過擬合”。
舉個例子,如果用電腦分析過去的彩票開獎結果,只要堆的參數足夠多,一定可以找到一個公式,完美解釋過去所有中獎號碼的排列規律,但下一次開獎后,它就崩了,你還要再加參數。
過擬合的本質,是用過于復雜的模型去解釋一個充滿隨機性的世界。
有趣的是,這種原本存在于高性能服務器里的“計算陷阱”,其實每天都在我們的大腦中上演。某種程度上,我們許多根深蒂固的人生觀,本質上都是一場關于人生的“過擬合”。
2/5
經驗主義就是過擬合
人類大腦有約860億個神經元,有足夠的“容量”去記住每一個創傷、每一次成功、每一個情緒強烈的瞬間,并將它們編碼成未來決策的權重。這是進化賦予的生存優勢,但也帶來了“過擬合”的風險。
只不過,量化策略的“過擬合”是精確的巧合,而人腦的“過擬合”往往是粗陋的偏見。
想象一個人連續兩次遇到“看起來很熱情但后來被坑了”的合作伙伴,可能會產生兩種認知模型:
正確的認知模型:我需要在合作前做更充分的背景調查,并分階段投入資源。
過擬合的認知模型:所有熱情的人都不值得信任。以后只要對方表現出熱情,我就自動疏遠。
后者就是在用兩段歷史數據擬合出了一個過于具體且失去泛化能力的決策規則。未來既可能幫他避開“熱情的騙子”,也可能讓他錯過那些真誠熱情的優秀合作伙伴。
一個人的一生,真正具有統計學意義的、足以改變命運軌跡的“獨立重大事件”,可能不過幾十次:
你選擇哪所大學、選擇哪份職業;
你選擇和誰結婚、在哪個城市定居;
你在某個關鍵年份的一次大宗投資,或者在某次危機中的一次轉身。
用區區幾十個樣本去擬合一個維度近乎無窮大、復雜程度遠超金融市場的現實世界,在數學邏輯上,過擬合幾乎是必然的。
就像上一章的那三張圖,大部分人不會滿足于中間的那個模型,而是試圖用右邊的“過擬合”的模型去解釋過去,指導未來。
還有數據反饋的問題,在量化策略中,我們經常用收益率來強化模型;而在人類認知中,痛苦和快樂就是最強烈的反饋信號。一次劇烈疼痛形成的“權重更新”,可能遠超一次溫和反饋的幾百倍,這就好比在回測中某一次極端行情被賦予了過高的權重。
當一個人通過“努力+運氣”在某件事上獲得了成功,他的大腦會迅速總結出一套極其復雜的邏輯。他會把當天的氣溫、自己的言談舉止、甚至當時信奉的一句格言,全部歸納為成功的核心要素。他堅信自己掌握了世界的密碼,卻不知道那可能只是命運在隨機噪聲中投下的一束光。
![]()
上述“過擬合”現象,我們通常稱之為“經驗主義”,用有限的歷史樣本,擬合出一個過于復雜的決策模型,從而犧牲了在未知情境中的泛化能力。
更麻煩的是,雖然人腦也有“過擬合”的問題,卻不像量化策略那樣有科學的糾正機制。
3/5
人生沒有測試集
為了防止“過擬合”,量化有一系列科學手段來檢測,比如將數據分為訓練集和測試集,用訓練集構建邏輯,用測試集檢驗邏輯,或者用歷史數據訓練、用新數據驗證。
但人生永遠在實戰,沒有訓練集也沒有測試集,人生無法兩次踏進同一條河,無法像量化軟件那樣克隆一個自己,去平行宇宙里測試你的經驗是否依然奏效。
更重要的是,人類還有心理防御機制,讓我們極難意識到,那些我們引以為傲的人生經驗,可能只是對過去某段特殊時期的“過擬合”而已。
比如確認偏誤,人類一旦形成某個信念,大腦會主動尋找支持它的證據,忽略反駁它的案例。這相當于在實盤中給一個已經“過擬合”的模型添加更多參數,讓它擬合新數據,但也越來越偏離真相。
比如歸因偏差,當決策成功時,歸因于自己的判斷力;當決策失敗時,歸因于運氣或外部因素。這種不對稱的反饋機制,讓人難以像量化交易員那樣冷靜地評估自己的策略。
但認知到這一點,人類也可以建立自己的糾錯機制。
4/5
經驗的隔離
量化交易員為了防范過擬合,要求在策略開發過程中,必須留出一段“盲測數據”,在策略邏輯完全定型、參數完全鎖定之前,絕對不準看它一眼。只有當一切塵埃落定,才用這段從未被“偷看過”的數據進行終極檢驗。
人類其實也可以借鑒這種思維方式。
當你形成一個堅定的認知(模型)時,不要急于將其作為真理。嘗試在內心建立一個“隔離區”,在做出重要人生決策之前,你可以打開這個“隔離區”,包括::
尋找那些與你過去經驗完全不同的新領域
尋找那些被你刻意忽略的“反面證據”
找一個自己過去沒有考慮過的視角
讀一本相反立場的書
請教一個背景完全不同的人
然后問問自己,我學到的這個經驗,到底是基于事件中可重復的邏輯,還是僅僅基于當時某個偶然的細節?如果換一批人、換一個時間,同樣的邏輯還能成立嗎?
對于任何讓自己印象深刻的教訓,都要刻意提醒自己:“這件事可能只是個例,不宜下太強的結論”。
還要建立概率思維,把自己的看法視為概率分布而非固定值,新信息來了,就要更新后驗概率,而不是推翻一切或固守一切。
5/5
大道至簡
莊子說:吾生也有涯,而知也無涯,以有涯隨無涯,殆已。
人,應該如何用有限的經驗(測試數據),去應對無限的可能性(未來世界)?
在量化投資中,有一個著名的概念叫“維數災難”,模型每增加一個參數,其解釋能力看似增強,但其穩定性和生命力卻呈指數級下降。大部分成功的量化策略,其邏輯不相關的核心因子一般不超過5個。
經驗豐富的交易員更傾向于使用基于基本經濟邏輯或市場微觀結構的簡潔策略。比如,“均值回歸”邏輯是基于人類恐慌與貪婪的心理本質,這種邏輯不僅在100年前有效,在100年后大概率依然有效。
越是簡單的邏輯,越能跨越不同的周期,因為它更能抓住事物的本質,而不是去描摹噪聲的形狀。
巴菲特的投資理念也是非常簡單的——好公司+復利,而且幾乎不變,簡單穩定到讓很多人覺得巴菲特也不過如此。
人生也是如此。
一個高度復雜的成功路徑,依賴于特定的人脈、特定的政策、特定的行業紅利,極易在環境突變時崩塌。而那些基于常識、基于底層邏輯(如誠實、復利、終身學習、風險控制)的“簡單策略”,雖然在短期內看起來沒有那些復雜模式收益驚人,但它們擁有更強的韌性,能夠帶你穿越人生的多個周期。
這就是古人總結的“大道至簡”的現代科學解釋,西方哲學中的“奧卡姆剃刀原則”,也是這個意思。
不要試圖去解析所有的失敗,也不要試圖去擬合每一次成功,要承認隨機性的存在,時刻對自己的經驗保持懷疑,并永遠保持人生策略的簡潔性。
——鋼大的財富新思維圈子——
近兩年全球股市上漲、商品通脹、黃金暴漲、航運暴漲,資本轉移……,既是機會,也是風險,需要時刻關注全球宏觀經濟的變化,建議訂閱我的“鋼大的財富新思維圈子”,這是一個以全球宏觀分析與資產配置方案為特色的圈子,每天更新全球各大類資產觀點,定期更新全球資產配置方案。
新圈子主要提供以下五大類內容:
1、全球宏觀每日解讀
2、更新資產配置方案
3、社群與精選問答
4、不定期內部直播
5、資訊、培訓和金融產品
文章比較長了,更具體的介紹,可以看次條文章:
歡迎關注本公眾號
我還有另一個專業分享投資方法的公眾號,也是周更
近一年必看文章
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.