![]()
![]()
陳茁
南京大學
社會學院
博士研究生
![]()
陳云松
南京大學
社會學院
教授
計算扎根:定量研究的理論生產方法
來源 | 《社會學研究》2023年第4期
作者 | 陳茁、陳云松
責任編輯 |劉保中
扎根理論的歸納邏輯和避免理論先入為主的原則與傳統定量研究的演繹邏輯和假說檢驗大相徑庭。在回顧傳統定量研究理論生產局限的基礎上,本文提出一種以定量方式直接助產理論的“計算扎根”方法:借助機器學習和歸因算法,按照因果是可預測性的充分不必要條件之原理,根據對因變量的預測力篩選出以往研究未曾關注的自變量,以提出新的理論假說。本文對計算扎根的基本思路、邏輯前提、方法基礎進行了系統闡述,并基于實際案例進行了演示。該方法彌補了定量研究理論生產的不足,在理論、學科、知識體系和社會治理等方面具有重要價值。
一、導言
依托于客觀數據和模型的社會學定量研究對長期根植于邏輯思辨和歷史情境的社會學傳統研究方法形成了極為重要的補充,伴隨著大型社會調查的開展和數據模型的普及,已成為社會學研究的重要范式。隨著社會學學科共同體對定量研究科學性、規范性和因果解釋力的追求,利用基于多來源數據的回歸模型結果從樣本中進行統計推斷和因果識別,以此對提出的理論假說進行證偽檢驗,逐步成為定量社會學者普遍遵守的方法論范式。
定量研究原本只是對數字數據進行分析研究的統稱(Scott & MarShall, 2009: 538),但伴隨著范式的固化,特別是定性和定量研究的二元分立,學術圈逐漸將量化研究自我限定在以演繹法為邏輯、以理論驗證為目的、以統計推論為手段的單一面向。這種假設檢驗的方法無疑打破了無涉社會現象的純粹哲學思辨,但它在和質性研究的長期角逐中,卻似乎逐漸失去了理論生產和發展的主動權:質性研究者在不斷地觀察、發現和提煉新的概念與理論,并以此形成理論發展的“先導”,而定量研究者則是對現有理論或基于文獻和作者社會學想象力提出的假說進行“后置”的統計檢驗。定量研究者重視卡爾·波普對于科學的定義,也因此往往容易迷失在對證偽檢驗重要性的自我欣賞之中,不覺中忽視了數據和模型對于直接啟發理論的價值、歸納邏輯對于定量研究的應用可能性。
有沒有一種新的邏輯路徑和模型,能讓定量學者不僅能進行“后置”的科學檢驗,也能利用數據資料直接助產理論假說?事實上,使用量化資料直接助產理論假說的研究有非常悠久的歷史,經典案例如涂爾干的自殺研究,統計上也有各種特征選擇方法。但伴隨著幾十年量化方法的建制化,大家反倒忘了定量數據曾經也可以用來發展理論。究其緣由,對著變量列表進行隨機的甚至遍歷式N×(N-1)兩兩關聯的頭腦風暴,可能會產生大量了無實據甚至荒誕的假說;用傳統的回歸模型來進行各種X-Y組合的循環檢驗,無法解決控制變量的數量限制、選取組合和多重共線性等諸多問題。因此,借助數據和模型直接助產理論的研究路徑在相當長時期內被定量學者所忽略。
但隨著大規模社會調查數據的日益豐富和機器學習等方法在社會學中的應用,我們已經發現了這種可能。在本文里,我們將提出一種基于大量數據和機器學習模型的量化理論生產方法:對于既定的Y和大量的解釋變量X,通過監督學習方法對一系列X對于Y的預測能力進行量化分析。利用因果關系和可預測性之間的邏輯關聯,我們可以對具有強大預測力的諸多X進行挖掘和篩選,從而直接助產理論假說,為Y尋找到潛在的具有理論價值的新X,進而幫助社會學家生成、發展和修正理論。這一方法雖然是典型的計算社會科學方法,但其邏輯起點和扎根理論的核心原則有異曲同工之妙:打破理論的先入為主,在不做任何理論假說前提的條件下扎根于數據本身,從而打破“演繹-驗證”的邏輯,打通經驗研究到理論研究的生成路徑。因此,我們將其命名為“計算扎根”(computing grounded theory)。
本文將首先對傳統定量研究的假設檢驗路徑進行簡要剖析,然后詳細介紹計算扎根方法的具體邏輯和思路。在此基礎上,本文進一步從理論和方法層面分別論述計算扎根何以可能,并以 “主觀幸福感”為例進行案例演示,以檢驗計算扎根的信效度。最后,本文對計算扎根的方法意義和可能帶來的潛在問題進行反思。
二、證偽的限度:傳統定量研究的理論生產瓶頸
(一)假設檢驗與科學環
近四十年來,定量社會學研究的基本模式是基于調查問卷數據,采用多元模型回歸的方法,對解釋變量是否和被解釋變量存在關聯或因果進行統計推斷。彭玉生曾形象地把定量研究比作“洋八股文”。他指出,國內外主流社會科學刊物,都采用了比較標準化的“模板式”格式,按照問題、文獻、假設、測量、數據、方法、分析、結論八個部分各司其職,環環相扣(彭玉生,2010)。國外學者(Wells & Picou, 1981)通過對《美國社會學評論》的內容分析,也對假設檢驗模式作出類似的總結。有趣的是,定量研究的八股范式并非社會學獨有,而是業已滲透進經濟學、政治學、心理學等各個學科(林毅夫,1995)。盡管相關的環節可以合并或細化,但其基本思路就是對所提出的零假說進行證偽。
但檢驗理論并非科學研究的全部工作。華萊士在《社會學中的科學邏輯》中提出“科學環”概念,指出社會學研究是包括理論建構和理論檢驗的循環往復、螺旋上升、永無止境的過程(Wallace, 1971: 18)。很明顯,假設檢驗的定量范式都集中在科學環的右半部分。從理論建構到理論檢驗本是一項科學研究的完整路徑,但伴隨著定量和定性的分野,理論建構似乎成了定性研究的專屬使命,而定量研究日益將理論驗證奉為圭臬。實際上,正如默頓所說,經驗研究遠遠超出檢驗理論的被動功能,它不僅僅是證實或反駁假設,在塑造理論的發展上至少執行著四個功能:創立、修訂、轉變和澄清理論(默頓,2006:224)。
![]()
(二)假設檢驗旨趣的歷史淵源
假設檢驗范式起源于實證主義方法論傳統,經過哥倫比亞學派對定量研究的規范建制化運動之后得到強化。拉扎斯菲爾德和斯托弗都主張用經驗材料驗證理論的目的取向和科學化運動(Lazarsfeld et al.,1967;Stouffer, 1962)。斯托弗專門撰寫了《檢驗思想的社會研究》一書,進一步使得用數據驗證理論的方法在整個定量界得到充分普及。這一方法論傳統針對傳統理論話語包含大量形而上學的思辨和未經檢驗的論斷等特點,將其視為不能提高有關社會事實的可靠判斷的“空洞的陳述”,也因此不屬于精確的科學知識。在學術熏陶和方法訓練之中,定量社會學研究者逐漸形成一種“實證型人格”,他們要求自己不斷地修正腦海中對于社會的構想,致力于提升社會科學對于實質性問題的回答效力(Pawson, 2000)。
假設檢驗的定量范式是社會學彌合理論與經驗的鴻溝、確保結論科學性而形成的集體學科共識。但如果我們不加反思地將“理論先行-數據驗證”的分析路徑視為當然,那這種曾經作為知識解放力量的方法論就很容易轉化為束縛,制約理論的生產創造力。事實上,使用量化資料探索理論并不始自今日,早在四十年前,一套從資料中自動篩選進行變量選擇的分析的方法模式就已經具備。從統計學的角度看,有向前選擇、向后選擇、逐步回歸等方法為模型挑選出最合適的變量,而后還出現了基于特征降維的偏最小平方、基于信息準則的AIC和BIC標準比較方法,基于正則化的嶺回歸、套索回歸方法等。盡管這些方法或多或少遭受過批判,被指出變量篩選標準不科學、相關關系不等同于因果等問題(Rubin, 1974),但不得不承認,量化學者在實際的研究過程中都曾經得到過數據本身帶來的啟發,只不過很多研究者在從數據中得到新發現后并不會按照真實的研究過程來表述自己的研究,而是通過文獻梳理的方式把自己的發現“裝扮”成已有的理論假設,好像這些假設在分析數據之前就已經想出了,然后再按照假設檢驗的邏輯來證明它(Glaser,2008:15;吳肅然、李名薈,2020)。
(三)假設檢驗旨趣的后果
量化研究的“假設檢驗”會從兩個方面對定量研究的知識生產形成束縛。
1.導致定量探索性研究的缺位
長期以來學界逐漸形成一種實踐者和旁觀者的共同印象:經驗研究是被用來校驗理論的,理論則要通過研究者的奇思妙想來獲得(Merton & Barber, 2011)。這盡管促成了不同研究范式的共同繁榮,但也導致了定量研究在科學發現之旅中的后置化甚至缺席:量化研究使得現有理論更為精致化了,但卻很少產生新的理論建構(卡麥茲, 2009)。
2.導致定量研究過度依賴常識而失去洞察力
定量研究所驗證的假設基本來自現有理論的推導或社會學家的常識和靈感。常識的矛盾之處在于它既能幫助我們理解世界,也會削弱我們的理解能力(Watts, 2011)。饒有趣味的是,一方面,社會學家需要帶著與常識決裂的學科使命來懷疑并驗證常識的科學性,但另一方面,在建立假設時又不得不在現有常識的窠臼中選取可能的解釋變量,進而常常遭受“用復雜方法驗證常識”的質疑(劉潤澤、鞏宜萱,2020)。
三、數據、變量與分析策略
計算扎根的思路是打通從數據到理論的“逆向”路徑,借助機器學習的預測能力和可解釋的歸因算法,基于因果是可預測性的充分不必要條件這一規律,實現用數據來直接生成關于既定因變量的機制理論。本章將分別對計算扎根的基本思路、邏輯前提和方法基礎等進行詳細討論。
(一)計算扎根的基本思路
如圖2所示,計算扎根的基本步驟可以由以下六個環節組成。
第一步,制定研究問題。根據社會調查問卷數據指標,結合研究興趣和需要來確定研究對象Y。理論上我們也可以不事先確定Y,這樣每個非先賦性的變量都可以成為我們預測的對象Y,進而用遍歷探索的方式來進行。
第二步,準備高維數據。社會調查數據往往是高維的,變量有上百個甚至更多。這些大量的指標,每一個都可能是潛在的Y的因,也即蘊含了扎根結果的可能性。不同層次的數據可以匹配起來,甚至可以納入看不出任何與Y有關聯的特征。
第三步,開展社會預測。基于高維數據,使用監督學習的方法訓練Y的預測模型。算法可以是多樣的,如支持向量機、隨機森林、梯度提升樹、神經網絡,等等。只要能達到相對較好的預測效果,不必拘泥于算法是否復雜以及是否可解釋。
第四步,比較預測能力。依賴機器學習模型的可解釋性算法,對預測生成的黑盒模型進行歸因分析,根據X對Y的預測力排序尋找可能的因。其基本思路是:打亂某些特征X是否影響模型預測的準確率,改變特征將如何影響預測結果。
第五步,尋找潛在理論。根據一組按照預測力排序的X,尋找以往研究未曾涉及的社會關聯。可以依據潛在關系模式將它們與既有研究比照,驗證或澄清理論;亦可以對相似的解釋項進行歸類,抽象出概念或歸納理論命題。
第六步,補充交叉驗證。驗證計算扎根結果的穩健性和理論假說的適用性。嘗試使用不同數據、其他機器學習和歸因算法對同一個因變量進行計算扎根,也可以對生成理論推導出的其他假說進行再檢驗,相互驗證完成科學環閉環。
![]()
總體而言,該方法和假設檢驗式的定量研究大相徑庭:它不預設理論假說,而是純粹依賴算法和數據來訓練預測模型,通過精確估算X對Y的預測力并比較排序,來為可能的因果關系提供一組備選的理論假說,保證了對數據的無差別開放態度和對實際問題的精確目標導向。根據霍夫曼等提出的社科研究方法四象限框架,計算扎根方法屬于綜合了預測和解釋的綜合建模研究(Hofman et al., 2021)。從周濤等人劃分的五大社科方法類型來看(周濤等,2022),計算扎根的基本路徑屬于“基于(大)數據的探索性研究”;如果在生成探索性理論假說后進一步使用其他數據驗證,則又屬于“先探索后驗證的整合研究”。
事實上,機器學習輔助科學研究目前正在成為一股前沿的研究趨勢,《自然》雜志曾以“AI-guided Intuition”為封面標題來預言人工智能將引導科學直覺,在數學(Davies et al., 2021)和管理學(Shrestha et al., 2021)領域也都出現了使用類似的方法指導直覺和提出猜想的具體路徑。同時,已有相關實證研究踐行了機器學習和可解釋性AI相結合的方法路徑,如尋找導致焦慮的潛在因子(Nemesure et al., 2021)、挖掘提高乳腺癌生存率的潛在變量等(Moncada-Torres et al., 2021)。國內學者如羅家德等用相關方法對中國人脈圈層理論模型進行多輪修正和澄清(羅家德等,2021),周濤等也針對團隊創新能力給出了類似的分析路徑(周濤等,2022)。在這些相關實證探索的基礎上,我們立足其運用于社會學研究的可能性,聚焦其通用的方法論價值和與傳統研究模式的巨大差異,把算法模型的可解釋性和理論生產在方法論層面進行了實質性關聯,對這一思路進行系統化、標準化的提煉,正式提出完整的方法與實操路徑。
(二)計算扎根的邏輯前提
作為理論生產方法的計算扎根理論,有著清晰的邏輯基礎。對于計算扎根理論而言,其邏輯前提主要是兩個方面。
一是扎根理論的歸納邏輯。扎根理論產生于實證研究對定量假設檢驗這一范式的反思。其創立者之一格拉澤指出,社會學過于強調理論驗證,縮小理論與經驗研究的努力主要集中在改進檢驗理論的方法,而試圖從理論層面縮小這一差距的努力幾乎沒有什么成果;研究者應該從數據中發現理論, 以打通經驗研究到理論研究的生成路徑(Glaser, 2008:7)。他主張以逐級歸納的方法從經驗材料中直接創造出理論,再將其與現有理論和研究相比照。避免在研究開始前先入為主的觀念或猜想是確保“扎根”有效的重要原則。
值得一提的是,創立者格拉澤強調扎根理論是一種普適的方法論,既適用于質性資料,也適用于定量數據;而定量數據和定性資料在目的與能力上沒有根本沖突,對理論的產生和驗證都是有幫助的(Glaser, 2008:17)。但隨著扎根理論的實際發展,人們發現它似乎還是更適合做質性研究。扎根理論的另一提出者斯特勞斯甚至把它當作質性研究的“專屬工具”(Strauss & Corbin, 1994)。其原因不難理解:質性資料的深度和可解讀性往往更有利于運用社會學想象力直接提出理論假說,而定量數據作為一種數值指標具有高度簡化的抽象特征,其內在的數理統計關聯難以通過直觀的方式加以發現。
實際上,為打破學界對扎根理論只適用于質性數據的刻板印象,格拉澤專門撰寫了《做定量扎根理論》手冊以詳細闡述量化扎根的步驟。其基本思路是:在所有可能的兩個變量間計算反映關系正負變化的粗指標;如果變量始終與一系列變量相關,將這些變量放在一起就會涌現理論的潛在模式;下一步是精化分析,即進行三個及以上的變量分析,通過發展類別的屬性進一步飽和類別,實現更密集的理論(Glaser, 2008: 54)。但問題在于,大量變量難以通過人腦直接進行關聯;使用統計方法時,對于哪些變量應納入模型,實際上缺乏清晰的選取規則。特別是當自變量多到一定程度時,會出現自由度不夠或共線性等諸多問題。總之,定量扎根理論邏輯可行,但當時尚無合適的方法來開展令人信服的應用。
二是因果關系的可預測邏輯。社會現象之間的可預測性和因果機制是兩個不同但又高度關聯的范疇。根據韋伯的定義,社會學是提供關于行為過程和結果的因果性解釋的科學(Weber, 1968: 4),可將社會學理論理解為指標之間的因果關系。按照這個邏輯進一步推演,社會學指標中的因變量對于自變量來說就一定具有可預測性。這是因為可預測性是因果關系成立的必要非充分條件,同時也是驗證機制性原理的最基本手段(Watts, 2014)。
不過,由于受到數理統計工具的限制,社會學家們對于預測往往不太關心。在討論到社會學中的因果、關聯和預測等概念時,社會學家們多施以遁詞:或強調預測不等于因果,但對因果必然可以預測的邏輯則束之高閣、不加利用;或者強調復雜的、納入太多自變量的回歸模型不夠簡約;或批評能進行數據預測的算法模型因其黑箱過程而無法解釋,等等。針對這一類論點,鄧肯·沃茲曾一一概括并加以嚴厲的批評(Watts, 2014)。
計算扎根方法的邏輯基礎之一就是充分地運用預測和因果之間的重要關系,也即因果是預測的充分而非必要條件。這意味著,如果一個X可以很好地預測Y,那么X的確可能構成Y的原因。雖然這一關系只是可能而非必然,但其構成因果的概率總比不具備預測性的關聯要高得多。在社會學家逐漸把學科旨趣壓縮到兩兩變量的分析而放棄社會預測的大背景下(Hofman et al., 2017),以機器學習的預測力來推動理論的生產對于定量研究具有重要意義。
(三)計算扎根的方法實現
計算扎根允許幾十、上百甚至上千個變量的互動,其通過對算法模型的相關特征值的預測力進行比較,比通過個人思維靈感來發現理論的過程要穩定和可靠得多。其具體的實現過程包括社會預測和預測力比較兩個方面。
1.社會預測:運用監督學習的算法模型擬合
傳統定量研究回歸模型不擅長預測,而只擅長關聯和因果推斷。那么什么樣的模型適用于復雜社會過程中的預測?著名統計學家布雷曼(Leo Breiman)曾將統計建模方法分為兩種取向:一是數據模型,二是算法模型。數據模型事先假定數據服從某個函數分布f(x)(如線性回歸模型),然后對事先假定的f(x)的參數進行擬合估計;而算法模型不假定數據的任何分布特征,旨在找到一個函數g(x),通過g(x)可以對y進行預測(Breiman, 2001a)。實際上,這種分類恰恰切中了社會學的傳統計量模型和機器學習之間的最本質差異。布雷曼進一步指出,當前社會和行為科學中廣泛采用數據模型的思維方式,強調對模型參數的無偏估計而不是預測準確性。也就是說,社會科學中公認的實踐模式,不是詢問特定的數據和模型是否可以預測某些感興趣的結果,而是詢問理想化模型中的特定系數是否具有統計顯著性以及影響的方向。
但數據模型存在兩個明顯的問題:第一,為擬合特定參數模型,數據必須滿足一定的假定。以線性回歸為例,數據需要滿足自變量和因變量關系是線性的、各自變量非多重共線性、殘差服從正態分布、擾動項滿足同方差、無自相關等多重假設。而現實社會復雜多樣,要求數據滿足嚴格假設未免過于苛刻,因此學術界采取了一種鴕鳥政策,逐漸將重要性轉移至對顯著性的強調,而對數據是否滿足模型假定持開放或懸置態度(Freedman, 1991)。第二,結論是關于模型的機制而非關于事實的機制。將簡單的參數模型強加于復雜系統生成的數據之上,會導致準確性和關鍵信息的損失。模型錯誤指定或研究者在數據分析中引入大量自由裁量權會導致潛在偏差(Simmons et al., 2011)。如果模型不能很好地模擬自然情況,則結論可能是錯誤的(Breiman, 2001a)。
以機器學習為代表的算法模型則為以上問題提供了一個非常好的替代方案。算法模型隱含的認識論假設是:事實數據的內在機制是未知和復雜的,關鍵是盡可能找到一個算法可以很好地通過x預測y,即用算法擬合數據。算法模型往往采用非線性、非參數方法,通過一個或多個超參數來調整模型的復雜性。機器學習對數據復雜性的尊重使得被分析的數據可以服從任意分布,而不需要滿足任何假設條件。我們認為,這種解放將至少從兩個方面提高生產理論的能力。
第一,滿足真實社會過程中的非線性數據關系。數據模型的線性假定往往難以符合社會真實情況。盡管模型的簡約性可以作為理由,但簡化只是手段而不是目的。大部分機器學習擬合過程不需要滿足既有的函數設定,而是以追求預測準確性為最高宗旨(Breiman, 2001a)。
第二,滿足真實社會過程中的高維復雜數據關系。傳統計量模型只能納入有限的解釋變量。監督學習算法可以在單個學習模型中同時考慮數千個不同的因素和各種復雜的交互作用模式(Linthicum et al., 2019)。一個社會現象的影響因素紛繁復雜,納入更多潛在的“因”,發現新的解釋維度的可能性也就更大。
2.預測力比較:解決黑箱模型可解釋性的歸因算法
盡管機器學習打破了以往統計模型的種種預設限制,帶來了數據生產力的解放,更好地模擬了事物的真實狀態,但它最廣為詬病的問題則在于其“黑箱過程”導致無法解釋。不過,較新的機器學習文獻中越來越多的證據表明,預測準確性和可解釋性之間的矛盾并沒有想象的那么嚴重。隨著對復雜模型可解釋性的迫切需求,越來越多“拆解黑箱”的方法得以發明且獲得了成熟應用(Ribeiro et al., 2016)。哈佛大學教授的高被引論文指出,對機器學習的黑箱模型進行解釋性分析是一種基于數據驅動發現可解釋因素的有效方法(Doshi-Velez & Kim, 2017)。
我們以沙普利值解釋方法SHAP(SHapley Additive exPlanations)為例詳細介紹解釋黑箱模型的具體路徑。該方法根據聯盟博弈理論來計算每個X的沙普利值,以此作為衡量其重要性的指標。考慮到不同參與者的數量和順序都會影響最終的整體收益,該方法通過窮盡各種參與者的排列組合情況,對每種組合都計算包括該參與者和不包括該參與者的狀態下整體收益的差值,記為該單個參與者的邊際貢獻;再對各種排列組合求該參與者邊際貢獻的均值,記為該參與者的沙普利值(Shapley, 1953)。所有參與者的沙普利值相加則為整體收益。
具體來說,每個參與者i的沙普利值的具體計算公式如下:
![]()
其中,N是所有參與者組成的集合,|N|是這個集合中包含參與者的數量;S是一種參與者的組合方式,是N的一個子集;表示集合N刪除特征i后的全部子集;![]()
為包括參與者i的整體收益相對于不包括參與者i的平均邊際貢獻;該平均邊際貢獻在總的排列中出現次。為提高計算效率,數據科學家們開發了SHAP算法,通過條件期望函數來近似估計沙普利值,具體技術細節在此不再詳述。沙普利值充分考慮了變量之間的交互作用,具有堅實的博弈理論基礎,是同時滿足有效性、對稱性、虛擬性、可加性的公平分配方法(Lundberg & Lee, 2017)。
當然,除了沙普利值,對黑箱模型進行可解釋性分析的方法還有很多,如置換特征重要性,即通過比較置換某列特征前后模型預測誤差的變化來衡量該特征的重要程度(Breiman, 2001b);再如部分依賴圖,即通過對一個特征反復修改,建構出本不存在的事實狀態并再次預測,比較修改前和修改后因變量預測結果的差異(Zhao & Trevor, 2021);抑或使用可解釋的代理模型來模擬原始的黑箱模型(Ribeiro et al., 2016)。這些方法的創立和成熟為重新平衡預測的準確性與可理解性提供了可能,為計算扎根奠定了堅實的方法基礎。
四、計算扎根的實操和標準:理論生產示例
(一)研究問題與數據
我們以“主觀幸福感”為例展示計算扎根如何助力于幸福感理論的啟發和澄清。本案例使用的數據為中國綜合社會調查(CGSS)2017年數據,共包含樣本12582個、變量783個,為幸福感的計算扎根分析提供了相對全面可靠的數據依據。本研究的被預測變量為“總的來說,您覺得生活是否幸福——非常不幸福、比較不幸福、說不上幸福不幸福、比較幸福、非常幸福”,預測變量為問卷中除被預測變量以外的其他所有變量。
(二)研究方法與步驟
第一步,數據預處理。首先,二分類的Y有助于提高算法預測的準確度,我們將“非常不幸福、比較不幸福、說不上幸福不幸福”記為0,即非幸福樣本;將“比較幸福和非常幸福”的填答者記為1,即幸福樣本。其次,我們將類別變量轉化為虛擬變量。再次,我們刪去缺失值大于30%的變量。最后,由于1類樣本的明顯數量高于0類樣本的數量,數據不平衡可能帶來算法偏差,我們采用Bootstrap采樣對少數樣本進行過采樣補全,保證兩類別的重新平衡。
第二步,模型訓練。使用梯度提升算法XGboost訓練預測模型,參數為1000個子決策樹和其他默認參數。經70%的訓練集迭代收斂后,余下30%的測試集顯示,模型準確率為0.92,召回率為 0.86,F1分數為0.92,模型整體表現良好。
第三步,模型歸因。主要采用沙普利值的SHAP模型全局可解釋性方法進行可解釋性分析,揭示影響預測的最重要因素和影響的方式。具體來說,針對每一個個案的每一個自變量X,我們都為其計算了一個沙普利值(SHAP value)。該指標的意義是:對于該個案,加入這個X會比沒有加入時對預測結果帶來多少平均邊際貢獻。該值為正,則意味著該X的加入會導致幸福感的增加,該值為負,意味著該X的加入會導致幸福感的減少。
(三)研究主要發現
圖3a展示了歸因算法提取的對預測幸福貢獻最大的前20個變量,衡量指標為所有個案在各個X上的沙普利值絕對值的平均值,也即變量X的平均邊際貢獻。圖3b通過散點圖的形式展示了不同預測變量影響的具體細節。圖中的每一個點代表一個真實的樣本;對于每一行來說,顏色代表該行變量特征值X的大小,X越大,點的顏色越黑;橫軸為SHAP值大小;相同SHAP值的點越多,“蜂窩”的截面積就越大,看起來就會越粗。總的來說,該圖能反映出變量間作用的方式和大小,也能反映個案的分布狀況。以公平感為例,散點圖顯示,公平感越高的個案(黑色點)往往集中在橫軸的右側,即SHAP值為正,幸福感增加;公平感較低的個案(灰色點)往往集中在橫軸左側,即SHAP值為負,幸福感減少。這意味著公平感對幸福的影響方式為典型的正向影響。
圖3的分析結果顯示,問卷的所有變量中,對幸福感預測最大的特征是公平感,SHAP值約為1.4;其次是健康程度。為便于歸納,我們按照變量含義的相似性將幸福感最主要的影響維度歸納為五個方面:(1)主觀認知:公平感、信任感;(2)主客觀地位:自我階層定位、10年后自我階層預期、當地家庭階層定位、自評社會經濟地位、住房面積;(3)人口學和健康因素:健康程度、出生年、健康影響;(4)婚姻家庭:配偶同住、配偶工作小時、配偶年收入、夫妻應分擔家務;(5)生活方式:休息放松、看電視、聽音樂、每周工作時間。理論上,我們可以針對所有范疇進行層層歸納,抽象出更高層次的概念和關于幸福感的總體理論模型;也可以針對以往研究未曾關注的某一變量或某一具體維度作更深層次的挖掘和比較,探尋共同因素和共變規律,歸納出微觀層面的理論假說。考慮到以上變量和維度涉及多學科領域,在以往的理論和實證研究中都或多或少的被關注討論(劉軍強等,2012;丘海雄、李敢,2012;Diener et al., 2018),本著預測力優先的原則,我們僅選擇一個以往研究未曾關注過的,且預測力排在前十的變量“配偶每周工作小時”進行展示。
![]()
1.幸福感的新發現:尋找預測力強的新變量
從扎根結果生成理論假說的詳細過程可以由以下幾個步驟組成:(1)生成潛在假說的經驗命題;(2)虛假相關的排除和因果關系的確立;(3)相關范疇的歸納與概念提煉;(4)與既有理論的對話和邏輯推導;(5)總結理論命題并使用其他數據方法進行再驗證。具體來說,第一步是直接通過變量的預測力排序,發現關于變量間相關關系的事實命題。但命題還沒有在現象和本質之間建立起一種基于因果的理性認識,我們可以進一步借助步驟2~5來相互補充,以填補命題到理論的鴻溝并增加理論的科學性。
我們首先提出經驗命題。根據圖3(a),“配偶每周工作小時”這一變量排在預測的第9位,但既往研究卻沒有充分關注。我們將兩者的關系表述為一個新的經驗命題:配偶工作時間會影響另一半的主觀幸福感。
第二步,我們使用雙向機器學習(Chernozhukov et al., 2018),盡可能排除可能存在的其他混淆變量,從而凈化出兩者的真實關系。以問卷中涉及的全部其他變量為混淆變量,Lasso,Random Forest,Decision Tree和XGboost四種算法都顯示兩者之間存在顯著的因果關系,限于篇幅,具體結果不再呈現。
第三步,為排除數據偶然性導致的預測力,應尋求和X內涵高度接近的其他變量,觀察是否具有解釋上的穩定性和邏輯性,進而創造出某個概念或某組概念來對數據間的關系模式歸納出一種統合理解。本例中,“配偶每周工作小時”指涉配偶在工作和家庭中的時間分配問題,我們篩選了SHAP值排在前列的,且都涉及夫妻雙方在工作和家庭中的時間分配的其他類似變量:“每周工作小時(排名19)”和“家人當面交流時間(排名21)”。
我們通過進一步比較以上三個變量來啟發理論直覺。圖4通過全樣本沙普利值的“宏觀特征影響圖”,展示了沙普利值在三個變量上的變化曲線。圖中,灰色的點代表每一個樣本,橫軸代表這個樣本的相關特征X的真實值,縱軸代表的這個樣本對應的X的平均邊際貢獻也即沙普利值,黑色的線為該X在各個取值上的沙普利值均值的連線,連線的變化可以反映兩變量間關系的變化。
![]()
可以看出,不管是配偶還是自身的每周工作時間,0~40小時內的幸福感都隨著工作時間的增加而增加。但超過40小時后,夫妻雙方的工作小時形成了一種截然相反的張力:配偶更長的工作時間能明顯提高幸福感,但自身工作時間的增多則明顯降低幸福感。這意味著,配偶更多地承擔社會角色并減少待在家中的時間將有利于另一半幸福感的提高,我們將這種現象抽象化為“家庭距離”概念。同時,過遠的家庭距離,也即配偶每周工作時間超過60小時將會導致幸福感的提升效應減弱。與之類似,“家人當面交流時間”也呈現峰狀分布,即最好的家人當面交流時間在每周20小時左右,低于或高于20小時對幸福感的提升效果都相對減弱。通過以上變量的比較我們發現,提高幸福感需要配偶間保持一定的家庭距離,但這個距離不宜過低也不宜過高。這樣,我們通過變量的比較和概念抽象構造出家庭距離影響幸福感的核心理論假說。
第四步,我們需要與既有理論展開對話,邏輯推導出變量間因果關系的詳細機制,包括影響路徑(中介效應)和不同群體影響的異質性(調節效應),形成更豐富的一系列邏輯遞進的假說命題。我們還對男性和女性群體分別進行計算扎根,為豐富理論提供更多證據,限于篇幅,在文中不再具體展示。研究者可以根據性別、城鄉、職業等不同群體做更精細化的分析,以進一步啟發和豐富理論假說。心理學的研究認為,時間的分配、個體的獨立自主性和與他人的聯系是影響個體幸福感的重要因素(Becker, 1965; Reis et al., 2000)。而家庭距離假說則主張夫妻雙方在時間分配上保持獨立和與他人聯系的平衡狀態。低家庭距離意味著家庭成員共處的時間增多,直接擠壓另一半的獨立自主性并增加夫妻雙方產生矛盾的風險窗口。高家庭距離則導致與家人的疏離。同時,我們考慮還有其他壓力伴隨著家庭距離產生。
既有研究顯示,出于對工作的重視和對個人責任的強調,社會上對無業者存在嚴重的污名化現象。失業的人常被視為懶惰、無用或不可靠的人(Brand, 2015)。工作除了賺取收入的明顯后果外,還具有相當重要的“非金錢成本”,包括為一天提供時間結構、定義個人的地位和身份等(Jahoda, 1981)。這意味著工作時間較短的人或多或少也正在遭受家庭內部的污名化以及非金錢成本的損失。一方面,有著低工作時間的配偶可能會被定義為懶惰和失敗,與其共同生活的另一半會產生強烈的被剝奪感;而工作時間較長的配偶則會被定義為勤勞、可靠或成功,與其共同生活的另一半進而會產生相對滿足感。
但另一方面,過遠的家庭距離也不利于提高幸福感。配偶過度工作則意味著與另一半聯系的減少,而由于夫妻溝通是平衡沖突和婚姻滿意度的重要中介變量(Carroll et al., 2013),家庭距離過遠往往會導致情感疏離和矛盾的積累。同時,家庭距離過遠會使得另一半不得不承擔過多的家庭責任,導致家庭義務分配的轉嫁與失衡(Bianchi et al., 2000)。
限于篇幅,本部分僅作為數據扎根步驟的案例演示之用,不再對產生的理論假說使用其他數據進行驗證。基于以上的計算扎根分析結果和推導步驟,歸納出“家庭距離理論”,也即夫妻家庭距離過遠或過近都不利于提高幸福感。我們進一步將其表達為邏輯遞進的假說系列。
(1)配偶的家庭距離會影響個體的幸福感,但這種關系是非線性的。
(2)配偶過近的家庭距離會壓縮自身自主時間,并增加共處矛盾;適當的家庭距離會增加自身自主時間,并減少共處矛盾。但過遠的家庭距離會減少家庭成員的交流機會,帶來情感疏離和矛盾累積。
(3)配偶的家庭距離會通過影響夫妻認同而影響幸福感。配偶過近的家庭距離會導致對配偶認同感的下降,與其共同生活會產生被剝奪感;適當或稍遠的家庭距離會導致對配偶認同感的上升,與其共同生活會產生相對滿足感。
(4)家庭距離影響家庭權利義務的分配,過遠的家庭距離會使另一半被迫承擔更多的家庭責任,由于家庭義務分配失衡造成雙方矛盾積累,進而降低幸福感。
2.理論的精細化發展:探究復雜關系的多元模式
前文發現“配偶每周工作小時”的沙普利值曲線呈現非線性模式,那么,這種X和Y之間的復雜關系還有哪些常見模式?我們另外選取了一些變量并繪制沙普利值宏觀特征圖(圖5)。不難發現,我們能夠從中找到大量傳統回歸分析模型所無法或者無力發現的細節,而這些細節對于進一步拓展、補充、驗證和澄清理論非常重要。圍繞SHAP值隨X取值的變化,我們可以獲得如下五種復雜關系的基本模式。
第一,“梯”狀分布。X對Y的影響在某個轉折點后迅速變化,之后趨于平緩,如上一個階梯一般。典型變量如“自我階層定位”“10年后自我階層預期”和“10年前自我階層定位”(圖5a-5c)。其中,“自我階層定位”的關鍵性轉折點是4(圖5a),也即如果自我定位在4以上,則其對幸福感的影響是正向的,且階層間相差不大(SHAP值在0.6~0.8)。而一旦定位低于4后,則迅速變成負向影響(-0.2左右),更低的階層間(1~3)影響變化也不大(保持在-0.5左右)。更有趣的是,這個轉折點和人們對未來預期的階層轉折點(圖5b)不同:后者的轉折點為5。這個微妙的差異意味著:人們在當下生活中,只要認為處在社會中層(=5),就會覺得還不錯,但人們對未來給予了更高的期望,未來處于第5階層對幸福的平均邊際貢獻只有0。
![]()
第二,“廠”字型分布。X對Y的影響前期陡峭上升,后期趨于平緩,以 “個人年收入”和 “配偶年收入”為典型表現(圖5d-5e)。這和幸福飽和理論所預期的一致:收入對幸福的正向影響服從平均邊際貢獻遞減。這對社會治理政策具有重要的啟發意義:扶貧應該把有限的資金投入到最為困難的群體中去。
第三,“谷”狀分布。X對Y的影響兩端群體較高,而中間群體則比較低,形成谷狀,以“出生年”為典型表現(圖5f)。出生在1955年前的老人和1995年后的年輕人的幸福感明顯高于中間人群。另外,處于中間的人其年齡與幸福感沒有太大關系,沙普利值幾乎呈水平分布。這些結果與近年來研究年齡與幸福感的突破性文獻結果頗為符合(Blanchflower & Oswald, 2008)。
第四,“峰”狀分布。X對Y的影響中部群體較高,而兩側逐步降低形成峰狀。如上文所述的“配偶每周工作小時”(圖4a)和“家人當面交流時間”(圖4c),這里不再贅述。
第五,“同質—異質”效應。同質效應表現為對同一類人群幸福感的影響一致,組內SHAP方差小;異質效應表現為對同一類人群幸福感的影響差異大,組內SHAP方差大。以“每周工作小時”為例(圖4b),工作時間為0~40小時的SHAP值均在-0.5~0.5,分布較均勻,工作時間對幸福感的影響較為同質;70~80小時的SHAP值則分布在-1.5~0.1,對幸福感的影響有較大的異質效應。這提示,工作時間較短的人基本上更幸福,但工作時間較長的人可能更幸福,也可能更不幸,可能存在其他重要交互變量一起影響幸福感。
3.穩健性檢驗:羅生門效應的解決
數據和算法在計算扎根中被推到一個相當重要的位置。已有相當一部分學者注意到算法的羅生門效應,即因參數設定不同而帶來的內部異質性和因算法不同而帶來的外部異質性(Breiman, 2001a; 胡安寧等,2021)。計算扎根是否存在羅生門效應?在多大程度上存在?本部分從以下三個方面進行測試。
第一,數據的異質性。穩健的扎根結果不會隨著數據量大小和構成變化而產生較大變化。我們通過Bootstrap自助抽樣,分別在經過平衡后的原樣本中隨機抽取原始數據的50%,60%,70%,80%,90%,100%進行計算扎根。
第二,預測算法的異質性。穩健的扎根結果應該在不同預測算法下相似。我們比較了XGboost、Catboost、LightGBM、Gradient Boosting和Random Forest五種算法的計算扎根結果。
第三,算法參數的異質性。同一算法不同的內部參數也可能帶來不同的分析結果。我們替換了XGboost算法的內部參數,包括最大樹深度(max_depth)、正則化系數(alpha)、學習率(learning rate)、子樣本比例(subsample),等等。
在每一種條件下,我們都得到了一個包括所有特征及其SHAP絕對值均值的表格。我們對不同條件模型計算的SHAP結果計算皮爾遜相關系數,具體結果如圖6所示。總的來說,這些模型的訓練結果高度相似,兩兩模型計算的相關系數基本都在0.95以上,相關系數的顯著性都為0.000。數據的異質性和算法參數的內部異質性基本不存在;預測算法存在一定程度的異質性,但最低也達到0.88以上。我們亦根據排序計算了斯皮爾曼等級相關系數,分析結果與皮爾遜系數高度相似,故在此不再報告。綜上所述,就幸福感這一案例來說,計算扎根方法具有相當大程度的穩健性。
![]()
(四)計算扎根的推薦技術標準
運用于社會科學領域的機器學習訓練方法一直以來并沒有較為統一的標準。為此,我們從Web of Science核心合集中,以“機器學習”為關鍵詞篩選出60篇社科領域高被引論文,歸納出訓練模型常用的變量數量、樣本數量、模型選擇、模型評估指標等信息,為算法模型訓練給出經驗參照標準。
(1)樣本數量。從文獻統計結果看,樣本數使用的中位數為1888,2015年之后的文獻中位數為11196。在保證樣本可得性和代表性的基礎上,我們建議探索性分析的樣本數應大于2000,探索加驗證的分析樣本應該更大。
(2)樣本平衡。樣本數應根據所要預測變量的類別數和難易程度調整。特別需要注意的是,罕見類別的樣本數不能過少。對于非平衡樣本,應通過重新采樣的方法以平衡各類樣本數量(Chen et al., 2022)。
(3)特征值數量。即用于訓練的X變量的數量。從文獻統計結果看,最多的使用了1821個變量,中位數為22.5。更豐富的X變量會帶來更好的訓練結果,并更利于發現新的潛在理論;但也要考慮某些模型可能對數據噪聲較為敏感。
(4)算法模型選擇。60篇論文中,運用最多的算法是隨機森林(29%),其次是支持向量機(26%)。神經網絡類和梯度提升類算法約占17%和15%。大部分論文都采用了不止一種算法并比較了模型的表現結果。因此我們建議,比較多種算法的預測性能和扎根結果,盡可能選擇最優模型并進行穩健性檢驗。
(5)模型預測效果。統計的文獻中模型準確度的中位數為0.79。計算扎根的有效性以模型預測的準確性為前提,考慮到既有論文的預測變量大多是二分變量,我們建議,二分變量的準確率應大于0.8,連續變量準確率可以適當降低。
五、計算扎根方法的多重價值
計算扎根對傳統定量研究的補充是多方面的。在數據層面,模型納入的指標不再僅限于有限的幾個變量,而是盡可能地納入各類指標;在目標層面,不再強調模型系數的統計顯著性,而是重新平衡社會預測的準確性和機制的可解釋性;在觀察視野層面,不再局限于回歸系數大小和方向,而是細致挖掘變量間的非線性關系和群體異質效應。這些革新能夠為計算扎根方法帶來多方面的價值。
(一)理論創生價值:發現潛在模式
相比于傳統數據模型,算法為導向的機器學習方法可以克服模型形式和變量選擇的限制,并考慮變量間各種交互關系。對自變量數量瓶頸和關系限制的打破使得我們可以獲得更完備的搜索、思考與檢驗解釋變量的能力。這意味著只要數據本身足夠豐富,“計算扎根”就能引導研究者通過發現新的解釋變量啟發新理論假說(陳云松等,2020)。通過一次“計算扎根”,我們就能夠對整個調查數據的上百個指標進行篩選比較。
(二)理論發展價值:捕捉復雜關系
傳統計量方法使用數據擬合模型,容易造成關鍵信息的丟失甚至錯誤(Varian,2014)。計算扎根方法通過超參數擬合數據,只要模型能盡可能地模擬真實社會情境,就能充分捕捉變量之間的復雜關系,解放傳統計量模型的線性枷鎖,驗證或者發展理論。前文的案例清晰地展示了其揭示和解釋復雜關系的能力,更提醒我們,真實社會中數據的兩兩關系遠沒有我們預期得那么整齊劃一:沙普利曲線幾乎沒有接近直線的分布。
(三)學科范式價值:第二種想象力
霍夫曼和鄧肯沃茲等在2021年的《自然》雜志上發文呼吁在計算社會科學中整合解釋與預測(Hofman et al., 2021)。他們指出,整合解釋性和預測性思維的研究活動具有很大價值,但目前的研究屈指可數,該領域理應得到比迄今為止更多的關注。本方法正是整合社會科學解釋性和預測性的全新嘗試。對于定量研究范式而言,掌握計算機扎根方法不啻獲得了米爾斯所提出的社會學想象力之外的補充。米爾斯的社會學想象力是基于個人體驗的視角提升的思維(米爾斯,2017),而計算扎根則提供了一種基于數據的以算法模型來直接助產理論的思維能力。第二種社會學想象力蘊含了驅動理論新發現和放飛思維的磅礴力量。
(四)知識體系價值:自主知識生產
計算扎根方法天然具有一種更適合系統化知識生產的能力:有更多的新理論假說可以從數據中大量得到啟發、更細微的機制和關系特征可以通過詳實的預測力貢獻分析被同時發現,以進行理論拓展和澄清。這對處于知識生產后發進程中的中國社會學來說尤其顯得重要。要建立自主的知識體系,僅靠對具有先發優勢的西方社會學的概念和理論進行異地驗證是無法完成的。真正的自主知識體系需要一種足以對大規模社會、大時空跨度、高通量信息的中國數據進行復雜關系發現和理論提煉的工具。計算扎根無疑是這樣的工具中最為重要的部件之一。
(五)社會治理價值:尋找干預因素
社會學是一門經世致用之學,社會公眾和治理主體往往不會滿足于概念提煉、過程解讀和統計判斷。這意味著定量社會學的學科使命不能僅局限于驗證理論假說,還要掌握一種為社會現象找出關鍵干預因素的能力,才能真正為服務國之大者建言獻策。計算扎根立足于社會預測的問題導向,通過不斷模擬本身不存在的社會現象,對于為社會治理找出關鍵干預變量具有重要實用價值。
六、結語
定量研究作為社會學領域的重要研究范式,深深根植于實證主義方法論傳統,并形成了假設檢驗的單一路徑依賴。我們強調,定量研究對于理論驗證的過分強調很可能忽視了數據本身蘊含的巨大理論能量。基于此,本文提出了一種基于量化數據進行理論生產的方法:計算扎根。借助機器學習的預測能力和歸因算法的可解釋性,計算扎根恰恰能夠在挖掘潛在關系模式、捕捉非線性關系等方面為定量研究的理論發展打開了一扇大門,打通從經驗觀察到理論生產的逆向路徑。
回顧定量方法的發展歷史,四十多年前,社會科學曾出現過基于數據資料和模型探索變量之間關系的學術風潮,但并沒有形成成熟的研究范式。究其緣由,一是大量變量的納入分析難以滿足假設并導致多重共線性等問題;二是通過刪除或添加單一指標篩選變量的方法僅僅是局部而非全局最優解,控制變量的變化會給結果帶來較大擾動;三是預設的函數模式難以窮盡變量間復雜的關系作用模式。四十多年后,我們再一次呼吁定量研究補足其生產理論的缺角,吸取歷史的教訓,正視數據中蘊含的巨大理論能量。計算扎根方法的優勢在于:第一,算法模型可打破模型預制的假設和關系模式,充分納入大量變量并考慮變量間復雜的關系作用模式;第二,可解釋性機器學習可憑借算法算力,在充分考慮變量各種排列組合的情況下得出全局最優解;第三,基于預測力的變量重要性排序比簡單的變量相關性在分析邏輯上更能接近因果關系的范疇;第四,變量間各種非線性關系模式的挖掘和可視化呈現為引導直覺提供了更堅實細致的信息。
在為算法和數據可以直接助產理論而歡呼的同時,我們也提醒讀者,本文并非否定傳統的定量方法及其價值。任何一種方法都有前提、假設和局限,更有適用的特定的研究情境。它們都是定量社會學方法中的重要組成部分。我們強調,計算扎根不是對理論的拒斥,而是跳脫出已有理論和常識的限制,為提出新假說創造機會;計算扎根也并不排斥驗證理論,而是同時強調將從數據中產生理論作為定量工作者檢驗理論之前的一個科學環節。
我們充分意識到,新的分析方法往往也會帶來新的研究問題。計算扎根面臨的挑戰并不比它能帶來的知識生產價值少。這些挑戰包括:第一,數據維度的限制。就像遺漏變量永遠不可能窮盡一樣,盡管計算扎根嘗試拓寬分析的數據維度,但這也無異于“戴著數據可得性的鐐銬跳舞”。第二,社會預測的限制。對社會復雜現象的可預測性一直有懷疑的聲音(Taleb, 2010)。由于數據或模型的不足以及復雜社會系統固有的不可預測性,計算扎根方法并不適用于所有研究場景。第三,計算扎根的異質性。研究者知識生產的位置從研究的前端轉移到后端,數據和模型被推到一個相當重要的位置,并可能導致潛在偏差。第四,相關性并非因果性。可預測并不等同于因果,對于因果關系和更深入的影響機制鏈條的挖掘仍需要進一步探索。
任何一種方法的成熟必然都要經歷漫長的過程,要不斷被實踐和科學共同體所檢驗和修正。計算扎根方法未來需要探索和完善的有很多,如計算扎根方法的推薦標準和規范仍需進一步檢驗提升,計算扎根的適用場景和信效度尚需探索,計算扎根與統計推斷和因果推斷方法的對話有待推進……同時,本文提出的計算扎根方法主要基于結構化數據的分析。伴隨著形式多樣的大數據和人工智能的持續進步,計算扎根方法能否運用、如何運用于海量非結構化數據和更復雜的深度學習算法,也值得我們持續思考。作為混合了定性范式思維和邏輯的定量研究新范式,計算扎根需要學界更多的重視包容、推廣實踐與研究反思。我們呼吁在實證層面進行更多的檢驗和開拓,更為積極地把計算扎根這一方法在當前社會學研究中加以探索應用。只有當計算扎根方法能夠實實在在地為當代社會學生成更多概念和理論,為中國社會學生成更多的自主知識,我們才會對計算扎根這一方法的力量和局限有更為深入的認識。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.