![]()
系列簡介
這是我們一系列原創技術貼,從易到難,每天學習一點。所有內容均為疾控數據分析、科研論文相關,或者說很多和現在的熱門監測預警相關,所以我們這個系列就叫“監測預警基礎”。
今天是第18節,接下來兩節都是講一講回歸的原理和基本操作,其實主要目的是為后面的內容做一個基本的鋪墊。
好的,在繼續后面的內容之前,我們先來簡單講一講回歸,什么是回歸?什么是簡單線性回歸和多元回歸?
當然,我們主要講這些內容是為了我們后面幾節的Serfling回歸模型進行一些鋪墊,回歸這個內容本身有很多可以講的,如果需要,后面也會專門分幾期講一講。
![]()
“回歸(regression)”不是現代統計學家發明的名詞,而是英國統計學家Francis Galton(高爾頓) 在1886年提出的。他研究的是一個非常樸素的問題:父母的身高與孩子的身高之間,是否存在某種可預測的關系?
弗朗西斯·高爾頓(Francis Galton,1822—1911),是19世紀典型的“百科全書式科學家”,在統計學、遺傳學、心理測量學和地理探索等多個領域都留下了奠基性貢獻。他提出了“回歸”(regression)和“相關”(correlation)等統計學核心概念,引入四分位距、散點圖等基礎工具,并推動了現代統計方法的系統化發展。他一生發表了300多篇論文和15本書,橫跨多個學科。
高爾頓同時也是查爾斯·達爾文的表弟,其母親是達爾文的親姑姑。深受達爾文進化論思想影響,高爾頓嘗試將“遺傳”和“變異”的概念數學化,進而推動了數量遺傳學與早期心理測量方法的發展。可以說,他在統計學上的創新,既源于對自然科學規律的敏銳觀察,也體現了達爾文思想在定量研究中的延伸。
“回歸”這個詞聽起來有點抽象,但其實它的核心思想很簡單:探究一個或多個因素如何影響某個我們關心的結果,并利用這種關系進行預測。
1.類比
就像我們根據一個人的“受教育年限”、“工作經驗”來預測他的“收入”一樣。在衛生領域,我們可能根據一個人的“年齡”、“吸煙史”、“膽固醇水平”來預測其“患心臟病的風險”。
2.回歸的核心目的包括
第一,解釋:確定哪些因素(自變量)與結局(因變量)有關,以及影響的方向和大小。
第二,預測:建立一個數學公式(回歸方程),用已知的自變量來預測未知的因變量。
第三,控制:在多元回歸中,可以在“控制”其他因素的情況下,考察某個特定因素的“獨立”影響。
3.在回歸分析中,我們研究的就是因變量和自變量
因變量就是我們關心的結果指標,例如:血壓值、血糖值、住院天數、生存時間。
自變量就是可能影響結果的因素,例如:年齡、性別、藥物劑量、是否吸煙。
4.總體回歸的基本形式是
這不是一條數學上的精確直線,而是一個概率關系。
它表示在真實世界中,Y 的平均變化趨勢可以用 β? + β? X 描述,而所有無法完全解釋的部分被放入誤差項 ε。
也就是說β? 描述的是“平均規律”,不是“每個人的規律”,ε 則包含了所有“我們無法觀測或無法解釋的東西”
在現實世界中收入不僅受教育影響,還受家庭背景、行業、城市發展水平、能力等影響;銷量不僅受廣告影響,還受競爭、季節、價格變化影響;健康不僅受空氣污染影響,還受生活習慣、基因差異、醫療資源影響
這些復雜因素不可能全部進入模型,因此:
總體回歸方程是一個“平均規律 + 不可控擾動”的組合。
![]()
1. 簡單線性回歸
定義:研究一個連續型自變量與一個連續型因變量之間線性關系的方法。
模型:
Y = β? + β?X + εY: 因變量X: 自變量β?: 截距(當X=0時Y的平均值)β?:回歸系數,是核心!表示X每增加1個單位,Y平均變化β?個單位。ε: 隨機誤差
結果解讀:
回歸系數 β?: 有統計學意義(p<0.05)時,說明X對Y的影響顯著。
決定系數 R2: 表示X能解釋Y變異的百分比。R2越大(越接近1),模型擬合越好。
例子:探究“每日運動時間(X)”對“空腹血糖值(Y)”的影響。
2. 多元線性回歸
定義:研究多個自變量與一個連續型因變量之間線性關系的方法。這是衛生研究中更常用、更貼近現實的分析工具。
模型:
Y = β? + β?X? + β?X? + ... + β?X? + ε核心優勢:
控制混雜因素: 可以同時將多個可能的影響因素放入模型,從而考察在“固定其他變量不變”的情況下,某個特定自變量的“凈效應”。這是其最重要的價值!
例子: 在探究“吸煙(X?)”對“肺癌風險(Y)”的影響時,我們必須把“年齡(X?)”和“職業粉塵暴露(X?)”也放入模型,否則“吸煙”的效應可能會被這些混雜因素夸大或掩蓋。
結果解讀:
偏回歸系數: 每個自變量的系數(如β?),表示在控制其他所有自變量的情況下,該自變量對Y的獨立影響。
調整后的R2: 比簡單R2更穩定,表示所有自變量共同能解釋Y變異的百分比。
![]()
![]()
編輯:普通疾控人 | 審核:詩酒趁年華
文章來源 | 原創
說明 | 轉載只為分享,如有侵權聯系刪除
?版權聲明 | 部分信息和圖片來自公開網絡
轉載請注明
再次轉載請注明出處
![]()
科普健康 | 宣傳疾控
本號為多位疾控機構從業者運營
重點關注國內外健康事件
致力于疾控科普
在做好科普服務大眾的同時
做好疾控機構的宣傳
讓更多的人了解疾控,擁抱健康
歡迎加「小編」微信(cdcjkr126com)
本文具體說明
本文為原創內容,文章為個人理解所學,不涉及疫情信息及內部保密數據,發表的目的為自我總結及給有需求的人士學習使用。如有不妥之處,歡迎聯系小編修改、刪除。
更多精彩視頻,盡在“CDC疾控人”視頻號
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.