![]()
![]()
近日,西班牙安達盧西亞進步與健康公共基金會等單位合作共同在期刊《Advanced Science》上發表了研究論文,題為“High-Fidelity Synthetic Data Replicates Clinical Prediction Performance in a Million-Patient Diabetes Cohort”,本研究中,研究人員利用雙對抗自編碼器合成了源自安達盧西亞人口健康數據庫中近 100 萬糖尿病患者的真實世界縱向數據集。研究人員建立了一個全面的評估框架,以評估這些數據在機器學習任務中的效用,并將分析范圍擴展到標準指標之外,以闡明模擬疾病軌跡的生物醫學合理性。
醫療保健數字化:數據激增、去識別挑戰與重新識別風險評估
01
醫院和醫療保健機構的數字化催生了一個時代,在這個時代,醫療保健系統已成為數據生成量最大的領域之一。這種數字化轉型導致了各種各樣的大量數據集呈指數級增長,涵蓋了眾多患者信息、臨床記錄和與健康相關的變量。據目前估計,超過 30% 的現有數據是在醫療保健環境中生成的。這些豐富的數據來源為新生物醫學知識的創造奠定了基礎,使研究人員能夠從真實世界的患者經歷和結果中獲得見解,為不斷擴大的真實世界證據(RWE)領域做出了貢獻。在推動電子健康記錄(EHR)的二次利用的同時保護敏感醫療數據,醫療保健機構采用了去識別技術來創建匿名數據集。然而,去識別雖然降低了隱私風險,但并不能完全保證免受重新識別嘗試或將患者數據與外部來源關聯的攻擊。為評估并降低重新識別的風險,人們已對多種方法進行了研究,尤其側重于個體患者的軌跡模式。實際上,當對患者軌跡進行充分觀察時,其會保留獨特的特征,從而加大重新識別的風險。
靜態預測性能
02
當按糖尿病診斷年份對模型的預測性能進行細分時,AUROC 分數隨時間推移持續提升的趨勢十分明顯。無論是基于真實數據還是合成數據訓練的模型,都呈現出這一趨勢。如圖所示,基于合成數據副本訓練的模型始終緊跟基于原始數據訓練的模型的性能,盡管存在細微但持續的性能差距。此外,基于真實數據和合成數據增強數據集訓練的混合模型的性能幾乎與僅基于真實數據訓練的模型重合,表明在這種情況下數據增強并未提供額外的預測價值。在基于原始數據訓練的模型中,男性模型的表現比女性模型更穩定,這一模式在基于合成數據訓練的模型中也得到了重現。與整體 AUROC 結果一致的是,當分別對兩性進行分析時,用合成樣本擴充數據并未帶來性能提升。研究人員還報告了每年評估的患者總數,以及按性別劃分的患者數,同時還報告了 AUROC 得分的均值和標準差。
![]()
按糖尿病診斷年份劃分的預測性能(AUROC)(SSMR-優化版)
結論
03
綜上,研究人員證明,從一個包含超過 100 萬糖尿病患者的大型真實世界隊列中生成的高保真合成數據,能夠在一項具有臨床相關性的任務中成功復制真實數據的預測性能。
參考資料:
https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.202516196
【關于投稿】
轉化醫學網(360zhyx.com)是轉化醫學核心門戶,旨在推動基礎研究、臨床診療和產業的發展,核心內容涵蓋組學、檢驗、免疫、腫瘤、心血管、糖尿病等。如您有最新的研究內容發表,歡迎聯系我們進行免費報道(公眾號菜單欄-在線客服聯系),我們的理念:內容創造價值,轉化鑄就未來!
轉化醫學網(360zhyx.com)發布的文章旨在介紹前沿醫學研究進展,不能作為治療方案使用;如需獲得健康指導,請至正規醫院就診。
責任聲明:本稿件如有錯誤之處,敬請聯系轉化醫學網客服進行修改事宜!
微信號:zhuanhuayixue
★ 2月份熱門內容 ★
01
02
03
04
05
06
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.