![]()
2026年2月,學術監督網站Retraction Watch報道了《國際肥胖雜志》撤回一篇GLP-1減肥藥研究的消息。期刊統計編輯發現,這篇聲稱聯合用藥可額外減重4%的論文,其核心結論在統計學上無法成立。撤稿本身并不罕見,但這一事件指向了一個遠比單篇論文更嚴峻的問題。2025年9月,Retraction Watch的另一篇獨家調查揭示,FDA不良事件報告系統(FAERS)這一公共數據庫正被大規模濫用:基于FAERS的藥物安全性論文從2021年的約100篇激增至2024年的600篇,其中大量論文缺乏真實的研究假說,涉嫌p值操縱,被研究者稱為“沒有研究問題”的研究。這股灌水潮已迫使至少兩本期刊出臺限制措施,但已發表的論文幾乎無法被撤回,因為它們雖然無用,但不是假的。
撰文 | 木木
2026年2月23日,學術監督網站Retraction Watch報道了一則引人關注的撤稿事件:《國際肥胖雜志》(International Journal of Obesity,簡稱IJO)撤回了一篇關于GLP-1類減肥藥聯合用藥效果的研究論文。
GLP-1受體激動劑是當下全球醫藥市場最炙手可熱的藥物類別。以Ozempic、Wegovy為代表的GLP-1類藥物,以及Mounjaro等GIP/GLP-1雙受體激動劑,正在重塑肥胖癥和2型糖尿病的治療格局,市場規模已達數百億美元。圍繞這一藥物類別的學術研究也在急速膨脹,從聯合用藥方案到長期安全性評估,大量論文涌向各類期刊。
被撤回的這篇論文正是其中之一。它于2024年5月發表,是一項回顧性隊列研究,聲稱在GLP-1藥物基礎上加用另一種減肥藥安非他酮/納曲酮(bupropion/naltrexone),可以帶來額外約4%的體重下降。這一結論極具臨床吸引力。
撤稿的起因是期刊統計編輯David Allison的發現。Allison是貝勒醫學院(Baylor College of Medicine)營養學主任、兒童營養研究中心負責人,過去十年一直專注于糾正營養學文獻中的統計錯誤。他在審閱這篇論文后,發現其統計分析的邏輯從根本上無法支撐結論。
“我完全無法理解他們到底做了什么分析,”Allison告訴Retraction Watch,“更讓我困惑的是,我無法理解他們所做的分析怎么可能得出他們所宣稱的那些結論。所以我有點撓頭。”他讓自己帶的幾位學生再次審閱這篇論文,學生們也無法理解其分析方法。在獲得作者配合提供的原始數據后,Allison團隊確認論文的核心結果無法被復現。
2025年12月,IJO在線發表了這篇論文的撤稿聲明。出版方施普林格(Springer)確認,撤稿源于“期刊編委成員對論文結論有效性提出的質疑”。Springer生物醫學出版總監Maria Hodges在郵件中說,調查過程包括“由期刊的一位統計編輯及其研究團隊對原始數據的評估、與文章作者的溝通、獨立專家的咨詢,以及與主編和Springer Nature研究誠信團隊的協商”。
![]()
IJO發表的撤稿聲明 | 圖源:IJO
但是所有作者都不同意撤稿。
第一作者、不列顛哥倫比亞大學(University of British Columbia)的臨床科學家Nadia Khan表示,她和同事們認為“除非能弄清楚問題到底出在哪,并確認這些問題足夠嚴重,否則不接受撤稿”。Khan拒絕回答進一步的問題,但表示作者團隊正在準備一封辯護信,將提交給期刊。
Allison也表示,考慮到各期刊在處理報告錯誤、糾正或撤回文章方面存在“巨大的差異”,他認為IJO的做法值得肯定。他曾經向另一本期刊提出的論文質疑,用了三年多才最終被撤回。“我很高興IJO的編輯們在認真對待這件事,我認為更多的期刊編輯應該效仿他們的做法。”
這還是一個體面的結局:一位盡職的統計編輯發現了問題,期刊進行了調查,論文被撤回。至少在這一案例中,學術界的糾錯機制最終發揮了作用。
但如果,問題不是一篇論文,而是600篇呢?
600篇論文,同一個數據庫
2021年,全球發表了大約100篇基于同一個數據庫的藥物安全性研究。到2024年,這個數字變成了600篇。而2025年,它還在繼續增長。
這個數據庫叫FAERS,全稱是FDA不良事件報告系統(FDA Adverse Events Reporting System)。它由美國食品藥品監督管理局(FDA)維護,收錄了2004年以來數千萬條藥品不良事件相關記錄,數據來源是醫療專業人員、患者和消費者的自愿上報。
FAERS本身是一個有實際價值的工具。法國格勒諾布爾-阿爾卑斯大學醫院(Grenoble Alpes University Hospital)的藥理學家Charles Khouri在接受Retraction Watch采訪時估計,藥品上市后相當大比例的說明書修訂來自FAERS這類藥物警戒數據庫,“大約60%到70%”。
他舉了一個正面例子:一項基于FAERS的“不成比例分析”(disproportionality analysis)曾發現糖尿病藥物吡格列酮(pioglitazone)可能增加膀胱癌風險。
所謂不成比例分析,簡單說就是一種統計篩查方法,用于檢測某種藥物與某種不良事件的組合在數據庫中出現的頻率是否異常偏高。如果偏高,就構成一個值得進一步研究的“信號”。在吡格列酮的案例中,后續研究證實了這一信號,并最終促成了藥品標簽的修改。
從這個角度看,FAERS是一座金礦。問題是,當越來越多的人意識到這座金礦是免費的、開放的,而且可以用來批量生產論文的時候,事情開始變質。
“你可以想象,在一個包含數百萬種藥物、數百萬種不良事件的大型數據庫中,你可以進行無限次數的統計分析,”Khouri說。
他的措辭很溫和,但含義很明確:當你擁有一個足夠大的數據庫和足夠多的統計檢驗時,你總能“發現”點什么。這在統計學上有一個專門的名字,叫p-hacking(p值操縱),即通過反復試驗不同的分析方法和變量組合,直到湊出一個“有統計學顯著性”的結果。
更關鍵的是,FAERS是一個自愿報告系統。實際發生的不良事件中,究竟有多大比例被上報到數據庫中,沒有人知道。“這意味著數據本身就是不完整的,”Khouri補充說。而且,藥物的新穎程度和媒體關注度會顯著影響人們上報不良事件的意愿。一種被全球媒體反復報道的“明星藥物”(比如GLP-1類減肥藥),其不良事件報告量可能遠高于一種同樣廣泛使用但鮮有新聞價值的舊藥。這種報告偏倚(reporting bias)會嚴重扭曲統計結果。
據Retraction Watch報道,從2019年到2022年,藥物安全領域的權威期刊《藥物安全專家觀點》(Expert Opinion on Drug Safety)每年只發表個位數到低兩位數的FAERS不成比例分析論文。但從2023年開始,數字急劇攀升。2024年,該期刊發表了174篇這類論文,占其全年發表論文總數的近60%,發表量相當于2021年全年論文的總和。
![]()
對 PubMed 中藥物不良事件研究的文獻計量分析顯示,FAERS 占近期研究數量激增的很大一部分 | 圖源: C. Khouri et al. 2025
另一本期刊《藥理學前沿》(Frontiers in Pharmacology)的情況類似:2023年約30篇,2024年超過120篇。
這樣陡增的曲線不是“研究熱情的自然增長”可以解釋的。
“沒有研究問題”
Khouri和法國格勒諾布爾-阿爾卑斯大學的計算機科學家Cyril Labbé、意大利博洛尼亞大學(University of Bologna)的Emanuel Raschi等人合作,對這批涌入的論文進行了系統分析。他們的發現刻畫出了一種標準化的“灌水模板”。
這些論文往往同時使用多種統計方法來進行不成比例分析,但在正常的研究中,研究者通常只選用其中一種方法,因為“多種方法是冗余的”。大量論文還使用了一種標準化的流程圖和一種叫“鏡像圖”(mirror plot)的可視化方式來展示用藥至不良事件發生時間(time-to-onset)。“我們以前從來沒見過這種圖,”Khouri說,“把同樣的信息在同一幅圖中畫兩遍,提供的信息幾乎沒有價值。”
![]()
展示“發病時間”的鏡像圖是這類論文“灌水”一大共同特點 | 圖源:Expert Opinion on Drug Safety
但Khouri指出的最核心的問題,比統計方法和圖表格式更致命:
“沒有研究問題。”
這些論文的典型模式是:選一種藥物,扔進FAERS數據庫,跑一遍不成比例分析,看看有什么“信號”跳出來,然后把結果寫成一篇論文。這些論文往往并未清楚交代為什么要研究這種藥物與這些不良事件的關聯,也缺乏明確的臨床假說支撐。而數據庫是開放的,分析方法是現成的,流程可以無限復制。
有時候,這種“無問題研究”會產出荒謬的結果。Khouri舉了一個例子:有論文“發現”西地那非(sildenafil)與肺動脈高壓之間存在統計關聯。但西地那非本身就是治療肺動脈高壓的藥物(以Revatio為商品名在臨床上使用)。一種藥物在治療某種疾病時被大量使用,FAERS數據庫中自然就會有大量關于該藥與該疾病的報告記錄。
用不成比例分析“發現”兩者之間的統計關聯,就像“發現”雨傘和下雨天之間存在關聯一樣,在邏輯上毫無意義。
這些論文反映的問題,不僅是統計方法的濫用,更是研究者對所研究藥物和疾病缺乏基本理解。
誰在“挖礦”
Khouri團隊的分析還揭示了一個引人注目的地理分布特征。2019年至2025年間,發表在《藥物安全專家觀點》上的FAERS不成比例分析論文中,近80%的研究來自隸屬中國機構的作者。“2021年之前,中國作者在這個領域完全缺席,”Khouri指出。
這種爆發式增長的速度和規模,暗示著更系統性的驅動力。個別研究者的產出量異常突出:某中國高校的一位研究者一人發表了27篇基于FAERS的不成比例分析,其中7篇發表在《藥物安全專家觀點》上;同校另一位研究者發表了6篇;另一所中國高校的研究者則至少發表了4篇。
這些作者均未回復Retraction Watch關于其研究領域和對FAERS數據庫特別興趣的采訪請求。
英國薩里大學(University of Surrey)數據分析學講師Matt Spick把這些研究放在了一個更大的框架里審視。Spick和同事在2025年7月發表的預印本研究中,識別出5個發表模式存在異常的公共數據庫,這些異常可能指向論文工廠的介入,FAERS是其中之一。
Spick的研究建立在他此前對另一個公共數據庫NHANES(美國國家健康與營養檢查調查,National Health and Nutrition Examination Survey)的分析之上。那項研究顯示,2021年至2024年間,基于NHANES的單關聯研究論文出現了“快速增長”。這些論文和FAERS灌水論文有著驚人相似的模式。Spick和同事在2025年5月發表于PLOS Biology的論文中寫道,雖然分析無法直接將增長歸因于論文工廠,但它提供了一個“論文工廠可能使用的策略的案例研究”。
“一旦NHANES的數據上了線,作為一個論文工廠,你獲取數據的速度就不再受限于你獲取數據或復制圖像的能力。你可以下載任意多的數據,”Spick告訴Retraction Watch。
FAERS、NHANES,以及其他開放的公共數據庫,搭配日益成熟的生成式AI工具,正在催生一條低成本、高產出的論文流水線。數據是免費的,分析方法可以自動化,論文格式可以模板化。對于一個論文工廠來說,唯一的限制是想象力和投稿速度。
期刊的反擊
面對這股灌水洪流,最先做出反應的是承受最大壓力的期刊。
2024年7月底,《藥物安全專家觀點》的主編、多倫多大學精神病學和藥理學教授Roger McIntyre與出版方Taylor & Francis決定,期刊將“不再接受未經邀請的、使用FAERS或類似自發報告數據庫的不成比例分析研究”。期刊網站上現在注明:“此類研究只有在編輯團隊特別邀請時才會被考慮。”
Taylor & Francis發言人在回復中解釋了這一決定的背景:這類論文的投稿量“顯著上升”,“即使我們投入了額外的資源來處理期刊的預審評估,這種情況仍然難以管理。”該發言人強調,“雖然不成比例分析可以對學術文獻做出有益貢獻,但此類論文可能包含方法論問題,這導致期刊的拒稿率超過了80%。”
一個諷刺的細節:主編McIntyre本人也署名了《藥物安全專家觀點》上的5篇FAERS論文,包括對GLP-1激動劑與自殺關聯的分析。Retraction Watch兩次向McIntyre的大學郵箱發出采訪邀請,均由Taylor & Francis發言人代為回復。
《藥理學前沿》的對策有所不同。2025年5月,Frontiers在旗下所有期刊統一引入了新政策,要求所有基于公共健康數據集的研究“必須提供獨立的外部驗證”。Frontiers研究誠信主管Elena Vicario表示,這項措施是對2024年7月起要求孟德爾隨機化研究提交驗證的政策的擴展。“問題不在于使用FAERS本身,”Vicario說,“而是冗余分析的風險,它們幾乎不會帶來新的科學理解。”
效果也是立竿見影。Vicario表示,“自2024年7月以來,《藥理學前沿》已經拒絕了739篇FAERS投稿,只有9篇在2025年更新作者指南后獲得發表。”
禁令和新規確實暫時遏制了潮水。但一個更棘手的問題是:如何處理已經發表的那些論文?
答案是,幾乎無法處理。
截至Retraction Watch在2025年9月的報道,在其追蹤到的這批基于FAERS的論文中,僅發現2篇已被撤回。其中一篇發表在BioMed Research International上,是在Wiley清理旗下Hindawi期刊中疑似論文工廠活動和操縱同行評審行為時被連帶撤回的。《藥物安全專家觀點》 則因一篇FAERS論文在未經某位合著者同意的情況下署了他的名字而將其撤回。
對于剩下的絕大多數論文,Khouri承認束手無策:
“以造假為由撤回這些文章非常困難,因為沒有造假。結果是無意義的,存在p值操縱和高假陽性風險。這些是無用的論文,但它們不是假的。”
他頓了頓,又補了一句:“大概吧。”
無用,不假,但有害
“無用,但不是假的”,這個判斷精確地描述了這些論文的尷尬處境,同時也揭示了現有學術糾錯機制的盲區。
現有的撤稿機制更擅長處理數據造假、圖像篡改、剽竊等較為明確的學術不端行為。但FAERS灌水論文不屬于這一類。它們使用的是真實的公共數據,運行的是真實的統計軟件,輸出的是格式完整的不成比例分析結果——報告比值比、比例報告比率、置信區間,一應俱全。只是這些統計指標沒有意義,因為背后沒有真實的研究假說。對于這類使用真實數據但研究問題薄弱、統計解釋失當的論文,現有機制處理起來要困難得多。
這就像有人往學術文獻的河流里傾倒了大量無毒但渾濁的泥沙。沒有人中毒,但水變得不可飲用了。
Khouri明確指出了這種“無毒泥沙”造成的真實危害。
首先是對臨床實踐的干擾。“我們知道,當文獻中傳播安全警告時,患者會停藥,”他說,“處方醫生也會被這類結果影響,因為它們呈現出大量與藥物相關的不良事件。”試想,如果一篇基于FAERS的論文聲稱某種GLP-1藥物與自殺傾向之間存在“統計信號”,即使這個“發現”純粹是報告偏倚和統計噪聲的產物,它也可能導致醫生的處方行為趨于保守,或者患者在恐慌中自行停藥。在一個GLP-1藥物正在幫助數以百萬計的肥胖和糖尿病患者的時代,這種干擾的代價可能是真實的健康損失。
其次是對研究資源的浪費。Khouri指出,如果研究者啟動新的臨床試驗來驗證這些FAERS“信號”,將消耗大量本可用于真正有價值研究的資金和人力。
而在更深層,這場FAERS灌水潮暴露的不僅是一個數據庫被濫用的問題,而是整個學術出版生態面對一種新型挑戰時的系統性脆弱。
傳統的學術不端行為(數據造假、圖像篡改)雖然惡劣,但在性質上是明確的,現有的調查和撤稿機制可以應對。但當一個公共數據庫被免費開放,分析流程被模板化,AI工具可以輔助撰寫論文時,一條幾乎零成本的“論文生產線”就出現了。這些產品在技術上不構成“學術造假”,但它們稀釋了文獻的信息密度,浪費了同行評審的注意力,污染了臨床決策的信息環境。
“發表或出局”(publish or perish)的學術評價體系,為這條生產線提供了源源不斷的需求端動力。在一個以論文數量評判學術成就的系統中,一篇“結果無意義但格式正確”的FAERS論文和一篇耗費數年心血的前瞻性臨床研究,在某些評價指標上可能被賦予相近的權重。實際上,兩者的研究成本和學術價值天差地別。
如果學術評價體系不改變,堵住FAERS這一個口子,灌水只會從另一個數據庫涌出來。
一種新型的文獻污染
讓我們回到開頭那篇被撤回的GLP-1論文。
它和典型的FAERS灌水論文不完全一樣。它使用的數據不來自FAERS,它的作者在加拿大的大學和私人診所工作,它的研究設計也不是那種無腦的不成比例分析。但在更本質的層面上,它與FAERS灌水論文共享著同一種病癥:用回顧性數據挖掘出一個看似有臨床意義的結論,而統計邏輯從根本上無法支撐這個結論。
Allison在發現問題后評論說,這篇論文涉及“治療反應異質性”(treatment response heterogeneity)這個正在興起的研究領域。“我確實認為這個領域需要提高水平,讓人們理解什么是研究治療反應異質性的合理和合規方法。”
被撤回的論文只是一篇。但在Allison的十年糾錯經歷中,他目睹了各期刊在面對問題論文時“巨大的差異”:有的迅速處理,有的拖延三年。如果對一篇來自知名大學、有作者積極辯護的論文進行撤稿需要半年多的調查,那么對大量“無用但未造假”的FAERS論文,學術界又能做什么?
Khouri在繼續深入分析這些論文的共同特征,試圖識別更多的模式。Spick則在研究論文工廠如何利用包括大語言模型在內的現代技術,從FAERS等開放數據庫中批量抓取數據并自動化生成論文。
“要強制撤回這些論文中的很多篇會很困難,”Spick說,“然后它就變成了一個元科學家們的哲學問題:我們應該允許那些毫無意義的科學研究被發表嗎?”
這個問題沒有簡單的答案。但在答案到來之前,大量這樣的論文已經進入了學術文獻,它們的“發現”正在搜索引擎和學術數據庫中被檢索、被引用、被誤讀。
它們不是假的。它們只是沒有意義。
參考資料
[1] Gallegos, A. (2026, February 23). Journal retracts GLP-1 study after researcher questions central finding. Retraction Watch. https://retractionwatch.com/2026/02/23/glp-1-study-retracted-ozempic-saxenda-contrave-statistics/
[2] Marcus, A. (2025, September 16). Exclusive: Journal bans drug safety database papers as they flood the literature. Retraction Watch. https://retractionwatch.com/2025/09/16/exclusive-journal-bans-drug-safety-database-papers-as-they-flood-the-literature/
[3] International Journal of Obesity. https://www.nature.com/articles/s41366-025-02006-x
[4] Suchak, T., Spick, M. et al. (2025). Explosion of formulaic research articles, including inappropriate study designs and false discoveries, based on the NHANES US national health database. PLOS Biology. https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3003152
[5] Spick, M. et al. (2025). Quantifying new threats to health and biomedical literature integrity from rapidly scaled publications and problematic research. medRxiv (preprint). https://www.medrxiv.org/content/10.1101/2025.07.07.25331008v2
[6] FDA. FAERS Public Dashboard. https://www.fda.gov/drugs/fdas-adverse-event-reporting-system-faers/fda-adverse-event-reporting-system-faers-public-dashboard
[7] Khouri, C. (2025). The Rising Misuse of Pharmacovigilance Reporting Systems: A Threat to Evidence-Based Medicine. Zenodo. https://doi.org/10.5281/zenodo.17116885
[8] Zhu, Z., Liu, M., Zhang, H., Zheng, H., & Li, J. (2025). Post-marketing safety concerns with abrocitinib: a real-world pharmacovigilance analysis of the FDA adverse event reporting system. Expert Opinion on Drug Safety, 24(5), 599–606. https://doi.org/10.1080/14740338.2024.2356020
注:本文封面圖片來自版權圖庫,轉載使用可能引發版權糾紛。
![]()
特 別 提 示
1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閱不同主題系列科普文章。
2.『返樸』提供按月檢索文章功能。關注公眾號,回復四位數組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。
版權說明:歡迎個人轉發,任何形式的媒體或機構未經授權,不得轉載和摘編。轉載授權請在「返樸」微信公眾號內聯系后臺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.