2022年8月25日,時任美國白宮科技政策辦公室(OSTP)主任阿爾隆德拉·納爾遜(Alondra Nelson)簽署發布了題為《確保免費、即時和公平獲取聯邦資助研究成果》的政策備忘錄(以下簡稱“納爾遜備忘錄”)。
該備忘錄的核心指令包括三項:一是取消聯邦資助科研論文此前長達12個月的“禁閱期”(embargo period),要求出版后即時免費向公眾開放;二是要求聯邦資助產生的科學數據必須按照FAIR原則(可發現、可訪問、可互操作、可重用)進行管理,并在發表時同步公開共享;三是要求各聯邦機構在2025年底前更新各自的公共訪問計劃并全面落實上述要求。隨著這一備忘錄進入全面生效倒計時,全球科學數據治理的底層邏輯正在發生深刻變化,科學數據正從傳統意義上的“公共產品”,被重新定義為具有國家競爭意涵的“戰略資產”。
美歐通過強制性的零時滯開放政策,試圖在AI for Science(AI4S)時代率先鎖定數據制高點,并以此為軸心構建基于價值觀的科研協作圈層。面對這一非對稱開放態勢,我國亟需從制度供給、底座建設和安全博弈三個維度做出系統回應,構建自主可控的科學數據主權體系。
一、“納爾遜時刻”,美國科研范式的一次激進重塑
理解當前全球科學數據治理的變局,必須回到2022年8月那個關鍵節點。
“納爾遜備忘錄”的發布,在美國學術界和出版業掀起的震動遠超預期。長期以來,聯邦資助科研成果的開放獲取一直是美國科技政策中一個反復拉鋸的議題。2013年,奧巴馬政府時期的OSTP曾發布過一版公共獲取政策指引,但為照顧學術出版商的商業利益,保留了長達12個月的“付費墻”禁閱期。也就是說,納稅人資助產出的研究成果,在發表后的一年內仍然被鎖在商業期刊的訂閱壁壘之后,這個妥協方案維持了近十年。
納爾遜備忘錄打破的正是這個微妙平衡。它直接將禁閱期歸零,并且把開放要求從論文全文延伸到了底層科學數據,覆蓋范圍涵蓋所有聯邦機構,不設經費門檻下限。這意味著無論一個項目獲得的聯邦資助是一百萬美元還是一萬美元,其產出的論文和數據都必須在發表時即刻向全球免費開放。
截至目前,美國國立衛生研究院(NIH)、能源部(DOE)、國家科學基金會(NSF)等核心資助機構已經提前進入“零時滯”執行期,部分機構甚至在2024年就開始對新立項課題實施新規。
如果僅僅將這一政策理解為一項公益性質的“知識民主化”運動,那就低估了它的戰略縱深。
備忘錄出臺的時間窗口值得玩味,彼時正值ChatGPT即將引爆全球大模型競賽的前夜。回頭來看,美國政府以行政力量強力打通聯邦資助科研數據的流轉壁壘,其深層意圖愈發清晰。在AI4S時代,高質量、標準化的科學數據就是訓練下一代人工智能模型的核心燃料。美國聯邦政府每年投入超過2000億美元的研發經費,產出的科學論文和數據規模位居全球前列。將這些沉淀在各機構、各數據庫中的科研存量以“即時開放”的方式釋放出來,實質上是在為本國的AI基礎設施做大規模的“數據加油”。
換言之,納爾遜備忘錄的底層邏輯并非“讓所有人都能讀到論文”這么簡單,它更像是一次面向AI時代的科研基礎設施升級,通過制度強制力,將分散的科學知識轉化為機器可讀、可訓練、可轉化的標準化數據流,從而在基礎研究領域拉開與競爭對手的代差。
二、開放敘事背后的“數據屏障”
然而,事情遠沒有“開放”二字呈現得那么坦蕩。仔細審視美歐近年來的科學數據政策全貌,會發現一個頗具張力的悖論:它們在前臺高舉開放科學的旗幟,在后臺卻同步構筑起“受控共享”的隱形圍墻。這兩套動作并行不悖,甚至互為表里。
先看美國。納爾遜備忘錄推動的是聯邦資助科研“成果”的開放,即論文和經過整理的最終數據集。但與此同時,在《芯片與科學法案》(CHIPS and Science Act)、《通脹削減法案》以及一系列行政命令的細則中,美國對涉及生物信息、半導體制造工藝路徑、空天遙感、量子計算等關鍵領域的“過程數據”和“底層邏輯”,正在系統性地收緊離境審查和國際合作限制。國家科學基金會近兩年對涉華合作項目的審查力度明顯加強,NIH對外籍研究人員的數據訪問權限也在進行新一輪調整。
這呈現出一種精心設計的非對稱格局:已經凝結為論文結論的“知識終端產品”,可以大方地向全世界敞開,因為這些成果一旦發表,其知識外溢效應本就難以逆轉,不如索性拿來做開放姿態、贏得話語權,同時為AI訓練提供語料。但真正具有戰略價值的過程性數據,比如實驗室原始記錄、材料配方的參數空間、基因編輯的中間步驟等,則被納入日益嚴密的安全管控體系。說得直白一些,結果給你看,過程不讓碰。
再看歐盟,歐洲的焦慮指向另一個方向。歐盟近年來密集推出了《數據法案》(Data Act)、《數據治理法案》(Data Governance Act),并持續加大對“歐洲開放科學云”(EOSC)的投入,試圖建立一套獨立于美國大型云服務商(亞馬遜AWS、微軟Azure、谷歌Cloud)之外的科研數據基礎設施。
這套組合拳的核心焦慮并非針對中國,而恰恰是對美國的防御。長期以來,歐洲科研機構產出的大量高質量數據,在流轉、存儲和分析環節高度依賴美國平臺。歐盟擔憂的是,這些數據在經由美國商業巨頭的基礎設施“過境”時,可能被吸納、整合,并最終轉化為美國企業的商業專利和AI模型的訓練素材,歐洲出了智力、美國收了資產。EOSC的建設目標說到底,就是要確保“歐洲的科學數據在歐洲的土地上、歐洲的規則下流轉”。
將美歐的動作疊加來看,一幅新的全球科學數據地緣圖景逐漸浮現,科學數據的流動正從過去數十年間相對松散的“無國界協作”模式,滑向“基于規則的陣營化流動”。所謂“開放”,越來越不是面向全人類的無差別開放,而是在特定信任圈層內部的定向開放。美歐之間雖有博弈,但在共同的價值觀敘事和制度兼容性基礎上,仍在加速數據互聯互通;而圈層之外的國家,尤其是被視為“系統性競爭對手”的國家,面臨的則可能是一扇看似敞開、實則設有門禁的大門。
三、鏡鑒與隱憂
面對這一輪由美歐主導的科學數據規則重構,一個值得追問的問題是,我國在這場變局中處于什么位置?
目前來看,國內對開放科學數據的討論仍主要停留在學術共同體內部,聚焦于“要不要開放獲取”、“期刊訂閱費太貴”等技術性議題。但納爾遜備忘錄和歐盟數據新政所揭示的趨勢遠不止于此,科學數據正在從學術傳播問題升級為國家科技競爭的基礎性議題。在這個坐標系下審視,我國至少面臨三重結構性張力。
(一)數據資產的“非對稱外流”正在固化為一種路徑依賴
一個不容回避的現實是,我國科研人員產出的大量高質量論文和底層數據,長期以來首發并沉淀于美歐商業出版商和數據平臺。Elsevier旗下的Scopus和ScienceDirect、Springer Nature系列期刊、美國的GenBank生物數據庫,這些平臺承載著中國科研人員相當比例的核心產出。在納爾遜備忘錄推行“零時滯開放”之后,這些發表在美歐平臺上的中國科研成果,連同其底層數據,將自動匯入全球開放的數據池,成為他國AI模型訓練的現成素材。
問題在于,這種開放是單向度的。美方以國內政策為杠桿撬開了數據閘門,但中國科研人員想要獲取美國的核心過程數據和敏感領域數據集時,面臨的門檻卻在不斷升高。這就構成了一個頗為尷尬的循環,中國科研人員貢獻原始數據,美方平臺整合、標準化后用于AI模型訓練,產出的高端科研工具和服務再以商業化形式賣回中國。數據出去是免費的,成果回來卻是收費的。這筆賬,值得算清楚!
更令人擔憂的是,這種外流并非某項政策的結果,而是長期形成的學術評價導向、國際發表慣性和基礎設施缺位共同作用下的路徑依賴。在國內尚未建立起具有足夠吸引力和公信力的自主托管平臺之前,這條數據外流的管道不會因為任何一紙文件而自動關閉。
(二)數據治理的“基建欠賬”可能成為AI4S時代的戰略短板
歐盟之所以不惜重金打造EOSC,根本原因在于它清醒地認識到,沒有自主可控的數據基礎設施,再多的科研產出也只是為他人的AI模型做嫁衣。這一判斷對我國同樣適用。
當前我國科學數據管理面臨的突出問題,并非數據總量不足。事實上,中國每年發表的SCI論文數量已穩居全球前列,在材料科學、化學、工程學等領域的數據產出規模相當可觀。真正的瓶頸在于數據的治理水平和可用性。高校與科研院所之間長期存在“數據煙囪”現象,即各單位各自建庫,標準不統一,格式不兼容,大量寶貴的實驗數據在結題報告歸檔后便沉入“數字墳墓”,既無法被其他研究者有效復用,更談不上被AI系統讀取和訓練。
科學數據的價值實現,不在于“存了多少”,而在于“能不能流動起來”。如果數據標準不統一、元數據規范缺失、確權機制模糊、科研人員缺乏共享動力,那么即便建再多的數據庫,也不過是把“紙質檔案”搬到了“電子檔案柜”里。我國門類齊全的工業體系和體量龐大的科研產出,究竟是AI4S時代的比較優勢,還是一座沉睡的、難以被激活的“數據礦藏”,這個問題的答案,取決于基建欠賬能否盡快補上。
(三)“安全”與“開放”之間的政策顆粒度仍然不足
科學數據治理最忌諱兩個極端:一封就死,一放就亂。近年來我國在數據安全立法方面推進迅速,《數據安全法》、《個人信息保護法》和《科學數據管理辦法》等框架已初步搭建。但在科學數據這個特殊領域,現行政策的顆粒度與實際需求之間仍存在明顯落差。
科學數據的光譜極為寬泛,一端是基礎理論研究、氣候環境監測、公共衛生等惠及全人類的知識公共品,中國作為負責任大國,完全有底氣也有意愿參與全球開放共享;另一端則是涉及關鍵核心技術突破路徑、戰略性生物資源、稀土材料工藝參數等敏感領域的數據,其價值密度和安全敏感度完全不可同日而語。
問題在于,這兩端之間存在大量的灰色地帶,那些單獨看無害、但經過AI大規模聚合分析后可能產生戰略價值的數據,該如何定性?哪些數據可以出境、以什么方式出境、出境后如何約束使用?這些問題在現行制度框架下尚缺乏足夠清晰的回答。而在大國科技博弈日趨激烈的背景下,手握戰略數據底牌而不自知、或雖知而無力分類管控,恐怕才是最大的風險所在。
結 語
科學數據從來不是靜止的檔案,它是流動的要素,是有方向、有勢能、有地緣屬性的戰略資源。
在納爾遜備忘錄全面落地的2025年,一個由美歐主導定義的科學數據新秩序正在加速成型。這個秩序的表層敘事是“開放、共享、普惠”,底層邏輯卻是“誰制定規則、誰掌控基礎設施、誰就擁有數據時代的科學話語權”。
對中國科技界而言,當務之急不是爭論“要不要開放”,這個問題的答案是確定的,開放合作仍然是科學進步的主旋律,而是必須想清楚“在什么條件下開放、以什么姿態開放、開放之后如何確保自身不被結構性地削弱”。融入國際開放科學進程需要勇氣,但構建自主數據治理主權所需要的,是更為冷靜和長遠的底氣。
馮巖,上海市研發公共服務平臺管理中心(上海市科技人才發展中心) 人才事業部。文章觀點不代表主辦機構立場。
◆ ◆ ◆
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.