網易首頁 > 網易號 > 正文申請入駐

致敬“DNA之母”，OpenAI推出首個生命科學AI模型GPT-Rosalind，加速藥物研發和基因組學研究

2026-04-17 14:42:02　來源: 生物世界

上海舉報

分享至

編譯丨王聰

編輯丨王多魚

排版丨水成文

1952 年，英國科學家羅莎琳德·富蘭克林（Rosalind Franklin）拍攝了一張B 型 DNA 的 X 射線晶體衍射照片，也就是后來著名的“照片51號”。1953 年，詹姆斯·沃森（James Watson）和弗朗西斯·克里克（Francis Crick）受“照片51號”的啟發，成功構建了DNA 雙螺旋結構模型，這是生命科學領域的里程碑成就，開啟了分子生物學時代。1962 年，詹姆斯·沃森（James Watson）、弗朗西斯·克里克（Francis Crick）和莫里斯·威爾金斯（Maurice Wilkins）三人因 DNA 雙螺旋結構獲得了諾貝爾生理學或醫學獎，而羅莎琳德·富蘭克林已于 1958 年因乳腺癌去世。

英年早逝，未獲諾獎，這讓羅莎琳德·富蘭克林對 DNA 雙螺旋結構的貢獻在很長一段時間里被人們所忽視。慶幸的是，近年來的發現的一些新證據顯示，羅莎琳德·富蘭克林并非傳言所說的不能理解 DNA 雙螺旋結構，她不僅拍下了“照片51號”，還與莫里斯·威爾金斯一起，為尋找 DNA 結構的答案采取了早期關鍵行動，提供關鍵數據，并驗證了結果。因此，她是“解析雙螺旋四人組中平等的一員”，她和莫里斯·威爾金斯貢獻了發現 DNA 雙螺旋結構一半的力量，與詹姆斯·沃森和弗朗西斯·克里克的貢獻相當。

2026 年 4 月 16 日，OpenAI推出了其首個生命科學 AI 大模型——GPT-Rosalind，這一模型的命名正是致敬羅莎琳德·富蘭克林（Rosalind Franklin）。

羅莎琳德·富蘭克林

藥物研發是人類歷史上最昂貴且耗時最長的事業之一。在美國，從發現新藥靶點到獲得監管批準上市，通常需要 10-15 年的時間。其中大部分時間并非用于取得突破性進展，而是用于細致的分析工作——篩選海量文獻、設計試劑以及解讀復雜的生物數據。OpenAI認為，人工智能（AI）能夠幫助縮短這些時間，因此推出了迄今最專業的生命科學 AI 模型來證明這一點。

OpenAI表示，GPT-Rosalind旨在為生物化學和基因組學等領域提供更強大的基礎推理能力。與在所有領域廣泛訓練的通用語言模型不同，GPT-Rosalind 專門針對生命科學研究中深度分析需求進行了微調，且該模型絕非為了取代科學家，而是幫助他們更快地完成科學過程中一些最耗時和分析難度最大的階段。

GPT-Rosalind 實際能做什么

要理解生物學中的“科學推理”是什么樣子的，這會有所幫助。例如，一位從事新基因療法研究的研究人員可能需要：查閱數百篇近期的論文，識別蛋白質結構中的模式，設計克隆方案，然后預測特定 RNA 序列在細胞中的表現。傳統上，每一步都需要不同的工具、不同的專家以及大量的時間。

GPT-Rosalind被定位為一種工具，旨在協助處理科學發現中固有的復雜多步驟工作流程。它支持證據綜合、假設生成、實驗規劃以及其他多步驟研究任務，旨在幫助研究人員加快發現的早期階段。實際上，這意味著該模型能夠在同一界面內查詢專業數據庫、解析近期科學文獻、與計算工具交互，并提出新的實驗路徑。

OpenAI 此次不僅是發布了一個新模型，還推出了一個生態系統，旨在與科學家們已有的工具相集成。其中的核心是 Codex 的新生命科學研究插件，可在 GitHub 上獲取。科學研究向來自為營，一個項目可能需要研究人員查閱蛋白質結構數據庫，瀏覽數十年來的研究文獻，然后使用單獨的工具進行序列操作。而這個新的插件將 GPT-Rosalind 模型與 50 多種科學工具和數據源相連接，使研究人員能夠通過熟悉的開發者界面以編程方式訪問生物數據庫和計算流程。

基準性能：表現如何？

AI 公司所宣傳的性能，向來需要仔細審查，而OpenAI已公布了 GPT-Rosalind 在既定基準測試中的數據。GPT-Rosalind 在BixBench上的通過率為 0.751，該基準測試圍繞生物信息學和數據分析而設計。BixBench 評估模型在生物信息學家實際執行的真實世界任務中的表現，比如處理測序數據、運行統計分析以及解讀基因組輸出。0.751 的通過率表明其在該領域具備強大的實踐能力。

在LABBench2上，GPT-Rosalind 在 11 項任務中的 6 項上超越了 GPT-5.4，其中最顯著的提升出現在克隆問答（CloningQA）任務中——這是一個需要為分子克隆實驗方案設計端到端試劑的任務。

最引人注目的評估來自一個真實的研究環境。在與Dyno Therapeutics的合作中， GPT-Rosalind 在從未公開過的 RNA 序列到功能預測上進行了評估。這些數據從未出現在任何公開的訓練集中，從而排除了記憶作為干擾因素的可能性。在 Codex 環境中直接評估時，該模型的十次提交中的最佳結果在預測任務中排名高于 95%的人類專家，在序列生成方面達到了 84% 的百分位。對于任何在新的生物學數據上運行的 AI 系統來說，這都是一個了不起的成績。

有限且受管控的訪問權限

鑒于能夠重新設計生物結構的 AI 模型所具有的潛在力量，OpenAI并沒有選擇廣泛“開源”或向公眾普遍發布的方式，而是選擇了一個“可信訪問”計劃，且模型已內置技術保障措施，包括用于標記潛在危險活動的系統以及對模型使用方式的限制。

GPT-Rosalind模型作為研究預覽版，專門面向符合條件的企業客戶推出——即那些致力于改善人類健康成果、開展合法生命科學研究以及維持強大安全與控制治理的組織機構。這種受限部署基于三個核心原則：有益使用、嚴格治理和受控訪問。申請訪問的組織必須接受資格和安全審查，以確保其開展的是具有明確公共利益的合法研究。

目前，OpenAI 已與包括安進、Moderna、艾倫研究所和賽默飛世爾科技在內的客戶合作，將 GPT-Rosalind 應用于整個研究工作流程。OpenAI 還與洛斯阿拉莫斯國家實驗室合作，進行 AI 指導下的蛋白質和催化劑設計。

安進公司負責人工智能和數據的高級副總裁Sean Bruich指出，此次合作使公司能夠以加快向患者提供藥物的速度的方式應用先進工具。

ModernaCEOStéphane Bancel強調了該模型能夠在復雜的生物學證據之間進行推理，以幫助團隊將見解轉化為實驗工作流程。

艾倫研究所CTOAndy Hickl表示，GPT-Rosalind 的突出之處在于，它讓諸如查找和對齊數據之類的手動步驟在代理工作流程中變得更加一致且可重復。

這些成就建立在 OpenAI 在生命科學領域已取得的切實成果之上，例如其與合成生物學公司Ginkgo Bioworks的合作中，其 AI 模型幫助將蛋白質生產成本降低了 40%。

領域專用模型將是下一個前沿

OpenAI 此次發布的 GPT-Rosalind 反映了整個 AI 行業正在發生的更廣泛的架構轉變。領先的 AI 研究機構不再僅僅依賴于日益龐大的通用模型，而是開始投資于針對特定科學或專業領域優化的模型。

領域專用模型可能代表著 AI 的下一個重要階段，而生命科學——以其廣闊的搜索空間、高維數據以及巨大的社會影響——成為最明確的試驗場之一。正如微調和 RLHF（人類反饋強化學習）使語言模型能夠專門用于代碼生成或指令遵循一樣，OpenAI 現在正應用類似策略，以創建能夠對基因組序列、化學結構和實驗方案進行有意義推理的模型。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.