網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

深度科學(xué)| 人工智能如何加速酰胺偶聯(lián)反應(yīng)，促進(jìn)藥物研發(fā)

2025-09-10 11:19:37　來源: 原子量

重慶舉報(bào)

分享至

摘要：

“酰胺偶聯(lián)反應(yīng)是藥物發(fā)現(xiàn)和合成化學(xué)領(lǐng)域中最為關(guān)鍵的轉(zhuǎn)化之一，廣泛應(yīng)用于各種藥物分子的合成。然而，由于反應(yīng)條件空間的廣闊性和復(fù)雜性，如何高效地推薦最佳反應(yīng)條件一直是一個(gè)巨大的挑戰(zhàn)。該研究通過結(jié)合高通量實(shí)驗(yàn)（HTE）平臺(tái)和嵌入“中間知識(shí)”的機(jī)器學(xué)習(xí)模型，顯著提升了酰胺偶聯(lián)反應(yīng)產(chǎn)率預(yù)測(cè)的準(zhǔn)確性和模型的泛化能力。”

背景介紹

酰胺偶聯(lián)反應(yīng)（Amide coupling reaction）不僅僅是化學(xué)實(shí)驗(yàn)室里的一個(gè)普通反應(yīng)，更是藥物發(fā)現(xiàn)和合成化學(xué)領(lǐng)域中不可或缺的“基石”。我們?nèi)粘Ｉ钪惺褂玫脑S多藥物，從抗癌藥到抗生素，從心血管藥物到神經(jīng)系統(tǒng)藥物，它們的分子結(jié)構(gòu)中都可能含有酰胺鍵。酰胺鍵就像是分子世界的“骨架”，將不同的功能單元連接起來，形成具有特定生物活性的復(fù)雜分子。因此，高效、精準(zhǔn)地構(gòu)建酰胺鍵，對(duì)于藥物的研發(fā)和生產(chǎn)至關(guān)重要。

圖1. 酰胺偶聯(lián)反應(yīng)

然而，一個(gè)酰胺偶聯(lián)反應(yīng)的成功與否，往往取決于一系列復(fù)雜的反應(yīng)條件，包括偶聯(lián)試劑、堿、溶劑、反應(yīng)溫度和反應(yīng)時(shí)間等。這些條件組合起來，形成了一個(gè)龐大而復(fù)雜的“條件空間”。對(duì)于化學(xué)家而言，如何在如此廣闊的條件空間中，快速而準(zhǔn)確地找到最佳的反應(yīng)條件，以獲得高產(chǎn)率和高選擇性的目標(biāo)產(chǎn)物，一直是一個(gè)令人頭疼的難題。傳統(tǒng)的做法是依靠化學(xué)家的經(jīng)驗(yàn)和大量的試錯(cuò)實(shí)驗(yàn)。這種方法不僅耗時(shí)耗力，而且效率低下，尤其是在面對(duì)新型底物或具有挑戰(zhàn)性的反應(yīng)時(shí)，往往會(huì)陷入漫長的實(shí)驗(yàn)篩選過程，嚴(yán)重阻礙了藥物研發(fā)的進(jìn)程。該研究巧妙地結(jié)合了高通量實(shí)驗(yàn)（High-Throughput Experimentation, HTE）平臺(tái)和一種創(chuàng)新的“中間知識(shí)嵌入”策略（圖2），顯著提升了酰胺偶聯(lián)反應(yīng)產(chǎn)率預(yù)測(cè)模型的性能。

圖2. 酰胺偶聯(lián)反應(yīng)條件推薦研究

圖文解析

1.數(shù)據(jù)基石：高通量實(shí)驗(yàn)（HTE）與數(shù)據(jù)質(zhì)量的挑戰(zhàn)

任何成功的機(jī)器學(xué)習(xí)模型，都離不開高質(zhì)量的數(shù)據(jù)。在化學(xué)反應(yīng)預(yù)測(cè)領(lǐng)域，數(shù)據(jù)的質(zhì)量和多樣性直接決定了模型的準(zhǔn)確性和泛化能力。傳統(tǒng)的化學(xué)反應(yīng)數(shù)據(jù)主要來源于文獻(xiàn)報(bào)道。然而，文獻(xiàn)數(shù)據(jù)往往存在諸多局限性：首先，文獻(xiàn)通常只報(bào)道成功的、高產(chǎn)率的反應(yīng)，而對(duì)低產(chǎn)率甚至失敗的反應(yīng)鮮有提及，這導(dǎo)致數(shù)據(jù)集存在嚴(yán)重的“成功偏倚”，使得模型難以學(xué)習(xí)到反應(yīng)失敗的原因和邊界條件。其次，不同實(shí)驗(yàn)室的實(shí)驗(yàn)條件、操作規(guī)程以及數(shù)據(jù)記錄方式存在差異，導(dǎo)致數(shù)據(jù)一致性差，難以直接用于機(jī)器學(xué)習(xí)模型的訓(xùn)練（圖3）。此外，文獻(xiàn)數(shù)據(jù)往往缺乏對(duì)反應(yīng)條件空間的系統(tǒng)性探索，難以全面覆蓋各種可能的反應(yīng)組合。

圖3多條件模型工作流程示意圖，以甲胺與乙酸反應(yīng)為例

為了克服這些挑戰(zhàn)，高通量實(shí)驗(yàn)（High-Throughput Experimentation, HTE）應(yīng)運(yùn)而生。HTE是一種通過自動(dòng)化和并行化技術(shù)，在短時(shí)間內(nèi)進(jìn)行大量實(shí)驗(yàn)的方法。它能夠系統(tǒng)地探索反應(yīng)條件空間，生成大規(guī)模、一致且包含成功與失敗案例的實(shí)驗(yàn)數(shù)據(jù)。這篇研究正是利用了其內(nèi)部的高通量實(shí)驗(yàn)平臺(tái)，系統(tǒng)地收集了酰胺偶聯(lián)反應(yīng)的產(chǎn)率數(shù)據(jù)。最終，他們收集了超過47000個(gè)產(chǎn)率數(shù)據(jù)點(diǎn)，構(gòu)建了一個(gè)豐富而多樣的數(shù)據(jù)集（圖3），為后續(xù)機(jī)器學(xué)習(xí)模型的訓(xùn)練奠定了堅(jiān)實(shí)的基礎(chǔ)。

圖4. 用SMiles ARbitrary Target Specification（SMARTS）語法編寫的反應(yīng)模板

2.智能預(yù)測(cè)：多條件模型開發(fā)與“中間知識(shí)”的魔力

有了高質(zhì)量的數(shù)據(jù)，接下來就是構(gòu)建能夠準(zhǔn)確預(yù)測(cè)反應(yīng)產(chǎn)率的機(jī)器學(xué)習(xí)模型。在這項(xiàng)研究中，研究人員探索了多種機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)方法，包括XGBoost、支持向量機(jī)（SVM）、隨機(jī)森林、AutoGluon以及基于Transformer的深度學(xué)習(xí)模型Yield-BERT和T5-Chem。這些模型的目標(biāo)都是從反應(yīng)物的結(jié)構(gòu)和反應(yīng)條件中學(xué)習(xí)規(guī)律，從而預(yù)測(cè)反應(yīng)的產(chǎn)率。為了更嚴(yán)格地評(píng)估模型的性能，該研究采用了三種不同級(jí)別的測(cè)試集（圖5）：

（1）隨機(jī)劃分（Random Split）：這是最常見的劃分方式，數(shù)據(jù)集被隨機(jī)分成訓(xùn)練集和測(cè)試集。雖然簡單，但如前所述，其評(píng)估結(jié)果可能過于樂觀。

（2）部分底物新穎性（Partial Substrate Novelty）：在這種劃分中，測(cè)試集中的反應(yīng)至少有一個(gè)底物是模型在訓(xùn)練時(shí)未曾見過的。這使得評(píng)估更具挑戰(zhàn)性，更能反映模型在面對(duì)部分新穎情況時(shí)的表現(xiàn)。

（3）完全底物新穎性（Full Substrate Novelty）：這是最嚴(yán)格的評(píng)估方式，測(cè)試集中的所有底物組合都是模型在訓(xùn)練時(shí)完全未曾見過的。這種劃分最能模擬真實(shí)世界中化學(xué)家需要預(yù)測(cè)全新反應(yīng)產(chǎn)率的場景，也是衡量模型泛化能力的關(guān)鍵指標(biāo)。

圖5. 三個(gè)級(jí)別測(cè)試集的示意圖：隨機(jī)拆分、部分底物新穎性和完全新穎性測(cè)試

研究結(jié)果顯示，在隨機(jī)劃分和部分底物新穎性測(cè)試集上，模型的表現(xiàn)相對(duì)較好，但在完全底物新穎性測(cè)試集上，模型的性能普遍有所下降（圖5）。這促使研究人員思考，如何才能進(jìn)一步提升模型在面對(duì)完全新穎底物時(shí)的泛化能力。

為了解決這一難題，研究團(tuán)隊(duì)提出了一種創(chuàng)新的策略，在機(jī)器學(xué)習(xí)模型中嵌入反應(yīng)中間體知識(shí)（Intermediate Knowledge Embedding）。他們觀察到，在酰胺偶聯(lián)反應(yīng)中，酸在與偶聯(lián)試劑作用后，會(huì)形成一個(gè)活化的中間體，這個(gè)中間體才是真正與胺反應(yīng)的關(guān)鍵。傳統(tǒng)的機(jī)器學(xué)習(xí)模型通常只關(guān)注反應(yīng)物和最終產(chǎn)物，而忽略了反應(yīng)過程中形成的中間體。研究人員認(rèn)為，如果能將這些“中間知識(shí)”融入到模型中，模型就能更好地理解反應(yīng)機(jī)理，從而更準(zhǔn)確地預(yù)測(cè)產(chǎn)率。

他們選擇了六種常用的酰胺偶聯(lián)反應(yīng)條件，并為每種條件設(shè)計(jì)了特定的SMARTS（SMILES ARbitrary Target Specification）模板，用于描述酸轉(zhuǎn)化為活化中間體的過程。結(jié)果令人振奮，嵌入中間知識(shí)的模型性能顯著提升，尤其是在完全底物新穎性測(cè)試集上。例如，在HATU和TBTU條件下，模型的R2值（一個(gè)衡量模型擬合優(yōu)度的指標(biāo)，越接近1表示擬合越好）分別從0.69和0.71飆升至0.86和0.84（圖6）。這意味著模型在理解反應(yīng)的本質(zhì)方面取得了重大突破，能夠更準(zhǔn)確地預(yù)測(cè)全新反應(yīng)的產(chǎn)率。

圖6.（a）使用HATU作為活化試劑將酸轉(zhuǎn)化為中間SMARTS模式，以及（b）所選單條件模型工作流程的示意圖

3.模型的泛化能力與實(shí)際應(yīng)用：從預(yù)測(cè)到推薦

該研究通過化學(xué)信息數(shù)據(jù)庫（如SciFinder）篩選了大量與藥物發(fā)現(xiàn)和生物研究相關(guān)的酰胺偶聯(lián)反應(yīng)，并確保這些反應(yīng)的底物組合與他們自己的HTE數(shù)據(jù)集完全不同。這意味著模型在預(yù)測(cè)這些外部文獻(xiàn)反應(yīng)的產(chǎn)率時(shí)，是真正面對(duì)“陌生”的挑戰(zhàn)。結(jié)果令人鼓舞：即使在面對(duì)這些全新的外部數(shù)據(jù)時(shí)，嵌入中間知識(shí)的BERT模型依然表現(xiàn)出色，R2值達(dá)到了0.71，平均絕對(duì)誤差（MAE）為7%，均方根誤差（RMSE）為10%（圖7和圖8）。考慮到訓(xùn)練數(shù)據(jù)集的規(guī)模（約400個(gè)底物對(duì)），這樣的性能已經(jīng)非常強(qiáng)大，并且研究人員指出，隨著更多數(shù)據(jù)的加入，模型的泛化能力有望進(jìn)一步提升。

圖7. 257個(gè)外部文獻(xiàn)反應(yīng)示例的預(yù)測(cè)產(chǎn)率與實(shí)驗(yàn)產(chǎn)率

總而言之，這項(xiàng)研究不僅構(gòu)建了一個(gè)高性能的酰胺偶聯(lián)反應(yīng)產(chǎn)率預(yù)測(cè)模型，更重要的是，它通過引入“中間知識(shí)”和嚴(yán)格的評(píng)估方法，顯著提升了模型的泛化能力和實(shí)際應(yīng)用價(jià)值。它從單純的“預(yù)測(cè)”走向了更具指導(dǎo)意義的“推薦”，為化學(xué)家提供了強(qiáng)大的智能工具，有望加速新藥的發(fā)現(xiàn)和開發(fā)進(jìn)程。

圖8. 一些外部文獻(xiàn)反應(yīng)實(shí)例的預(yù)測(cè)結(jié)果

總結(jié)

這項(xiàng)研究揭示了“中間知識(shí)”在提升模型性能和泛化能力方面所扮演的關(guān)鍵角色。它證明復(fù)雜化學(xué)反應(yīng)體系中，僅僅依靠輸入和輸出數(shù)據(jù)進(jìn)行模式識(shí)別是遠(yuǎn)遠(yuǎn)不夠的。將化學(xué)反應(yīng)的內(nèi)在機(jī)理，如中間體的形成和轉(zhuǎn)化，以結(jié)構(gòu)化的方式嵌入到機(jī)器學(xué)習(xí)模型中，能夠極大地增強(qiáng)模型的理解能力和預(yù)測(cè)精度。這為未來化學(xué)人工智能的發(fā)展指明了方向：即從純粹的數(shù)據(jù)驅(qū)動(dòng)走向數(shù)據(jù)與知識(shí)雙輪驅(qū)動(dòng)，構(gòu)建更具解釋性、更符合化學(xué)直覺的智能模型。

參考文獻(xiàn)

Chonghuan Zhang, Qianghua Lin, Chenxi Yang, Yaxian Kong, Zhunzhun Yu and Kuangbiao Liao Intermediate knowledge enhanced the performance of the amide coupling yield prediction model. Chemical Science, 2025, 16, 11809-11822.

聲明：

1. 版權(quán)：推送內(nèi)容僅供學(xué)習(xí)交流分享使用，無任何商業(yè)用途，如有侵權(quán)，請(qǐng)聯(lián)系后臺(tái)刪除或修改，感謝支持。

2. 投稿：非常歡迎各位老師在公眾號(hào)上介紹課題組前沿或經(jīng)典研究成果！后臺(tái)或郵箱聯(lián)系即可！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.