摘要:
“酰胺偶聯(lián)反應(yīng)是藥物發(fā)現(xiàn)和合成化學(xué)領(lǐng)域中最為關(guān)鍵的轉(zhuǎn)化之一,廣泛應(yīng)用于各種藥物分子的合成。然而,由于反應(yīng)條件空間的廣闊性和復(fù)雜性,如何高效地推薦最佳反應(yīng)條件一直是一個(gè)巨大的挑戰(zhàn)。該研究通過結(jié)合高通量實(shí)驗(yàn)(HTE)平臺(tái)和嵌入“中間知識(shí)”的機(jī)器學(xué)習(xí)模型,顯著提升了酰胺偶聯(lián)反應(yīng)產(chǎn)率預(yù)測(cè)的準(zhǔn)確性和模型的泛化能力。”
01
![]()
背景介紹
酰胺偶聯(lián)反應(yīng)(Amide coupling reaction)不僅僅是化學(xué)實(shí)驗(yàn)室里的一個(gè)普通反應(yīng),更是藥物發(fā)現(xiàn)和合成化學(xué)領(lǐng)域中不可或缺的“基石”。我們?nèi)粘I钪惺褂玫脑S多藥物,從抗癌藥到抗生素,從心血管藥物到神經(jīng)系統(tǒng)藥物,它們的分子結(jié)構(gòu)中都可能含有酰胺鍵。酰胺鍵就像是分子世界的“骨架”,將不同的功能單元連接起來,形成具有特定生物活性的復(fù)雜分子。因此,高效、精準(zhǔn)地構(gòu)建酰胺鍵,對(duì)于藥物的研發(fā)和生產(chǎn)至關(guān)重要。
![]()
圖1. 酰胺偶聯(lián)反應(yīng)
然而,一個(gè)酰胺偶聯(lián)反應(yīng)的成功與否,往往取決于一系列復(fù)雜的反應(yīng)條件,包括偶聯(lián)試劑、堿、溶劑、反應(yīng)溫度和反應(yīng)時(shí)間等。這些條件組合起來,形成了一個(gè)龐大而復(fù)雜的“條件空間”。對(duì)于化學(xué)家而言,如何在如此廣闊的條件空間中,快速而準(zhǔn)確地找到最佳的反應(yīng)條件,以獲得高產(chǎn)率和高選擇性的目標(biāo)產(chǎn)物,一直是一個(gè)令人頭疼的難題。傳統(tǒng)的做法是依靠化學(xué)家的經(jīng)驗(yàn)和大量的試錯(cuò)實(shí)驗(yàn)。這種方法不僅耗時(shí)耗力,而且效率低下,尤其是在面對(duì)新型底物或具有挑戰(zhàn)性的反應(yīng)時(shí),往往會(huì)陷入漫長的實(shí)驗(yàn)篩選過程,嚴(yán)重阻礙了藥物研發(fā)的進(jìn)程。該研究巧妙地結(jié)合了高通量實(shí)驗(yàn)(High-Throughput Experimentation, HTE)平臺(tái)和一種創(chuàng)新的“中間知識(shí)嵌入”策略(圖2),顯著提升了酰胺偶聯(lián)反應(yīng)產(chǎn)率預(yù)測(cè)模型的性能。
圖2. 酰胺偶聯(lián)反應(yīng)條件推薦研究
02
![]()
圖文解析
1.數(shù)據(jù)基石:高通量實(shí)驗(yàn)(HTE)與數(shù)據(jù)質(zhì)量的挑戰(zhàn)
任何成功的機(jī)器學(xué)習(xí)模型,都離不開高質(zhì)量的數(shù)據(jù)。在化學(xué)反應(yīng)預(yù)測(cè)領(lǐng)域,數(shù)據(jù)的質(zhì)量和多樣性直接決定了模型的準(zhǔn)確性和泛化能力。傳統(tǒng)的化學(xué)反應(yīng)數(shù)據(jù)主要來源于文獻(xiàn)報(bào)道。然而,文獻(xiàn)數(shù)據(jù)往往存在諸多局限性:首先,文獻(xiàn)通常只報(bào)道成功的、高產(chǎn)率的反應(yīng),而對(duì)低產(chǎn)率甚至失敗的反應(yīng)鮮有提及,這導(dǎo)致數(shù)據(jù)集存在嚴(yán)重的“成功偏倚”,使得模型難以學(xué)習(xí)到反應(yīng)失敗的原因和邊界條件。其次,不同實(shí)驗(yàn)室的實(shí)驗(yàn)條件、操作規(guī)程以及數(shù)據(jù)記錄方式存在差異,導(dǎo)致數(shù)據(jù)一致性差,難以直接用于機(jī)器學(xué)習(xí)模型的訓(xùn)練(圖3)。此外,文獻(xiàn)數(shù)據(jù)往往缺乏對(duì)反應(yīng)條件空間的系統(tǒng)性探索,難以全面覆蓋各種可能的反應(yīng)組合。
![]()
圖3多條件模型工作流程示意圖,以甲胺與乙酸反應(yīng)為例
為了克服這些挑戰(zhàn),高通量實(shí)驗(yàn)(High-Throughput Experimentation, HTE)應(yīng)運(yùn)而生。HTE是一種通過自動(dòng)化和并行化技術(shù),在短時(shí)間內(nèi)進(jìn)行大量實(shí)驗(yàn)的方法。它能夠系統(tǒng)地探索反應(yīng)條件空間,生成大規(guī)模、一致且包含成功與失敗案例的實(shí)驗(yàn)數(shù)據(jù)。這篇研究正是利用了其內(nèi)部的高通量實(shí)驗(yàn)平臺(tái),系統(tǒng)地收集了酰胺偶聯(lián)反應(yīng)的產(chǎn)率數(shù)據(jù)。最終,他們收集了超過47000個(gè)產(chǎn)率數(shù)據(jù)點(diǎn),構(gòu)建了一個(gè)豐富而多樣的數(shù)據(jù)集(圖3),為后續(xù)機(jī)器學(xué)習(xí)模型的訓(xùn)練奠定了堅(jiān)實(shí)的基礎(chǔ)。
![]()
圖4. 用SMiles ARbitrary Target Specification(SMARTS)語法編寫的反應(yīng)模板
2.智能預(yù)測(cè):多條件模型開發(fā)與“中間知識(shí)”的魔力
有了高質(zhì)量的數(shù)據(jù),接下來就是構(gòu)建能夠準(zhǔn)確預(yù)測(cè)反應(yīng)產(chǎn)率的機(jī)器學(xué)習(xí)模型。在這項(xiàng)研究中,研究人員探索了多種機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)方法,包括XGBoost、支持向量機(jī)(SVM)、隨機(jī)森林、AutoGluon以及基于Transformer的深度學(xué)習(xí)模型Yield-BERT和T5-Chem。這些模型的目標(biāo)都是從反應(yīng)物的結(jié)構(gòu)和反應(yīng)條件中學(xué)習(xí)規(guī)律,從而預(yù)測(cè)反應(yīng)的產(chǎn)率。為了更嚴(yán)格地評(píng)估模型的性能,該研究采用了三種不同級(jí)別的測(cè)試集(圖5):
(1)隨機(jī)劃分(Random Split):這是最常見的劃分方式,數(shù)據(jù)集被隨機(jī)分成訓(xùn)練集和測(cè)試集。雖然簡單,但如前所述,其評(píng)估結(jié)果可能過于樂觀。
(2)部分底物新穎性(Partial Substrate Novelty):在這種劃分中,測(cè)試集中的反應(yīng)至少有一個(gè)底物是模型在訓(xùn)練時(shí)未曾見過的。這使得評(píng)估更具挑戰(zhàn)性,更能反映模型在面對(duì)部分新穎情況時(shí)的表現(xiàn)。
(3)完全底物新穎性(Full Substrate Novelty):這是最嚴(yán)格的評(píng)估方式,測(cè)試集中的所有底物組合都是模型在訓(xùn)練時(shí)完全未曾見過的。這種劃分最能模擬真實(shí)世界中化學(xué)家需要預(yù)測(cè)全新反應(yīng)產(chǎn)率的場景,也是衡量模型泛化能力的關(guān)鍵指標(biāo)。
![]()
圖5. 三個(gè)級(jí)別測(cè)試集的示意圖:隨機(jī)拆分、部分底物新穎性和完全新穎性測(cè)試
研究結(jié)果顯示,在隨機(jī)劃分和部分底物新穎性測(cè)試集上,模型的表現(xiàn)相對(duì)較好,但在完全底物新穎性測(cè)試集上,模型的性能普遍有所下降(圖5)。這促使研究人員思考,如何才能進(jìn)一步提升模型在面對(duì)完全新穎底物時(shí)的泛化能力。
為了解決這一難題,研究團(tuán)隊(duì)提出了一種創(chuàng)新的策略,在機(jī)器學(xué)習(xí)模型中嵌入反應(yīng)中間體知識(shí)(Intermediate Knowledge Embedding)。他們觀察到,在酰胺偶聯(lián)反應(yīng)中,酸在與偶聯(lián)試劑作用后,會(huì)形成一個(gè)活化的中間體,這個(gè)中間體才是真正與胺反應(yīng)的關(guān)鍵。傳統(tǒng)的機(jī)器學(xué)習(xí)模型通常只關(guān)注反應(yīng)物和最終產(chǎn)物,而忽略了反應(yīng)過程中形成的中間體。研究人員認(rèn)為,如果能將這些“中間知識(shí)”融入到模型中,模型就能更好地理解反應(yīng)機(jī)理,從而更準(zhǔn)確地預(yù)測(cè)產(chǎn)率。
他們選擇了六種常用的酰胺偶聯(lián)反應(yīng)條件,并為每種條件設(shè)計(jì)了特定的SMARTS(SMILES ARbitrary Target Specification)模板,用于描述酸轉(zhuǎn)化為活化中間體的過程。結(jié)果令人振奮,嵌入中間知識(shí)的模型性能顯著提升,尤其是在完全底物新穎性測(cè)試集上。例如,在HATU和TBTU條件下,模型的R2值(一個(gè)衡量模型擬合優(yōu)度的指標(biāo),越接近1表示擬合越好)分別從0.69和0.71飆升至0.86和0.84(圖6)。這意味著模型在理解反應(yīng)的本質(zhì)方面取得了重大突破,能夠更準(zhǔn)確地預(yù)測(cè)全新反應(yīng)的產(chǎn)率。
![]()
圖6.(a)使用HATU作為活化試劑將酸轉(zhuǎn)化為中間SMARTS模式,以及(b)所選單條件模型工作流程的示意圖
3.模型的泛化能力與實(shí)際應(yīng)用:從預(yù)測(cè)到推薦
該研究通過化學(xué)信息數(shù)據(jù)庫(如SciFinder)篩選了大量與藥物發(fā)現(xiàn)和生物研究相關(guān)的酰胺偶聯(lián)反應(yīng),并確保這些反應(yīng)的底物組合與他們自己的HTE數(shù)據(jù)集完全不同。這意味著模型在預(yù)測(cè)這些外部文獻(xiàn)反應(yīng)的產(chǎn)率時(shí),是真正面對(duì)“陌生”的挑戰(zhàn)。結(jié)果令人鼓舞:即使在面對(duì)這些全新的外部數(shù)據(jù)時(shí),嵌入中間知識(shí)的BERT模型依然表現(xiàn)出色,R2值達(dá)到了0.71,平均絕對(duì)誤差(MAE)為7%,均方根誤差(RMSE)為10%(圖7和圖8)。考慮到訓(xùn)練數(shù)據(jù)集的規(guī)模(約400個(gè)底物對(duì)),這樣的性能已經(jīng)非常強(qiáng)大,并且研究人員指出,隨著更多數(shù)據(jù)的加入,模型的泛化能力有望進(jìn)一步提升。
![]()
圖7. 257個(gè)外部文獻(xiàn)反應(yīng)示例的預(yù)測(cè)產(chǎn)率與實(shí)驗(yàn)產(chǎn)率
總而言之,這項(xiàng)研究不僅構(gòu)建了一個(gè)高性能的酰胺偶聯(lián)反應(yīng)產(chǎn)率預(yù)測(cè)模型,更重要的是,它通過引入“中間知識(shí)”和嚴(yán)格的評(píng)估方法,顯著提升了模型的泛化能力和實(shí)際應(yīng)用價(jià)值。它從單純的“預(yù)測(cè)”走向了更具指導(dǎo)意義的“推薦”,為化學(xué)家提供了強(qiáng)大的智能工具,有望加速新藥的發(fā)現(xiàn)和開發(fā)進(jìn)程。
![]()
圖8. 一些外部文獻(xiàn)反應(yīng)實(shí)例的預(yù)測(cè)結(jié)果
03
![]()
總結(jié)
這項(xiàng)研究揭示了“中間知識(shí)”在提升模型性能和泛化能力方面所扮演的關(guān)鍵角色。它證明復(fù)雜化學(xué)反應(yīng)體系中,僅僅依靠輸入和輸出數(shù)據(jù)進(jìn)行模式識(shí)別是遠(yuǎn)遠(yuǎn)不夠的。將化學(xué)反應(yīng)的內(nèi)在機(jī)理,如中間體的形成和轉(zhuǎn)化,以結(jié)構(gòu)化的方式嵌入到機(jī)器學(xué)習(xí)模型中,能夠極大地增強(qiáng)模型的理解能力和預(yù)測(cè)精度。這為未來化學(xué)人工智能的發(fā)展指明了方向:即從純粹的數(shù)據(jù)驅(qū)動(dòng)走向數(shù)據(jù)與知識(shí)雙輪驅(qū)動(dòng),構(gòu)建更具解釋性、更符合化學(xué)直覺的智能模型。
參考文獻(xiàn)
Chonghuan Zhang, Qianghua Lin, Chenxi Yang, Yaxian Kong, Zhunzhun Yu and Kuangbiao Liao Intermediate knowledge enhanced the performance of the amide coupling yield prediction model. Chemical Science, 2025, 16, 11809-11822.
聲明:
1. 版權(quán):推送內(nèi)容僅供學(xué)習(xí)交流分享使用,無任何商業(yè)用途,如有侵權(quán),請(qǐng)聯(lián)系后臺(tái)刪除或修改,感謝支持。
2. 投稿:非常歡迎各位老師在公眾號(hào)上介紹課題組前沿或經(jīng)典研究成果!后臺(tái)或郵箱聯(lián)系即可!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.