生成式AI加速抗病毒藥物開發(fā),提高藥物發(fā)現(xiàn)潛力
新興藥物靶蛋白的抑制劑發(fā)現(xiàn)具有挑戰(zhàn)性,特別是當(dāng)靶結(jié)構(gòu)或活性分子未知時。
IBM 研究院、牛津大學(xué)和 Diamond Light Source 公司的合作團隊,通過實驗驗證了深度生成框架的廣泛實用性,他們的框架在蛋白質(zhì)序列、小分子及其相互相互作用上進行了大規(guī)模訓(xùn)練,不偏向任何特定目標(biāo)。
研究人員在生成基礎(chǔ)模型上進行了蛋白質(zhì)序列條件采樣,為兩個不同的靶點設(shè)計小分子抑制劑:刺突蛋白受體結(jié)合域(RBD)和 SARS-CoV-2 的主要蛋白酶。
盡管在模型推斷過程中僅使用靶序列信息,但在每個靶合成的四個候選物中,有兩個在體外觀察到微摩爾水平的抑制。最有效的刺突 RBD 抑制劑在活病毒中和試驗中表現(xiàn)出針對多種變體的活性。這表明,即使在缺乏目標(biāo)結(jié)構(gòu)或結(jié)合物信息的情況下,用于加速抑制劑發(fā)現(xiàn)的單一的、可廣泛部署的生成基礎(chǔ)模型也是有效且高效的。
該研究以「Accelerating drug target inhibitor discovery with a deep generative foundation model」為題,于 2023 年 6 月 21 日發(fā)布在《Science Advances》。
從頭分子設(shè)計具有挑戰(zhàn)性
從頭分子設(shè)計,即提出具有所需特性的先前未識別的化合物,是藥物發(fā)現(xiàn)和材料工程應(yīng)用中的一個具有挑戰(zhàn)性的問題。
例如,尋找那些作為進一步設(shè)計候選藥物的化學(xué)起點的抑制劑化合物,通常涉及采用對含有標(biāo)準(zhǔn)化合物或較小化學(xué)片段的文庫進行高通量篩選,但這類方法的成功率在 0.5% 到 1% 之間,具體取決于篩選的文庫大?。ㄍǔ<s為 10^4 個條目)和目標(biāo)特征。
成功率低的部分原因是搜索空間巨大,目前估計涵蓋 10^33 到 10^80 個可行分子,其中通常只有一小部分具有所尋求的特征;因此通過實驗來依次篩選是不可行的。
除了需要數(shù)千次篩選實驗之外,文庫的初始選擇通常還需要與已報道的配體結(jié)合的目標(biāo)蛋白的詳細(xì)結(jié)構(gòu)信息,而這些信息通常不容易獲得。最后,由于基礎(chǔ)設(shè)施、化合物和試劑的成本,導(dǎo)致抑制劑發(fā)現(xiàn)可能非常昂貴。
因此,迫切需要一種更有效的方法,以便能夠從廣闊的化學(xué)空間(包括尚未合成的分子)中蒸餾出以前未識別的和有前途的分子。這種方法將能夠?qū)σ恍〔糠趾蜻x藥物進行實驗驗證,從而以更少的時間和成本提高抑制劑的發(fā)現(xiàn)率。
DL可應(yīng)對挑戰(zhàn)但也有局限性
基于深度學(xué)習(xí)的生成模型有可能以「無規(guī)則」的方式發(fā)現(xiàn)具有所需功能的先前未識別的分子,因為他們的目標(biāo)是首先學(xué)習(xí)已知化學(xué)物質(zhì)的密集、連續(xù)表示(以下稱為潛在向量),然后修改潛在向量以解碼為看不見的分子。因此,此類模型提供了進入以前未探索的化學(xué)空間的機會,不受人類有意識偏見的限制。
然而,對于目標(biāo)特異性藥物樣抑制劑設(shè)計的任務(wù),必須使用「反向分子設(shè)計」方法,其中通過學(xué)習(xí)的化學(xué)表示的導(dǎo)航是由分子屬性屬性引導(dǎo)的,例如目標(biāo)抑制活性和藥物相似性。在針對先前未識別的靶標(biāo)設(shè)計抑制劑的情況下,需要足夠量的示范分子,而這可能是無法獲得的,并且需要昂貴且耗時的篩選實驗才能獲得。
由于大多數(shù)現(xiàn)有的深度生成框架仍然依賴于從特定目標(biāo)的結(jié)合劑化合物庫中學(xué)習(xí),因此它們限制了對已知和整體分子的固定庫之外的探索,同時阻止了機器學(xué)習(xí)框架對先前未識別的目標(biāo)的泛化。
因此,雖然一些使用深度生成模型進行目標(biāo)特異性抑制劑設(shè)計的研究已經(jīng)過實驗驗證,但尚未有報道稱這些模型能夠在不同的蛋白質(zhì)靶點上發(fā)現(xiàn)經(jīng)過驗證的抑制劑,而無需獲得詳細(xì)的靶點特異性先前結(jié)合數(shù)據(jù)(例如靶點結(jié)合劑分子)。
一種新的深度生成模型
IBM 研究院、牛津大學(xué)和 Diamond Light Source 公司的聯(lián)合團隊,展示了基于深層生成基礎(chǔ)模型的單一、統(tǒng)一的抑制劑設(shè)計框架在不同靶蛋白上的現(xiàn)實應(yīng)用性。生成框架只需要更容易獲得的目標(biāo)序列信息來指導(dǎo)設(shè)計。此外,該工作考慮了(i)設(shè)計命中的脫靶結(jié)合,以考慮潛在的下游不利影響,(ii)即使在未知結(jié)合物的情況下也能識別命中,以及(iii)優(yōu)先考慮易于合成的化合物。
「開發(fā)和驗證這些方法需要時間,但現(xiàn)在我們有了工作流程,可以更快地生成結(jié)果?!?該研究的共同高級作者、IBM 研究院研究員 Payel Das 說,「當(dāng)下一種病毒出現(xiàn)時,生成人工智能可能在尋找新療法中發(fā)揮關(guān)鍵作用。」
論文的聯(lián)合資深作者 Martin Walsh 表示:「生成與感興趣的藥物靶標(biāo)具有高親和力結(jié)合的初始化合物,可以加速基于結(jié)構(gòu)的藥物發(fā)現(xiàn)流程,并支持我們?yōu)槲磥淼牧餍胁∽龊酶脺?zhǔn)備的努力。」
由 CogMol 驅(qū)動的抑制劑發(fā)現(xiàn)工作流程概述
研究人員使用 CogMol(一種深度生成模型)針對兩個重要且獨特的 SARS-CoV-2 靶標(biāo)提出了先前未識別的且化學(xué)上可行的抑制劑設(shè)計:刺突 (S) 蛋白和主蛋白酶 (M^pro) 蛋白的受體結(jié)合域 (RBD)。
深層生成框架建立在化學(xué)分子、蛋白質(zhì)序列和蛋白質(zhì)-配體結(jié)合數(shù)據(jù)的大規(guī)模數(shù)據(jù)之上,作為目標(biāo)感知抑制劑分子設(shè)計的生成基礎(chǔ)模型,無需對特定目標(biāo)數(shù)據(jù)進行任何進一步微調(diào),并且可以外推到原始訓(xùn)練數(shù)據(jù)中不存在的目標(biāo)序列。因此,CogMol 框架的這種廣泛通用性將其置于新興的「基礎(chǔ)模型」類別中,這些模型是在大量未標(biāo)記數(shù)據(jù)上進行預(yù)訓(xùn)練的,并且可以通過最少的微調(diào)用于不同的下游任務(wù)。
由 CogMol 設(shè)計的一組先前未識別的針對 SARS-CoV-2 蛋白的分子,于 2020 年 4 月在知識共享許可下在 IBM COVID-19 Molecule Explorer 平臺上共享。在這里,研究人員通過合成和測試一些針對 S 蛋白和 M^pro 蛋白的 SARS-CoV-2 RBD 的優(yōu)先設(shè)計的抑制活性,對 CogMol 深度生成框架的廣泛實用性和就緒性進行了首次實驗驗證。
該團隊對類先導(dǎo)化學(xué)物質(zhì)庫進行虛擬篩選,進一步證明了 CogMol 框架中使用的結(jié)合親和力預(yù)測模型的適用性,并通過晶體學(xué)分析成功鑒定出三種化合物,證實其結(jié)合在M^pro的活性位點上,其中一種化合物表現(xiàn)出微摩爾抑制作用。
該研究首次提供了單一生成機器智能框架的經(jīng)過驗證的演示,該框架可以在設(shè)計過程中僅使用蛋白質(zhì)序列信息,以高成功率為不同的蛋白質(zhì)藥物靶點提出先前未識別的有前途的抑制劑。
所設(shè)計的刺突抑制劑針對所關(guān)注的 SARS-CoV-2 變體表現(xiàn)出廣譜抗病毒活性,進一步確立了這種深層生成框架加速和自動化命中發(fā)現(xiàn)周期的潛力,該過程已知產(chǎn)量低、損耗率高,但也增進了研究人員對較少探索的藥物靶點的科學(xué)認(rèn)識。
「我們使用生成基礎(chǔ)模型為加速抗病毒藥物的開發(fā)創(chuàng)造了有效的起點,而該模型對其蛋白質(zhì)靶標(biāo)知之甚少。」 該研究的共同高級作者、IBM 研究院研究員、牛津大學(xué)教授 Jason Crain 說,「我希望這些方法將使我們能夠在未來更快、更便宜地制造抗病毒藥物和其他急需的化合物?!?/p>
-
焦點事件
-
焦點事件
-
產(chǎn)品技術(shù)
-
焦點事件
-
企業(yè)風(fēng)采
-
投融資
-
投融資
-
焦點事件
-
科技前沿
-
市場商機
-
焦點事件
-
焦點事件
-
焦點事件
-
焦點事件