做特色創(chuàng)意菜品的網站百度的營銷中心上班怎么樣
ColdDTA發(fā)表在Computers in Biology and Medicine 的一篇一區(qū)文章
突出
?
數(shù)據增強和基于注意力的特征融合用于藥物靶點結合親和力預測。
?
與其他方法相比,它在 Davis、KIBA 和 BindingDB 數(shù)據集上顯示出競爭性能。
?
可視化模型權重可以獲得可解釋的見解。
文章目錄
- ColdDTA發(fā)表在Computers in Biology and Medicine 的一篇一區(qū)文章
- 前言
- 一、摘要
- 二、引言
- 三、方法
- 1.概述
- 2.數(shù)據增強策略
- 3.藥物特征提取模塊
- 4.蛋白質特征提取模塊
- 5.藥物-靶點融合模塊
- 6.預測模塊
- 7.數(shù)據集
- 四、實驗
- 1.評估指標
- 2.實驗設置
- 3.coldDTA的模型性能
- 4.消融研究
- 5.模型解釋
- 總結
前言
提示:這里可以添加本文要記錄的大概內容:
例如:隨著人工智能的不斷發(fā)展,機器學習這門技術也越來越重要,很多人都開啟了學習機器學習,本文就介紹了機器學習的基礎內容。
提示:以下是本篇文章正文內容,下面案例可供參考
一、摘要
藥物靶點親和力(DTA)的準確預測在藥物發(fā)現(xiàn)和開發(fā)中起著至關重要的作用。最近,深度學習方法在隨機拆分的公共數(shù)據集上顯示出優(yōu)異的預測性能。然而,仍然需要對這種拆分方法進行驗證,以反映實際應用中的實際問題。在冷啟動實驗設置中,測試集中的藥物或蛋白質不會出現(xiàn)在訓練集中,深度學習模型的性能通常會顯著下降。這表明提高模型的泛化能力仍然是一個挑戰(zhàn)。為此,在本研究中,我們提出了ColdDTA:利用數(shù)據增強和基于注意力的特征融合來提高預測藥物-靶標結合親和力的泛化能力。具體來說,ColdDTA通過去除藥物的子圖來生成新的藥物-靶標對。基于注意力的特征融合模塊也用于更好地捕捉藥物-靶點的相互作用。我們在三個基準數(shù)據集上進行了冷啟動實驗,Davis 和 KIBA 數(shù)據集上的一致性指數(shù) (CI) 和均方誤差 (MSE) 結果表明,ColdDTA 優(yōu)于五種最先進的基線方法。同時,BindingDB數(shù)據集上的受試者工作特征下面積(ROC-AUC)結果表明,ColdDTA在分類任務上也具有更好的性能。此外,可視化模型權重可以獲得可解釋的見解??傮w而言,ColdDTA可以較好地解決現(xiàn)實的DTA預測問題。該代碼已向公眾開放。
二、引言
藥物開發(fā)是一個漫長而昂貴的過程。根據調查,開發(fā)一種新藥大約需要13年時間,成本為0.6-26億美元,成功率不到10%[1]。這促使人們使用計算方法來降低成本和提高效率。藥物分子與具有適當化學特性和親和力的靶標結合的過程是治愈疾病的關鍵標準之一。因此,準確預測藥物-靶標結合親和力對于藥物發(fā)現(xiàn)至關重要[2]。
使用計算機進行藥物靶標親和力(DTA)預測的方法可分為基于結構的方法、基于配體的方法和混合方法[3]。分子對接是最早和使用最廣泛的基于結構的方法之一。然而,這種方法需要蛋白質的3D結構和較長的計算時間,即使是現(xiàn)在,仍然有大量未知的蛋白質結構。盡管AlphaFold2能夠預測大多數(shù)蛋白質[4],但并非所有結果都非常準確[5]?;谂潴w的方法假設具有相似化學性質的藥物分子具有相同的化學活性,因此可以與相似的靶標相互作用。然而,當已知配體數(shù)量不足時,基于配體的方法的預測結果往往變得不可靠。混合方法有望克服上述局限性。其中之一,傳統(tǒng)的機器學習方法,如支持向量機(SVM)和隨機森林(RF),需要特征工程來提取藥物和蛋白質特征[6],特征工程非常耗時,并且會因信息丟失而影響預測性能。近年來,已經開發(fā)了幾種深度學習方法,如DeepDTA [7]和GraphDTA [8],用于藥物-靶標相互作用預測。
一些深度學習模型使用基于序列的輸入數(shù)據,如WideDTA [9],用簡化分子輸入線輸入系統(tǒng)(SMILES)表示藥物,用氨基酸序列表示蛋白質,然后通過卷積神經網絡(CNN)或遞歸神經網絡提取特征(RNN)。
但這種方法缺乏分子拓撲結構。
為了彌補這一不足,許多方法將藥物視為圖結構,化合物的原子和化學鍵對應于圖的頂點和邊緣,然后通過圖神經網絡(GNN)進行特征提取。DeepGS [10]、MolTrans [11]和MgraphDTA [12]都以圖表示藥物,并在一些公共數(shù)據集上表現(xiàn)出優(yōu)異的預測性能。同樣,一些研究也關注蛋白質在藥物靶標結合過程中的作用,其中 DrugVQA [13]、AttentionSiteDTI [14] 和 GSAML-DTA [15] 使用接觸圖來表示蛋白質,實驗結果表明,使用蛋白質的 3D 結構可以做出更好的預測。Transformer [16] 也被用于預測藥物-靶標相互作用。Chen等人提出的TransformerCPI模型將藥物-靶標相互作用視為二元分類問題,并使用編碼器-解碼器架構進行模型訓練,最終預測兩者是否可以相互作用[17]。
一些深度學習模型使用基于序列的輸入數(shù)據,如WideDTA [9],用簡化分子輸入線輸入系統(tǒng)(SMILES)表示藥物,用氨基酸序列表示蛋白質,然后通過卷積神經網絡(CNN)或遞歸神經網絡提取特征(RNN)。但這種方法缺乏分子拓撲結構。為了彌補這一不足,許多方法將藥物視為圖結構,化合物的原子和化學鍵對應于圖的頂點和邊緣,然后通過圖神經網絡(GNN)進行特征提取。DeepGS [10]、MolTrans [11]和MgraphDTA [12]都以圖表示藥物,并在一些公共數(shù)據集上表現(xiàn)出優(yōu)異的預測性能。同樣,一些研究也關注蛋白質在藥物靶標結合過程中的作用,其中 DrugVQA [13]、AttentionSiteDTI [14] 和 GSAML-DTA [15] 使用接觸圖來表示蛋白質,實驗結果表明,使用蛋白質的 3D 結構可以做出更好的預測。Transformer [16] 也被用于預測藥物-靶標相互作用。Chen等人提出的TransformerCPI模型將藥物-靶標相互作用視為二元分類問題,并使用編碼器-解碼器架構進行模型訓練,最終預測兩者是否可以相互作用[17]。
盡管一些深度學習方法在DTA問題上表現(xiàn)出出色的預測性能,但這些方法大多是在隨機拆分的數(shù)據集上進行評估的(測試集中的藥物和目標已經出現(xiàn)在訓練集中),這可能導致信息泄露,使結果過于樂觀[18]。從應用的角度來看,大多數(shù)蛋白質或藥物不會出現(xiàn)在訓練集中[19]。當數(shù)據集根據更現(xiàn)實的場景進行拆分時,許多模型的預測性能急劇下降[20],有時預測性能比傳統(tǒng)機器學習方法更差[21]。這表明當前DTA模型的泛化能力仍有待提高。
為了提高模型的泛化能力,使其在真實場景中發(fā)揮更大的作用,我們首先考慮了數(shù)據增強方法的運用。數(shù)據增強方法已廣泛應用于計算機視覺[[22],[23],[24]]和自然語言處理[[25],[26],[27]],并已被證明可以有效提高模型泛化。還提出了多種有效的數(shù)據增強方法來預測分子特性[28,29]。然而,據我們所知,數(shù)據增強尚未用于提高使用分子圖表示藥物的 DTA 預測方法的泛化性能。這可能是由于生物化學告訴我們,化合物中原子的微小變化也可能導致分子物理和化學性質的顯著變化,以及小藥物分子與靶標之間結合親和力的變化。如圖1所示,對于鄰苯二酚分子,去除一些原子為苯酚會將其水溶性從溶于水變?yōu)槲⑷苡谒?。另一方?#xff0c;特征融合是指來自不同層或分支的特征的組合,在現(xiàn)代網絡架構中無處不在,使用合理的特征融合方法可以有效提高模型性能。但現(xiàn)有的大多數(shù)DTA預測方法只是簡單地將藥物和蛋白質的特征串聯(lián)起來,進行最終結果預測,這限制了藥物與靶點之間的相互作用,限制了模型的預測和泛化性能。
圖 1.影響其性質的原子變化的圖示。
在這項工作中,我們提出了一種稱為ColdDTA的藥物靶標親和力訓練方法,該方法使用數(shù)據增強和基于注意力的特征融合來預測藥物和蛋白質之間的結合親和力。具體來說,在數(shù)據處理階段,將一定比例的藥物子圖移除,并與原始目標構成新的數(shù)據對,然后在訓練階段使用。此外,ColdDTA使用藥物-蛋白質特征融合模塊來取代簡單的特征串聯(lián)。通過對兩個基準數(shù)據集進行實驗,我們發(fā)現(xiàn)與其他方法相比,ColdDTA的整體性能最佳。我們的消融實驗結果也證明了數(shù)據增強方法和藥物-靶點融合模塊的有效性。本研究的主要貢獻總結如下:
1.
采用一種新的數(shù)據增強方法,通過去除藥物的子圖,與原目標形成新的數(shù)據對,可以有效提高模型的泛化能力。
該文提出一種基于注意力的藥物與靶點數(shù)據融合方法,該方法能夠更好地將藥物特征與蛋白質特征融合,有利于模型進行親和值預測。
在兩個公開數(shù)據集上進行了大量實驗,驗證了在接近真實實驗環(huán)境的數(shù)據集設置下,ColdDTA的預測能力與基線模型相比有顯著提高。此外,實驗還證明了數(shù)據增強和藥物靶點融合的有效性。
三、方法
1.概述
我們提出了一種稱為ColdDTA的端到端訓練方法來提高DTA預測性能。我們對 DTA 問題的定義如下:讓
是一批標記的數(shù)據,其中
是小分子藥物的SMILES表示,
是蛋白質,并且
是通過實驗獲得的結合親和力值。模型的整體訓練過程如圖 2 所示。它由數(shù)據增強模塊、藥物特征提取模塊、蛋白質特征提取模塊、藥物-靶點融合模塊和預測模塊五部分組成。
圖 2.擬議的 ColdDTA 的框架。首先,去除藥物的子圖,并與原始蛋白質形成新的對。其次,利用GNN和CNN分別提取分子圖和蛋白質的特征;第三,將上一步的特征輸入到藥物-靶點融合模塊進行交互,以獲得更有效的特征表示。最后,將融合特征輸入MLP以預測結合親和力。
2.數(shù)據增強策略
數(shù)據增強是提高神經網絡數(shù)據效率、增強泛化性能的必要條件[30]。使用數(shù)據增強方法可以提高模型的預測性能似乎很明顯,但很少有研究使用這種策略來預測藥物-靶點相互作用預測問題,因此我們在DTA預測中引入了一種新的數(shù)據增強策略。具體來說,在藥物-靶點配對中,我們首先隨機選擇分子圖中的一個原子作為起始節(jié)點,然后去除起始節(jié)點并遞歸地去除其相鄰節(jié)點,直到去除一定比例的子圖,而相應的靶點和結合親和力保持不變。在這個過程中,原子基團的去除是完全隨機的,這類似于分子性質預測的對比學習[31]。圖 3 顯示了數(shù)據增強過程的輸出。在訓練階段,一對藥物化合物和靶蛋白通過去除子圖產生多個新對。需要注意的是,在測試階段不會刪除任何子圖。
藥物-靶點相互作用(DTI)預測是利用計算方法和模型來預測藥物與生物靶點之間的相互作用。這一領域可以幫助研究人員了解藥物的作用機制、發(fā)現(xiàn)新的藥物靶點以及篩選候選藥物。近年來,許多融合深度藥物和靶點相互作用特征的DTI模型出現(xiàn),彌補了淺層藥物和靶點特征信息不完整的困境1。
在藥物-靶點配對中,數(shù)據增強是一種常用的技術,旨在提高模型的性能。具體來說,數(shù)據增強過程通常包括以下步驟:
- 起始節(jié)點選擇:從藥物分子圖中隨機選擇一個原子作為起始節(jié)點。
- 遞歸去除子圖:去除起始節(jié)點并遞歸地去除其相鄰節(jié)點,直到去除一定比例的子圖。
- 保持靶點和結合親和力不變:在去除子圖的過程中,保持相應的靶點和結合親和力不變。
- 隨機原子基團去除:原子基團的去除是完全隨機的,類似于分子性質預測的對比學習。
- 訓練階段生成新對:在訓練階段,一對藥物化合物和靶蛋白通過去除子圖產生多個新對。
- 測試階段不刪除子圖:需要注意的是,在測試階段不會刪除任何子圖。
這樣的數(shù)據增強方法有助于提高模型的泛化能力,使其在測試集上表現(xiàn)更好。12
如果你對藥物-靶點相互作用預測還有其他問題,歡迎繼續(xù)提問!
Source: Conversation with Bing, 04/05/2024
(1) 論文筆記38|Flexible drug-target interaction prediction with interactive … https://zhuanlan.zhihu.com/p/689761796.
(2) ColdDTA:利用數(shù)據增強和基于注意力的特征融合進行藥物靶標結合親和力預測-CSDN博客. https://blog.csdn.net/weixin_46042619/article/details/138422638.
(3) 打破藥物靶點親和力預測中數(shù)據稀缺的障礙。,Briefings in Bioinformatics - X-MOL. https://www.x-mol.com/paper/1729938709820493824/t.
(4) AI再發(fā)力?基于結構的高精度對接,如何致力更精準藥物設計?. https://www.drugtimes.cn/2023/04/11/aizaifalijiyujiegoudegaojingduduijieruhezhiligengjingzhun/.
在這篇文章中,分子性質預測的對比學習是一種數(shù)據增強策略,用于提高模型在藥物靶點親和力(DTA)預測中的泛化能力。具體來說,這種策略通過隨機去除藥物分子圖中的原子基團來生成新的藥物-靶標對,從而增加訓練數(shù)據的多樣性。這類似于計算機視覺中的對比學習,其中通過對圖像進行隨機變換來創(chuàng)建正負樣本對,以幫助模型學習區(qū)分不同的特征。在這里,通過去除原子基團,模型可以學習到更多關于藥物分子結構和功能的信息,這有助于提高其在新藥物或靶標上的預測準確性。
3.藥物特征提取模塊
在圖卷積網絡(GCN)中,每個原子的特征向量通常是通過考慮原子類型、原子雜化模式、氫原子總數(shù)和原子價等屬性來計算的。這些特征向量可以幫助模型理解分子的化學性質。下面是一個簡化的例子,展示了如何計算一個原子的特征向量:
-
原子類型:為每種原子類型分配一個獨熱編碼(one-hot encoding)。例如,如果我們只考慮碳(C)、氮(N)、氧(O)和氫(H),那么碳可以表示為 [ 1 , 0 , 0 , 0 ] [1, 0, 0, 0] [1,0,0,0],氮為 [ 0 , 1 , 0 , 0 ] [0, 1, 0, 0] [0,1,0,0],依此類推。
-
原子雜化模式:同樣使用獨熱編碼來表示。例如,sp3雜化可以表示為 [ 1 , 0 , 0 ] [1, 0, 0] [1,0,0],sp2為 [ 0 , 1 , 0 ] [0, 1, 0] [0,1,0],sp為 [ 0 , 0 , 1 ] [0, 0, 1] [0,0,1]。
-
氫原子總數(shù)和原子價:這些可以直接用數(shù)值表示,例如,一個碳原子可能有4個氫原子,原子價為4。
將這些特征組合起來,就可以得到一個原子的特征向量。例如,一個sp3雜化的碳原子,有4個氫原子,原子價為4,其特征向量可以是 [ 1 , 0 , 0 , 0 , 1 , 0 , 0 , 4 , 4 ] [1, 0, 0, 0, 1, 0, 0, 4, 4] [1,0,0,0,1,0,0,4,4]。
在圖卷積網絡中,每個頂點(原子)的特征不僅包括其自身的特征,還包括其相鄰頂點(原子)的特征。通過多輪的特征聚合,每個頂點可以收集到越來越廣泛的鄰域信息。這通常是通過以下步驟實現(xiàn)的:
-
聚合:對于每個頂點,收集其所有鄰居的特征,并將它們聚合成一個單一的向量。這可以通過求和、平均或其他聚合函數(shù)來完成。
-
更新:將聚合后的鄰居特征與頂點自身的特征結合起來,通常是通過一個神經網絡層來實現(xiàn),以生成新的頂點特征。
-
傳播:重復上述過程多輪,每一輪都會更新頂點的特征,使其包含更遠距離鄰居的信息。
通過這種方式,模型可以捕捉到分子結構中的局部和全局信息,從而更好地預測分子的性質。這種方法在藥物發(fā)現(xiàn)和材料科學中特別有用,因為它允許模型學習復雜的分子結構-性質關系。
當然可以。在圖神經網絡(GNN)的上下文中,公式(1)通常表示為一個更新規(guī)則,用于在每次迭代中更新圖中頂點的特征向量。這里是公式(1)的一般形式及其組成部分的解釋:
h i ( k + 1 ) = U k ( h i ( k ) , ∑ j ∈ N ( i ) h j ( k ) ) h_i^{(k+1)} = U_k \left( h_i^{(k)}, \sum_{j \in N(i)} h_j^{(k)} \right) hi(k+1)?=Uk? ?hi(k)?,j∈N(i)∑?hj(k)? ?
-
( h_i^{(k+1)} ): 這是頂點i在第k+1輪迭代后的特征向量。它是模型試圖學習的新特征,包含了頂點自身以及其鄰居的信息。
-
( U_k ): 這是一個更新函數(shù),通常是一個神經網絡層,如全連接層或更復雜的結構。它負責將頂點的當前特征和其鄰居的特征結合起來,生成新的特征向量。
-
( h_i^{(k)} ): 這是頂點i在第k輪迭代的特征向量。它代表了頂點在當前迭代之前的狀態(tài)。
-
( \sum_{j \in N(i)} h_j^{(k)} ): 這是頂點i所有鄰居頂點在第k輪迭代的特征向量之和。這個求和過程是特征聚合的一部分,它允許頂點收集其鄰居的信息。
在每次迭代中,每個頂點都會通過聚合鄰居的特征并結合自身的特征來更新其特征向量。這個過程允許GNN捕捉到圖中頂點的局部連接模式,從而學習到更豐富的頂點表示。這種特征的更新和傳播對于理解復雜的圖結構,如分子結構,以及預測其性質,如藥物-靶標結合親和力等任務至關重要。
在圖神經網絡(GNN)中,公式 ( (1+w)h_i + h_j ) 的集合表示頂點 ( i ) 的特征向量 ( h_i ) 與其鄰居 ( j ) 的特征向量 ( h_j ) 之間的關系。這里的加法操作是為了聚合頂點 ( i ) 自身的信息和其鄰居的信息。這種聚合有助于模型捕捉到圖中的局部結構信息,從而更好地理解分子的性質或社交網絡中的關系模式。
-
為什么要相加:
- 聚合鄰居信息:通過將頂點 ( i ) 的特征與其所有鄰居的特征相加,我們可以聚合鄰域信息,這對于理解頂點在圖中的角色至關重要。
- 捕捉局部結構:加法操作使得每個頂點的特征不僅包含自身的信息,還包含其鄰居的信息,這有助于模型學習到頂點的局部連接模式。
-
( w ) 的值是怎么來的:
- 可學習的參數(shù):( w ) 是一個權重參數(shù),它在模型訓練過程中通過反向傳播算法學習得到。它的作用是調整頂點自身特征在特征更新過程中的重要性。
- 優(yōu)化目標:( w ) 的值是為了最小化模型在特定任務上的損失函數(shù),例如分類誤差或回歸誤差,從而使模型能夠更準確地預測。
在實際應用中,( w ) 和 ( h ) 的具體值將通過模型訓練確定,通常是使用梯度下降或其他優(yōu)化算法來調整這些參數(shù),以便模型能夠在給定的任務上表現(xiàn)最好。
讓我們通過一個具體的例子來看看如何在圖神經網絡(GNN)中更新頂點的特征向量。
假設我們有一個小分子,它由三個原子組成:一個碳原子(C),一個氧原子(O),和一個氫原子(H)。我們將使用一個簡化的圖卷積網絡來更新這些原子的特征向量。
-
初始特征向量:
- 碳原子(C): h C ( 0 ) = [ 1 , 0 , 0 , 0 , 4 ] h_C^{(0)} = [1, 0, 0, 0, 4] hC(0)?=[1,0,0,0,4]
- 氧原子(O): h O ( 0 ) = [ 0 , 1 , 0 , 2 , 6 ] h_O^{(0)} = [0, 1, 0, 2, 6] hO(0)?=[0,1,0,2,6]
- 氫原子(H): h H ( 0 ) = [ 0 , 0 , 1 , 1 , 1 ] h_H^{(0)} = [0, 0, 1, 1, 1] hH(0)?=[0,0,1,1,1]
這里,我們假設特征向量包含原子類型的獨熱編碼和原子價。
-
鄰居特征聚合:
- 假設碳原子(C)和氧原子(O)相連,氫原子(H)和碳原子(C)相連。
- 在第一輪迭代中,我們聚合每個原子的鄰居特征向量。
-
特征更新:
- 使用一個簡單的更新函數(shù),例如元素加和,來更新每個原子的特征向量。
例如,對于碳原子(C),其更新后的特征向量可以通過以下方式計算:
h C ( 1 ) = h C ( 0 ) + ∑ j ∈ N ( C ) h j ( 0 ) h_C^{(1)} = h_C^{(0)} + \sum_{j \in N(C)} h_j^{(0)} hC(1)?=hC(0)?+j∈N(C)∑?hj(0)?
這里,( N? ) 表示碳原子的鄰居集合,即氧原子(O)和氫原子(H)。因此,我們有:
h C ( 1 ) = [ 1 , 0 , 0 , 0 , 4 ] + [ 0 , 1 , 0 , 2 , 6 ] + [ 0 , 0 , 1 , 1 , 1 ] h_C^{(1)} = [1, 0, 0, 0, 4] + [0, 1, 0, 2, 6] + [0, 0, 1, 1, 1] hC(1)?=[1,0,0,0,4]+[0,1,0,2,6]+[0,0,1,1,1]
h C ( 1 ) = [ 1 , 1 , 1 , 3 , 11 ] h_C^{(1)} = [1, 1, 1, 3, 11] hC(1)?=[1,1,1,3,11]
這個新的特征向量 ( h_C^{(1)} ) 現(xiàn)在包含了碳原子自身的信息以及其鄰居的信息。通過這種方式,GNN能夠在每次迭代中捕捉到更多的局部結構信息。
請注意,這只是一個非常簡化的例子,實際的GNN模型會使用更復雜的特征和更新函數(shù)。此外,為了提高模型的性能,通常會使用非線性激活函數(shù)和可學習的參數(shù)。如果您需要更詳細的解釋或有其他問題,請告訴我!
公式(2)描述了如何計算整個分子圖的特征向量。這里, y G \mathbf{y}_G yG? 是分子圖的特征向量, h v ( k ) \mathbf{h}_v(k) hv?(k) 是時間步長 k k k 時頂點 v v v 的特征向量, ∣ V ∣ |V| ∣V∣ 是分子圖中頂點的數(shù)量。公式可以表示為:
y G = 1 ∣ V ∣ ∑ v ∈ V h v ( k ) \mathbf{y}_G = \frac{1}{|V|} \sum_{v \in V} \mathbf{h}_v(k) yG?=∣V∣1?v∈V∑?hv?(k)
這個公式通過對所有頂點的特征向量進行平均,來得到整個圖的特征向量。這是圖神經網絡中常用的一個步驟,用于將圖中所有節(jié)點的信息匯總成一個全局的圖表示。
4.蛋白質特征提取模塊
5.藥物-靶點融合模塊
在當前頁面的部分2.4 "蛋白質特征提取模塊"中,公式(3)描述了如何通過一維卷積層(CNN)從蛋白質序列中提取特征。這里是公式的詳細解釋:
-
公式:
X p ( l + 1 ) = B ° δ ° F ( X p ( l ) ) \mathbf{X}_p^{(l+1)} = \mathbf{B} \circ \delta \circ \mathbf{F}(\mathbf{X}_p^{(l)}) Xp(l+1)?=B°δ°F(Xp(l)?) -
變量解釋:
- ( \mathbf{X}_p^{(l)} ):第 ( l ) 層的隱藏蛋白質表示。[1][1]
- ( \mathbf{X}_p^{(0)} ):初始輸入矩陣,即氨基酸序列的嵌入表示。
- ( \mathbf{F} ):CNN層,用于提取序列特征。
- ( \delta ):ReLU激活函數(shù),增加非線性。
- ( \mathbf{B} ):批量歸一化(BN),用于調整輸入分布,加速訓練。[2][2]
-
操作解釋:
- ( \circ ):函數(shù)組合操作,表示將一個函數(shù)的輸出作為另一個函數(shù)的輸入。
- 公式中,首先通過CNN層 ( \mathbf{F} ) 提取特征,然后應用ReLU激活函數(shù) ( \delta ) 增加非線性,最后進行批量歸一化 ( \mathbf{B} )。
這個過程在每個卷積層重復,以提取蛋白質序列的全局特征,為后續(xù)的藥物-靶點結合親和力預測提供信息。
圖卷積網絡(GCN)處理分子之間的連接關系的方式是通過考慮分子中原子(頂點)之間的化學鍵(邊)。在GCN中,每個原子由一個特征向量表示,而原子之間的化學鍵則通過圖中的邊來表示。這些邊決定了特征向量如何在網絡中傳播和更新。下面是GCN處理分子連接關系的基本步驟:
-
初始化特征向量:每個原子的初始特征向量通常包含原子類型、原子價、雜化類型等信息。
-
邊的表示:分子中的每個化學鍵都表示為圖中的一條邊。這些邊不僅表示原子之間的連接,還可以包含邊的類型,如單鍵、雙鍵或三鍵。
-
特征傳播:在每次迭代中,原子的特征向量會根據其鄰居(通過化學鍵連接的其他原子)的特征進行更新。這個過程通常涉及到特征的聚合和組合。
-
聚合函數(shù):定義一個聚合函數(shù)來收集鄰居的特征。這個函數(shù)可以是簡單的求和、平均或更復雜的操作,如加權求和,其中權重可以表示化學鍵的類型或強度。
-
更新規(guī)則:定義一個更新規(guī)則來結合原子自身的特征和聚合的鄰居特征,生成新的特征向量。這個規(guī)則通常是一個神經網絡層,如全連接層。
-
非線性激活:在每次特征更新后,通常會應用一個非線性激活函數(shù),如ReLU,以增加模型的表達能力。
通過這種方式,GCN能夠學習到分子結構的復雜模式,并用于預測分子的性質,如溶解度、毒性或藥物活性。這種方法在藥物發(fā)現(xiàn)和材料科學中特別有用,因為它允許模型學習復雜的分子結構-性質關系。
如果您需要更多具體的例子或有其他問題,請隨時告訴我!
20240503
公式(5)描述了藥物-靶點融合模塊中的第一次特征融合過程。這個過程使用了注意力權重 ( \mathbf{W}_1 ) 來結合藥物特征 ( \mathbf{f}_d ) 和蛋白質特征 ( \mathbf{f}p ),生成融合后的特征 ( \mathbf{f}{\text{out1}} )。具體來說,公式如下:
f out1 = W 1 ? f d + ( 1 ? W 1 ) ? f p \mathbf{f}_{\text{out1}} = \mathbf{W}_1 * \mathbf{f}_d + (1 - \mathbf{W}_1) * \mathbf{f}_p fout1?=W1??fd?+(1?W1?)?fp?
其中,( \mathbf{W}_1 ) 是通過另一個公式計算得到的注意力權重,它決定了在融合特征中藥物和蛋白質各自所占的比重。這個過程的目的是為了更好地捕捉藥物和蛋白質之間的相互作用信息,從而提高模型在藥物-靶點結合親和力預測任務中的性能和泛化能力。[1][1]
圖 4.擬議的藥物-靶點融合的圖示。
圖4展示了藥物-靶點融合模塊的工作原理,該模塊基于注意力機制來更好地捕捉藥物與蛋白質之間的相互作用。[1][1][2][2]以下是該模塊的具體操作步驟和運算符號解釋:
-
輸入特征:給定藥物特征 f d ∈ R d f_d \in \mathbb{R}^d fd?∈Rd 和蛋白質特征 f p ∈ R d f_p \in \mathbb{R}^d fp?∈Rd,它們具有相同的維度 d d d。
-
注意力權重計算:首先計算注意力權重 W 1 ∈ R d W_1 \in \mathbb{R}^d W1?∈Rd,使用以下公式:
W 1 = σ ° B ° θ ° δ ° B ° θ ( f d ⊕ f p ) W_1 = \sigma \circ B \circ \theta \circ \delta \circ B \circ \theta (f_d \oplus f_p) W1?=σ°B°θ°δ°B°θ(fd?⊕fp?)
其中, ⊕ \oplus ⊕ 表示元素加法, ° \circ ° 表示函數(shù)組合, θ \theta θ 表示線性層, δ \delta δ 表示ReLU激活函數(shù), B B B 表示批量歸一化, σ \sigma σ 表示Sigmoid函數(shù)。 -
特征融合:使用注意力權重進行第一次特征融合,得到新的特征 f o u t 1 ∈ R d f_{out1} \in \mathbb{R}^d fout1?∈Rd:
f o u t 1 = W 1 ? f d + ( 1 ? W 1 ) ? f p f_{out1} = W_1 * f_d + (1 - W_1) * f_p fout1?=W1??fd?+(1?W1?)?fp? -
二次注意力權重計算:為了提高融合特征的質量,再次使用注意力模塊計算新的融合權重 W 2 ∈ R d W_2 \in \mathbb{R}^d W2?∈Rd:
W 2 = σ ° B ° θ ° δ ° B ° θ ( f o u t 1 ) W_2 = \sigma \circ B \circ \theta \circ \delta \circ B \circ \theta (f_{out1}) W2?=σ°B°θ°δ°B°θ(fout1?) -
最終融合輸出:使用新的注意力權重 W 2 W_2 W2? 進行最終融合,得到最終輸出特征 f o u t 2 ∈ R d f_{out2} \in \mathbb{R}^d fout2?∈Rd:
f o u t 2 = W 2 ? f d + ( 1 ? W 2 ) ? f p f_{out2} = W_2 * f_d + (1 - W_2) * f_p fout2?=W2??fd?+(1?W2?)?fp?
這個基于注意力的特征融合方法有效地捕捉了藥物-靶點相互作用的信息,從而提高了DTA預測的準確性和模型的泛化能力。[1][1]**
6.預測模塊
當然可以。在2.6節(jié)中描述的預測模塊是藥物-靶點親和力(DTA)預測任務的核心部分。這個模塊通常使用前面提取和融合的特征來預測藥物分子與蛋白質靶點之間的結合親和力。以下是預測模塊的詳細解釋:
-
特征輸入:模塊接收來自藥物-靶點融合模塊的融合特征向量,這些特征向量包含了藥物分子和蛋白質靶點的重要信息。
-
全連接層:融合特征首先通過一個或多個全連接層(也稱為密集層),這些層可以進一步處理特征,提取更高級的表示。
-
激活函數(shù):全連接層后通常會有非線性激活函數(shù),如ReLU或Sigmoid,它們增加模型的非線性,使模型能夠捕捉更復雜的關系。
-
輸出層:最后,特征通過一個輸出層,該層通常只有一個神經元,用于預測親和力值。對于回歸任務,輸出層可能不使用激活函數(shù)或使用線性激活函數(shù)。
-
損失函數(shù):在訓練過程中,模型的輸出與真實的親和力值進行比較,計算損失函數(shù)(如均方誤差),并通過反向傳播更新模型的權重。
-
優(yōu)化算法:使用優(yōu)化算法(如梯度下降)來最小化損失函數(shù),從而調整模型參數(shù),提高預測的準確性。
整個預測模塊的目標是學習藥物分子和蛋白質靶點之間的復雜相互作用,并準確預測它們之間的結合親和力。這對于藥物設計和發(fā)現(xiàn)過程中識別潛在的藥物候選物非常重要。
如果您需要更多具體的信息或有其他問題,請隨時告訴我!
交叉熵損失(Cross-Entropy Loss)和均方誤差損失(Mean Squared Error, MSE Loss)是兩種常用的損失函數(shù),它們在機器學習模型的訓練中用于不同的目的:
-
交叉熵損失:
- 用途:通常用于分類問題,特別是二分類或多分類問題。
- 計算:測量實際輸出(概率分布)和預測輸出(概率分布)之間的差異。
- 公式:對于二分類問題,公式為 L ( y , y ^ ) = ? [ y log ? ( y ^ ) + ( 1 ? y ) log ? ( 1 ? y ^ ) ] L(y, \hat{y}) = -[y \log(\hat{y}) + (1 - y) \log(1 - \hat{y})] L(y,y^?)=?[ylog(y^?)+(1?y)log(1?y^?)],其中 ( y ) 是真實標簽,( \hat{y} ) 是預測概率。
- 特點:當預測錯誤時,懲罰(損失)較大,尤其是當預測概率與實際標簽相差很大時。
-
均方誤差損失:
- 用途:通常用于回歸問題,即預測連續(xù)值。
- 計算:測量實際輸出值和預測輸出值之間差異的平方的平均值。
- 公式: L ( y , y ^ ) = 1 n ∑ i = 1 n ( y i ? y ^ i ) 2 L(y, \hat{y}) = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 L(y,y^?)=n1?i=1∑n?(yi??y^?i?)2,其中 ( y_i ) 是真實值,( \hat{y}_i ) 是預測值,( n ) 是樣本數(shù)量。
- 特點:對于每個點的誤差都給予相同的權重,而且誤差的大小會被平方,因此對于較大誤差的懲罰更重。
總的來說,選擇哪種損失函數(shù)取決于具體的任務類型和目標。交叉熵損失更適合處理概率輸出的分類任務,而均方誤差損失更適合處理數(shù)值預測的回歸任務。如果您有更多問題或需要進一步的解釋,請隨時告訴我!
7.數(shù)據集
當然可以。這三個參數(shù)在藥物化學和酶學中非常重要,它們用于描述小分子與蛋白質或酶之間的相互作用強度。
-
解離常數(shù) (Kd): Kd 是指在化合物與其靶標蛋白質結合后,50%的復合物解離成游離狀態(tài)時對應的化合物濃度。Kd 值越小,表示親和力越強,即化合物與靶標蛋白質結合得越緊密?。
-
抑制常數(shù) (Ki): Ki 是指在酶促反應中,50%的酶被抑制劑結合時對應的游離抑制劑的濃度。Ki 值越小,抑制劑對酶的抑制能力越強?。
-
半最大抑制濃度 (IC50): IC50 是指在體外實驗中,能夠抑制特定生物過程(如酶活性、細胞增殖等)50%所需的抑制劑濃度。IC50 值用于衡量抑制劑的功效,值越小,抑制劑越有效1。
這些參數(shù)在藥物設計和評估中非常關鍵,因為它們可以幫助研究者理解藥物與其靶標之間的相互作用,并預測藥物的效力。
Source: Conversation with Bing, 04/05/2024
(1) KD 值:抗體親和力的定量測定 - Abcam中文官網. https://www.abcam.cn/primary-antibodies/kd-value-a-quantitive-measurement-of-antibody-affinity.
(2) IC50、EC50、Ki、Kd、Ka、Km、Kon、Koff傻傻分不清?可能是目前為止最詳盡討論文章 - 知乎. https://zhuanlan.zhihu.com/p/29900912.
(3) IC50 - Wikipedia. https://en.wikipedia.org/wiki/IC50.
(4) 50% of what? How exactly are IC50 and EC50 defined?. https://www.graphpad.com/support/faq/50-of-what-how-exactly-are-ic50-and-ec50-defined/.
(5) IC50 Calculator | AAT Bioquest. https://www.aatbio.com/tools/ic50-calculator.
(6) IC50、pIC50、EC50、ED50、Ki、Kd、KD、Ka、Km、Kon、Koff概念辨析 紐普生物. https://www.novopro.cn/articles/202001111199.html.
(7) 正確理解衡量蛋白質-小分子相互作用的生化指標Kd,Ki以及Km - 知乎. https://zhuanlan.zhihu.com/p/21656428.
DeepPurpose軟件包
是一個基于深度學習的分子建模和預測工具包,它支持藥物-靶點相互作用預測、化合物性質預測、蛋白質-蛋白質相互作用預測和蛋白質功能預測等任務。在處理冷啟動問題時,DeepPurpose可能會采用特定的數(shù)據劃分策略,以確保模型能夠在沒有先前交互數(shù)據的情況下進行訓練和預測。
具體到冷啟動劃分的實現(xiàn),DeepPurpose可能會使用以下方法之一或組合:
- 隨機劃分:將數(shù)據集隨機劃分為訓練集、驗證集和測試集,確保每個集合中都有新的藥物或靶標出現(xiàn)。
- 時間劃分:根據藥物或靶標的發(fā)現(xiàn)時間進行劃分,以模擬真實世界中新藥物或新靶標的出現(xiàn)。
- 聚類劃分:先對藥物或靶標進行聚類,然后確保不同的聚類分布在訓練集、驗證集和測試集中,以此來模擬冷啟動場景。
由于DeepPurpose軟件包的文檔和社區(qū)提供的信息可能更加詳盡和準確,建議直接查閱其官方GitHub倉庫或相關文檔1,以獲取具體的實現(xiàn)細節(jié)和示例代碼。如果您需要進一步的幫助,也可以在相關的技術論壇或社區(qū)中尋求支持。如果您有其他問題或需要更多幫助,請告訴我!
Source: Conversation with Bing, 04/05/2024
(1) GitHub - kexinhuang12345/DeepPurpose: A Deep Learning Toolkit for DTI … https://github.com/kexinhuang12345/DeepPurpose.
(2) DeepPurpose · PyPI. https://pypi.org/project/DeepPurpose/.
(3) DeepPurpose. https://deeppurpose.readthedocs.io/_/downloads/en/latest/pdf/.
四、實驗
1.評估指標
2.實驗設置
3.coldDTA的模型性能
我們將 ColdDTA 的結果與其他預測方法進行了比較,包括傳統(tǒng)的機器學習模型:支持向量機 (SVM)、隨機森林 (RF) 和深度學習模型:DeepDTA [7]、TransformerCPI [17] 和 MgraphDTA [12]。在一些DTA任務中,RF顯示出比深度學習方法更好的性能[41],因此有必要與傳統(tǒng)的機器學習方法進行比較。DeepDTA 將 CNN 應用于 SMILES 字符串和蛋白質序列,以提取局部殘基模式。當我們將問題轉換為分類任務時,在 DeepDTA 的末尾添加了一個 Sigmoid 激活函數(shù),將其轉換為二元分類問題,并執(zhí)行超參數(shù)搜索。TransformerCPI 最初是為二元分類任務設計的,為了實現(xiàn)比較,我們替換了它的分類器和損失函數(shù),使其適應回歸任務。MgraphDTA構建了一個具有更多圖卷積層的超深GNN,以捕獲化合物的局部和全局結構,并因此獲得了更高的性能。與之前的研究[20]一致,該實驗采用了5倍交叉驗證方法,其中所有數(shù)據被均勻地分為五個部分,其中一部分用作測試集,其余四部分用于訓練。這導致了數(shù)據集的五種不同方案,平均分數(shù)被記錄為最終的性能指標。每個折疊中包含的數(shù)據量如表3所示。由于冷啟動數(shù)據拆分方法需要確保測試集中的藥物或蛋白質不會出現(xiàn)在訓練集中,因此每個折疊中包含的數(shù)據量并不完全相等,并且在冷對中,這種拆分方法導致數(shù)據總數(shù)較少。同時,我們重復了五次實驗,每次都選擇不同的隨機種子。為了保證實驗的公正性,所有方法的參數(shù)要么采用原始論文,要么通過實驗確定,實驗在相同的訓練集和測試集上進行,但由于數(shù)據集拆分過程的隨機性,這可能會導致實驗結果與其他論文不同。
4.消融研究
在Davis數(shù)據集上進行了消融研究,以驗證所提出的數(shù)據增強策略和藥物-靶點融合模塊的有效性。我們使用了以下設置:
-
藥物-靶點融合:我們用簡單的串聯(lián)操作取代了藥物-靶點融合模塊。
-
數(shù)據增強:我們進一步不使用數(shù)據增強,在這一點上,模型沒有使用本文中提出的任何方法。
實驗結果如表7所示,從中可以看出,基于注意力的特征融合和數(shù)據增強策略都有助于模型的預測性能。
此外,我們分別研究了數(shù)據增強對模型預測性能的影響,這部分實驗都使用了藥物-靶點融合模塊?;鶞蕯?shù)據集中使用數(shù)據增強的最優(yōu)參數(shù)如表8所示,由于超參數(shù)搜索空間范圍有限,這些參數(shù)是通過網格搜索得到的,去除子圖比率的搜索范圍為[0.1,0.2,0.3,0.4],使用數(shù)據增強次數(shù)的搜索范圍為[1, 2, 3, 4, 5].是否使用數(shù)據增強對預測性能的影響如圖 6 所示,其中誤差線的長度表示標準差。從圖6可以看出,使用本研究提出的數(shù)據增強策略可以有效增強模型在兩個公共數(shù)據集的感冒藥和感冒配對任務中的預測性能。具體而言,在沒有數(shù)據增強策略的情況下使用藥物-靶點融合模塊時,Davis感冒藥、Davis冷藥、KIBA感冒藥、KIBA冷藥的CI值分別為0.757±0.012、0.684±0.018、0.776±0.013、0.653±0.023。使用數(shù)據增強后,所有CI值均顯著改善,相應的MSE值降低。但對于冷蛋白任務,我們的策略沒有顯著影響,在KIBA數(shù)據集中,它甚至有輕微的負面影響,CI從0.011變?yōu)?.739±0.011。本研究表明,數(shù)據增強方法對DTA回歸任務是有效的,選擇合理的方法可以有效提高模型的泛化能力。刪除子圖以形成藥物和原始靶點之間結合親和力不變的數(shù)據對似乎違背了常識,但實際上,多個數(shù)據增強以生成不同的子圖允許訓練集隱含包含完整的分子圖譜信息,而深度學習模型能夠更好地從剩余的子圖中學習關鍵信息, 正如我們的實驗所證明的那樣。同時,人們也應該意識到,在少數(shù)情況下,使用完全隨機的數(shù)據增強策略可能會產生非物理樣本,類似于計算機視覺中的許多數(shù)據增強方法[42\u201243],我們將在未來的工作中嘗試解決這個問題。
圖 6.帶或不帶數(shù)據增強(五次隨機運行)的模型性能。
我們還通過實驗證明了我們提出的數(shù)據增強策略的兼容性,其中我們選擇圖注意力網絡 (GAT)、圖同構網絡 (GIN) 和圖卷積網絡 (GCN) 作為藥物的特征編碼器。這些實驗是在Davis的感冒藥分裂上進行的,因為我們的策略最適合感冒藥,并且與KIBA數(shù)據集相比,訓練時間更短。實驗結果如表9所示,表明我們的數(shù)據增強方法與各種GNN網絡兼容性較好。
5.模型解釋
總結
在這項研究中,我們提出了一種使用數(shù)據增強和基于注意力的特征融合來預測藥物-靶標結合親和力的端到端訓練方法:ColdDTA。去除了訓練階段固定比例的藥物分子圖,與原目標形成新的數(shù)據對,這種數(shù)據增強可以有效提高模型的泛化能力。同時,該模型采用一種新的基于注意力的特征融合方法,使化合物與蛋白質信息更好地相互作用,從而提高了模型預測性能。實驗結果表明,與SOTA基線和傳統(tǒng)機器學習方法相比,ColdDTA在基準數(shù)據集上的性能顯著提高。燒蝕實驗也驗證了所提方法的有效性。此外,我們還通過權重的可視化演示了模型的可解釋性。