English | 中文版 | 手機(jī)版 企業(yè)登錄 | 個人登錄 | 郵件訂閱
當(dāng)前位置 > 首頁 > 技術(shù)文章 > 利用PLM-interact擴(kuò)展蛋白質(zhì)語言模型以預(yù)測蛋白質(zhì)-蛋白質(zhì)相互作用

利用PLM-interact擴(kuò)展蛋白質(zhì)語言模型以預(yù)測蛋白質(zhì)-蛋白質(zhì)相互作用

瀏覽次數(shù):393 發(fā)布日期:2025-10-29  來源:AI in Graph

文章來源公眾號:AI in Graph           作者:AI in Graph 

圖片

今天介紹的是發(fā)表在Nature Communications的論文: PLM-interact: extending protein language models to predict protein-protein interactions。 該論文把單蛋白語言模型擴(kuò)展成“成對編碼器”,把兩條蛋白序列拼進(jìn)同一上下文,聯(lián)合進(jìn)行MLM + 互作二分類訓(xùn)練,讓模型在注意力層面直接學(xué)“誰和誰會互作”。 結(jié)果顯示在跨物種 PPI 基準(zhǔn)上取得SOTA,還能評估突變使互作增強(qiáng)/減弱,在病毒-宿主任務(wù)上也明顯優(yōu)于既有方法。

1. 摘要
僅根據(jù)氨基酸序列進(jìn)行蛋白質(zhì)結(jié)構(gòu)的計算機(jī)預(yù)測已達(dá)到前所未有的精度,但預(yù)測蛋白質(zhì)-蛋白質(zhì)相互作用仍然是一個挑戰(zhàn)。本文,作者評估了常用于蛋白質(zhì)折疊的蛋白質(zhì)語言模型 (PLM) 重新訓(xùn)練用于蛋白質(zhì)-蛋白質(zhì)相互作用預(yù)測的能力,F(xiàn)有的利用 PLM 的模型使用預(yù)訓(xùn)練的 PLM 特征集,忽略了蛋白質(zhì)之間的物理相互作用。作者提出了 PLM-interact,它超越了單個蛋白質(zhì),通過聯(lián)合編碼蛋白質(zhì)對來學(xué)習(xí)它們之間的關(guān)系,類似于自然語言處理中的下一句預(yù)測任務(wù)。該方法在廣泛采用的跨物種蛋白質(zhì)-蛋白質(zhì)相互作用預(yù)測基準(zhǔn)中取得了最佳性能:基于人類數(shù)據(jù)進(jìn)行訓(xùn)練,并在小鼠、蒼蠅、線蟲、大腸桿菌和酵母上進(jìn)行測試。此外,作者開發(fā)了一種 PLM-interact 的微調(diào)方法,以檢測突變對相互作用的影響。最后,作者報告該模型在蛋白質(zhì)水平上預(yù)測病毒-宿主相互作用方面優(yōu)于現(xiàn)有方法。作者的工作表明,大型語言模型可以擴(kuò)展,僅從生物分子序列中就可以了解生物分子之間的復(fù)雜關(guān)系。

2. 引言
僅憑序列預(yù)測蛋白結(jié)構(gòu)已十分成熟,但要“只看序列”判定兩條蛋白是否互作(PPI)仍很難:實驗標(biāo)注稀缺昂貴、跨物種分布差異顯著,若數(shù)據(jù)拆分不嚴(yán)還會因相似性“泄漏”而高估性能。更關(guān)鍵的是,主流序列法多沿用“雙塔/兩段式”范式:分別編碼兩條序列,末端再用小分類頭“猜”是否互作;這種流程讓語言模型始終以“單蛋白”為基本單位,并不“意識到”兩條鏈彼此成對,真正的跨鏈線索被推遲到末端分類器處理,難以在跨物種與低樣本場景中穩(wěn)健泛化。

PLM-interact 的出發(fā)點是把“配對關(guān)系”直接放進(jìn)語言模型的上下文:將兩條蛋白一次性輸入同一個 Transformer,以跨編碼(cross-encoder)結(jié)構(gòu)在編碼階段就讓注意力對齊跨蛋白殘基;訓(xùn)練上聯(lián)合遮蓋語言模型(MLM)與互作二分類,通過權(quán)重與遮蓋比例的系統(tǒng)搜索,在保留語言理解能力的同時,迫使模型學(xué)習(xí)“哪對殘基彼此有關(guān)”,從而把“互作判斷”前移到表示學(xué)習(xí)之中,減輕末端分類頭的容量約束。

在嚴(yán)格的人類訓(xùn)練→多物種測試(鼠、蠅、蟲、酵母、大腸桿菌)的基準(zhǔn)上,PLM-interact 在 AUPR 上普遍領(lǐng)先,并表現(xiàn)出更穩(wěn)定的正樣本區(qū)分能力;在去重控相似度的人類無泄漏數(shù)據(jù)、以及突變效應(yīng)與病毒-宿主互作任務(wù)中,同樣表現(xiàn)穩(wěn)健且可通過端到端微調(diào)進(jìn)一步提升區(qū)分度。相較傳統(tǒng)“雙塔”,這種“把配對放進(jìn)上下文、讓注意力跨鏈工作”的范式,為僅憑序列的 PPI 預(yù)測提供了更自然的建模路徑,并為后續(xù)融合結(jié)構(gòu)、網(wǎng)絡(luò)與功能注釋等多模態(tài)信息留下了清晰接口。

3. 方法
傳統(tǒng)“雙塔”框架 vs. PLM-interact 跨編碼框架示意
傳統(tǒng)“雙塔”框架 vs. PLM-interact 跨編碼框架示意

3.1 框架與輸入
作者以 ESM-2(默認(rèn) 650M)為基座,將兩條蛋白序列在同一個 Transformer中跨鏈路同時編碼(cross-encoder)。標(biāo)準(zhǔn)輸入序列為

ESM-2 編碼得到各 token 的輸出嵌入,用 [CLS] 向量經(jīng)一層前饋網(wǎng)絡(luò)后接 Sigmoid 得到互作概率:

3.2 訓(xùn)練目標(biāo)與技巧
模型以遮蓋語言模型(MLM)與二分類聯(lián)合優(yōu)化,單樣本損失為

作者系統(tǒng)比較權(quán)重后,采用 分類:MLM = 1:10 的比例,并配合 15% 隨機(jī)遮蓋;該設(shè)置在多物種基準(zhǔn)上綜合最優(yōu)。

為容納兩條序列,放寬總長度閾值(例如 STRING V12 訓(xùn)練對的總長閾值 2101),并對每個訓(xùn)練對雙向喂入 與  以增強(qiáng)順序不變性。

3.3 突變效應(yīng)預(yù)測
給定某 PPI,改變其中一個蛋白為突變體。首先用式(2)分別得到野生型與突變型的互作概率 。定義對數(shù)概率比
以其符號預(yù)測增強(qiáng)(+)或削弱(−)的二分類標(biāo)簽,并將 (lr) 作為輸入信號、用交叉熵?fù)p失端到端反向傳播到所有層進(jìn)行微調(diào)(只微調(diào)分類頭明顯不如全模型微調(diào))。該流程使用 IntAct 的增強(qiáng)/削弱互作注釋(共 6,979 條),顯著提升 AUPR/AUROC。

圖片

4. 實驗
4.1 跨物種基準(zhǔn)

基準(zhǔn)采用 1:10(正:負(fù)) 的配比;人類訓(xùn)練集含 38,344 條正樣本(驗證集 4,794 正),五個測試物種各含 5,000 條正樣本(E. coli 為 2,000 正)。在該設(shè)置下,PLM-interact 的 AUPR 在全部物種領(lǐng)先:例如酵母 AUPR=0.706(較 TUnA 的 0.641 提升 10%)、E. coli AUPR=0.722(較 TUnA 提升 7%);作者指出優(yōu)勢主要來自對正樣本賦予更高互作概率,而且交換鏈順序后 AUPR 基本不變,顯示推斷對順序魯棒。

圖片

4.2 無泄漏人類數(shù)據(jù)集

在 Bernett 去重控相似度的人類基準(zhǔn)上,PLM-interact 與 TUnA 的 AUPR≈0.69 / AUROC≈0.70 基本持平;但當(dāng)采用中性閾值(0.5)做最終分類時,PLM-interact 的 F1 與 Recall 更高(召回+9%,精度與 TUnA 相當(dāng)),表明其對真陽性更敏感。

圖片

4.3 突變效應(yīng)(IntAct 注釋的增強(qiáng)/削弱互作)
使用 IntAct 的突變注釋(共 6,979 條,增互作/減互作二類)評估“零樣本”與“微調(diào)”。零樣本下所有方法接近隨機(jī);對 PLM-interact 端到端微調(diào)全部層后,AUPR 提升約 150%、AUROC 提升 36%,并給出兩個成功案例:MCM7-Y600E(增強(qiáng))與 ISCU-N151A(減弱),模型均正確判定方向。

4.4 病毒–宿主 PPI(HPIDB 派生)
在 Tsukiyama 等構(gòu)建的 HPIDB 3.0 派生數(shù)據(jù)(共 22,383 條 PPI,1:10 配比)上,對比 STEP(ProtBERT 特征)、LSTM-PHV、InterSPPI:PLM-interact 在 AUPR、F1、MCC 上全面領(lǐng)先,相對 STEP 的提升分別為 +5.7% AUPR、+10.9% F1、+11.9% MCC;作者同時展示了若干已有實驗結(jié)構(gòu)的病毒-人互作示例。

圖片

4.5 消融與訓(xùn)練技巧

在 0%、7%、15%、22%、30% 中,15% 是唯一在統(tǒng)計上顯著優(yōu)于“僅二分類(0%)”的設(shè)定。損失權(quán)重: 在 ESM-2-650M 下,分類:MLM=1:10 綜合最佳(E. coli AUPR 相對第二名+4.3%)。順序不變性: 測試時交換鏈順序,AUPR 與分布幾乎不變。

5. 結(jié)論與未來展望
PLM-interact 的關(guān)鍵在于把 PPI 從“兩段獨白”變?yōu)?ldquo;同域?qū)υ?rdquo;:將兩條序列拼接進(jìn)同一上下文,跨蛋白注意力直接對齊殘基依賴,配合“二分類+MLM(1:10)”的聯(lián)合目標(biāo)與 ESM-2(650M) 初始化,在跨物種、無泄漏、突變效應(yīng)與病毒-宿主任務(wù)上穩(wěn)健領(lǐng)先。實際應(yīng)用上,它可用于新物種互作網(wǎng)絡(luò)冷啟動、突變增/減效的快速判別,以及病原-宿主互作識別與藥靶發(fā)現(xiàn)。面向未來,值得繼續(xù)沿著多模態(tài)融合(序列+結(jié)構(gòu)/網(wǎng)絡(luò))、更長上下文與多實體協(xié)同建模、以及輕量化與不確定性校準(zhǔn)等方向推進(jìn),以在保持推理效率的同時提升可解釋性與部署可用性。
發(fā)布者:上,|馳儀器有限公司
聯(lián)系電話:18521301252
E-mail:xiaojing.su@weichilab.com

標(biāo)簽: PLM-interact PLM PPI
用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網(wǎng)友觀點,不代表本站觀點。 請輸入驗證碼: 8795
Copyright(C) 1998-2025 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com