糖組學人工智能的實施始于 20 世紀 90 年代的質(zhì)譜分析流程,其中應用機器學習算法來預測糖肽片段強度 [2]。隨著對蛋白質(zhì)糖基化模式的日益重視,研究人員希望通過研究 N-糖基化和較少研究的 O-糖基化的氨基酸序列來更詳細地表征糖基化位點。盡管已知聚糖連接發(fā)生在絲氨酸或蘇氨酸的氧上,但鄰近氨基酸對 O-糖基化的作用尚未闡明。
在第一代人工智能工具時代,糖基化位點數(shù)據(jù)集是從組織樣本和活檢中的蛋白質(zhì)中收集的,這些數(shù)據(jù)可在UniPep [3] 和N-GlycositeAtlas [4] 等數(shù)據(jù)庫中獲取。此外,還開發(fā)了NetNGlyc [5] 和YinOYang [6] 等人工神經(jīng)網(wǎng)絡工具,以使用已知的聚糖數(shù)據(jù)作為訓練集來預測新的 N- 和 O- 糖基化位點。 2005年至2015年間,神經(jīng)網(wǎng)絡的預測能力通過支持向量機和隨機森林算法得到了提高?;谶@些算法,GlycoMine等軟件解決方案[7]使用基于氨基酸序列以及聚糖的結(jié)構(gòu)和功能特征的多層預測來改進糖基化位點預測。
如今,隨著基因組學、轉(zhuǎn)錄組學、蛋白質(zhì)組學以及計算方法的結(jié)合,人工智能對糖生物學的影響不斷擴大,極大地增強了位點預測和聚糖分析。例如,Moon 等人。開發(fā)了一種隨機森林算法,該算法采用聚糖立體異構(gòu)體的空間和電子參數(shù)來準確預測特定異構(gòu)體的選擇性結(jié)合[8]。安東尼庫迪斯等人。在基于系統(tǒng)的方法中使用人工神經(jīng)網(wǎng)絡,其中開發(fā)了化學計量模型來預測糖基化酶通量和隨后的聚糖豐度[9]。
與此同時,其他平臺,例如Glycowork,專注于處理廣泛的聚糖數(shù)據(jù),以揭示生物體特異性的聚糖譜 [10]。
除了位點預測和分析之外,人工智能工具還有助于更好地理解聚糖和細胞表型之間的復雜關系。秦等人。引入了一種算法,該算法使用單細胞 SUGAR-seq 數(shù)據(jù)來預測導致 N-聚糖分支的基因以及不同分支對小鼠模型中 T 細胞亞型的影響 [12]。有趣的是,這些基因在細胞亞型之間的差異表達分析中并未被發(fā)現(xiàn),這凸顯了深度學習在表型分析中的價值。
另一個令人興奮的工具是GlyCompareCT,顧名思義,它通過將不同數(shù)據(jù)集中的聚糖基序分解為聚糖子結(jié)構(gòu)來比較它們的組成和豐度 [13]。這允許用戶從子結(jié)構(gòu)生成完整的圖案集。 GlyCompareCT 基于 Python 的特性使其成為一個用戶友好的工具,可以通過命令行運行。
雖然多種糖信息學工具可以有助于我們對糖基化的理解,但需要做更多的工作將下一代機器學習整合到糖生物學中。特別是,深度學習工具在處理大型非結(jié)構(gòu)化數(shù)據(jù)集時非常有用。AlphaFold [14] 是利用深度學習來預測蛋白質(zhì)結(jié)構(gòu)(包括其可能的折疊狀態(tài))的開創(chuàng)性項目之一。也就是說,該平臺只能處理蛋白質(zhì)序列,因此缺乏對糖基化和其他翻譯后修飾的預見性。
最近,深度學習方法開始用于從序列數(shù)據(jù)推斷糖基轉(zhuǎn)移酶的結(jié)構(gòu)和功能。陶哈萊等人。開發(fā)了一個工作流程,使用監(jiān)督式深度學習從蛋白質(zhì)序列推斷糖基轉(zhuǎn)移酶的折疊狀態(tài),這使他們能夠預測其糖供體特異性[15]。隨后,新的工具,如GlyNet [16]、SweetTalk [17] 和glyBERT [18] 開始出現(xiàn),對支鏈和非線性聚糖的合成具有改進的預測價值。相同的工具也可用于預測蛋白質(zhì)糖基化位點[19]。
糖生物學的主要挑戰(zhàn)之一是缺乏廣泛的糖組學數(shù)據(jù),這阻礙了新聚糖結(jié)構(gòu)的發(fā)現(xiàn)。下一代人工智能模型可以通過結(jié)合聚糖結(jié)構(gòu)之外的新功能來克服這個問題。這些特征可以從組學數(shù)據(jù)中提取,這些數(shù)據(jù)提供有關上游(例如前體單糖)和下游過程(對信號通路的影響)的信息。由于幾種聚糖可以共享共同的合成步驟或表現(xiàn)出類似的下游效應,因此這些知識可以顯著擴大預測聚糖的范圍[20]。
最后,可以利用機器學習工具聯(lián)盟來了解宿主與病原體的相互作用。特別是,預見跨物種傳播的能力可以幫助規(guī)避未來流行病的影響。首先,評估不同物種的相似聚糖結(jié)構(gòu)可以揭示宿主受體-聚糖相互作用,從而允許病毒進入,從而了解哪些生物體容易受到病毒入侵。它還可以揭示病原體如何利用糖基化來模仿宿主聚糖來逃避免疫反應。此外,輸入的組合,例如人類和所研究的動物之間的聚糖相似性和系統(tǒng)發(fā)育距離,可以告訴我們導致宿主轉(zhuǎn)向人類的致病突變的可能性。初步模型,例如SweetNet,利用下一代機器學習工具(例如圖卷積神經(jīng)網(wǎng)絡)來識別流感病毒和輪狀病毒上的聚糖受體,同時揭示結(jié)合特異性[21]。這種方法可以推廣到其他幾種病毒蛋白,以解釋它們?nèi)绾卧谌祟愔袀鞑ァ?/span>
人工智能模型的持續(xù)開發(fā)和多組學的整合對于解決糖生物學中的各種問題具有不可估量的價值。這些包括但不限于糖基轉(zhuǎn)移酶結(jié)構(gòu)、蛋白質(zhì)上的糖基化位點、復雜聚糖對細胞功能的影響、病原體-宿主相互作用和免疫腫瘤學(即腫瘤微環(huán)境)。從人工智能模型中獲得的新見解將幫助研究人員進行更有針對性的研究,以了解糖基化在健康和疾病中的作用。