蛋白質(zhì)是具有重要生物學(xué)功能的重要大分子,因此廣泛參與多項(xiàng)研究活動(dòng)以及醫(yī)學(xué)和生物技術(shù)應(yīng)用,從抗擊傳染病到應(yīng)對(duì)環(huán)境污染 都發(fā)揮重要作用。了解蛋白質(zhì)原子的三維排列可為理解蛋白質(zhì)功能的作用和機(jī)制提供重要線索。然而,雖然通用蛋白質(zhì)資源 (UniProt) 存檔了近 2.2 億個(gè)獨(dú)特的蛋白質(zhì)序列,但蛋白質(zhì)數(shù)據(jù)庫(kù) (PDB) 僅保存了超過55000種不同蛋白質(zhì)的180000多個(gè)3D結(jié)構(gòu),因此蛋白質(zhì)3D結(jié)構(gòu)解析嚴(yán)重限制了序列空間的覆蓋范圍支持全球生物分子研究。
用實(shí)驗(yàn)確定的高分辨率結(jié)構(gòu)實(shí)現(xiàn)對(duì)序列空間的更高覆蓋率是非常勞動(dòng)密集型的。它通常需要大量的試驗(yàn)和錯(cuò)誤,例如,找到合適的構(gòu)建體或蛋白質(zhì)適合結(jié)晶的條件。盡管電子冷凍顯微鏡和用于結(jié)構(gòu)確定的混合和綜合方法 (I/HM) 領(lǐng)域的最新進(jìn)展加快了結(jié)構(gòu)確定的步伐,但已知蛋白質(zhì)序列與實(shí)驗(yàn)蛋白質(zhì)結(jié)構(gòu)之間的差距仍在繼續(xù)擴(kuò)大。縮小這一差距的一種方法是預(yù)測(cè)數(shù)百萬(wàn)種蛋白質(zhì)的結(jié)構(gòu)。越來(lái)越多的研究人員部署人工智能 (AI) 技術(shù),僅根據(jù)氨基酸序列計(jì)算預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)。
AlphaFold 是由 DeepMind 開發(fā)的 AI 系統(tǒng),可根據(jù)氨基酸序列對(duì)蛋白質(zhì)結(jié)構(gòu)進(jìn)行最先進(jìn)的預(yù)測(cè)。AlphaFold的準(zhǔn)確性和速度允許創(chuàng)建一個(gè)大規(guī)模的結(jié)構(gòu)預(yù)測(cè)數(shù)據(jù)庫(kù)。它將使生物學(xué)家能夠獲得幾乎任何蛋白質(zhì)序列的結(jié)構(gòu)模型,從而改變他們解決研究問題的方式并加速他們的項(xiàng)目。AlphaFold DB(https://alphafold.ebi.ac.uk)是基于AlphaFold算法構(gòu)建的蛋白質(zhì)3D機(jī)構(gòu)預(yù)測(cè)數(shù)據(jù)庫(kù)。AlphaFold DB 的初始版本包含超過360000個(gè)預(yù)測(cè)結(jié)構(gòu)、相應(yīng)的元信息和置信度指標(biāo)。預(yù)測(cè)目前涵蓋UniProt參考蛋白質(zhì)組中16-2700 個(gè)氨基酸長(zhǎng)度范圍內(nèi)的大多數(shù)序列(以及覆蓋更長(zhǎng)人類蛋白質(zhì)的 1400 個(gè)殘基片段)。
AlphaFold DB 通過網(wǎng)頁(yè)提供對(duì)其預(yù)測(cè)的便捷訪問。這些頁(yè)面包含對(duì) AlphaFold 系統(tǒng)的介紹,解決最常見的問題,允許批量下載完整的蛋白質(zhì)組,并提供搜索引擎以查找特定于感興趣蛋白質(zhì)的頁(yè)面。用戶可以通過基因名稱、蛋白質(zhì)名稱、UniProt 登錄或生物名稱進(jìn)行搜索。
每個(gè)蛋白質(zhì)都有一個(gè)專門的結(jié)構(gòu)頁(yè)面,顯示基本信息(來(lái)自 UniProt和 PDBe)和 AlphaFold 模型的三個(gè)獨(dú)立輸出。前兩個(gè)輸出是3D坐標(biāo)和每個(gè)殘基置信度度量 pLDDT,用于在集成的3D分子查看器 Mol中對(duì)模型的殘基進(jìn)行著色。模型置信度可能會(huì)沿著一條鏈發(fā)生顯著變化,因此在解釋結(jié)構(gòu)特征之前分析置信度度量是必不可少的。
第三個(gè)輸出是成對(duì)置信度預(yù)測(cè),它有助于評(píng)估相對(duì)域位置和方向的可靠性以及蛋白質(zhì)的全局拓?fù)浣Y(jié)構(gòu)。該圖由成對(duì)的 PAE 值著色,它可以幫助用戶識(shí)別哪些域具有可靠地預(yù)測(cè)的相對(duì)于彼此的位置和方向,其中深綠色表示高置信度。在繪圖中選擇一個(gè)區(qū)域也會(huì)在 3D 查看器中突出顯示序列的相應(yīng)部分。