新的長讀轉錄組測序技術“JAFFAL”被應用——可以檢測融合基因

欄目:最新研究動態(tài) 發(fā)布時間:2022-09-09
在這里,作者介紹了JAFFAL,從長讀轉錄組測序中識別融合。之后使用模擬、細胞系和來自Nanopore和PacBio的患者數據來驗證JAFFAL......

在癌癥中,融合是重要的診斷標志物和治療靶點。長讀轉錄組測序可以發(fā)現全長亞型結構的融合。然而,由于較高的測序錯誤率,專為短讀設計的融合查找算法并不奏效。在這里,作者介紹了JAFFAL,從長讀轉錄組測序中識別融合。之后使用模擬、細胞系和來自Nanopore和PacBio的患者數據來驗證JAFFAL。最終將JAFFAL應用到單細胞數據中,發(fā)現跨越三個基因的融合,證明從復雜重排中檢測到的轉錄本。JAFFAL可在https://github.com/Oshlack/JAFFA/wiki獲得。該研究于2022年1月發(fā)表于《Genome Biology》,IF:10.806。


技術路線:



主要研究結果:

1. JAFFAL管道

如圖1,JAFFAL是一種新的多級管道,使用bpipe編寫,其動機來自于作者從JAFFA的Direct模式中獲得的方法。該流程包括以下步驟:(1)首先使用噪聲耐受的長讀對齊器minimap2將長讀序列與參考轉錄組(hg38 gencode version 22)對齊,檢測融合。(2)選擇與融合基因一致的Reads,即與不同基因對齊的片段進行分析。(3)隨后與參考基因組hg38對齊,同樣使用minimap2。刪除參考基因組比對后沒有跨越多個基因的Reads。(4)JAFFAL利用參考基因組比對的末端位置來確定融合斷點。(5)斷點被分為“High Confidence”,“Low Confidence”和“Potential Trans-Splicing”。


image.png

1. 融合檢測的JAFFAL管道步驟


2. JAFFAL融合排序在分離非腫瘤數據中的假陽性方面是有效的

為評估JAFFAL在不同分類水平和不同測序方案的真實數據上的假陽性率,將Nanopore WGS產生的參考細胞系NA12878進行ONT融合,并稱之為Direct RNA和Amplified cDNA測序。由于這是非腫瘤細胞系,融合應該很少,幾乎所有報道的融合都是假陽性。如表1,對于兩種方案,JAFFAL報告了很少的融合,與預期的High confidence排名。在cDNA數據中,LongGF報道了173個融合Multi-read support,JAFFAL只稱8次融合為High confidence。相反,在JAFFAL對cDNA數據的Low confidence水平下報道了過多的融合(報道了94個融合),而這種過量在Direct RNA數據中未見(報告了5例融合)。綜上所述,模擬和非腫瘤細胞系數據表明,被JAFFAL分類為High confidence的假陽性率較低。


1. ONT直接RNA和擴增cDNA中提取非腫瘤細胞系NA12878的融合基因和斷點數量

image.png


3. 利用JAFFAL可以在有噪聲的長讀取數據中準確地檢測出模擬的融合

為模擬真實的背景,將模擬的ONT讀取量與NA12878的2500萬個cDNA讀取量相結合。JAFFAL在無背景的ONT仿真、無背景的PacBio仿真和有背景的ONT仿真三個數據集上具有相似的融合發(fā)現靈敏度。JAFFAL檢測到98%的模擬融合,當讀取身份為90%或以上,覆蓋率為10或以上(圖2A)。在后臺讀取NA12878的情況下,JAFFAL的敏感性高于LongGF(圖2B)。因此,利用JAFFAL可以在有噪聲的長讀取數據中準確地檢測出模擬的融合。


image.png

2. 具有背景的模擬ONT數據的融合發(fā)現靈敏度


4. JAFFAL檢測癌細胞系中已知的融合

為進一步證實JAFFAL的準確性,將其應用于6個癌癥細胞系的公開長讀轉錄組測序,融合之前已經使用RT-PCR和Sanger測序進行驗證,或者有來自全基因組測序的正交證據表明發(fā)生了易位。JAFFAL重新發(fā)現了大約一半之前驗證過的融合基因(表2)。相比LongGF,JAFFAL報告了所有數據集中相同或更多先前驗證過的融合,并將其排名更高(圖3A和B,表2)。僅MCF-7而言,JAFFAL之前在長讀上驗證的融合和報告的其他融合的數量都在短讀重復的范圍內,這更普遍地證明了JAFFAL的準確性和帶噪聲的長讀數據在融合檢測中的效用(圖3C)??偟膩碚f,在MCF-7 ONT細胞系數據上,JAFFAL的High confidence和Low confidence調用與之前驗證的融合、匹配的短讀數據中的融合以及LongGF調用的融合顯示了一致性(圖3D)。綜合來看,這些結果表明JAFFAL是高度準確的,特別是在High confidence類別。


2. JAFFALLongGF7個長讀測序數據集中重新發(fā)現了之前驗證過的融合的數量

image.png

image.png

3. JAFFALLongGF對癌細胞測序的比較


5. 用長讀測序檢測白血病中臨床相關融合

接下來,將JAFFAL應用于兩份來自白血病患者的樣本,以評估其在現實環(huán)境中檢測融合的能力。1例患者患有急性髓系白血病(AML)伴RUNX1-RUNX1T1融合。另一個病人患有B細胞急性淋巴細胞白血病(B-ALL),罕見的BCR-ABL1和IGH-CRLF2融合現象。JAFFAL檢測到RUNX1-RUNX1T1和BCR-ABL1融合在他們各自的樣本中17個和51個High confidence調用中排名第一和第五。與模擬和細胞系數據的結果一致,JAFFAL找到了確切的斷點。


6. 單細胞水平的融合檢測

利用長讀測序的單細胞轉錄組學正在成為一種研究跨細胞類型轉錄多樣性的強大系統(tǒng)。為證明在單細胞水平上調用融合的可行性,將JAFFAL應用于5個癌癥細胞系混合樣本的公開數據,這些樣本使用ONT與10x Genomics和Illumina測序相結合進行測序。在557個細胞中,總共有1800萬個ONT讀取可以分配細胞條形碼。正如預期的那樣,根據短讀數據中的基因表達,細胞聚集成五個不同的組(圖4A)。在融合中,13例也出現在短讀RNA測序中作為癌癥細胞系百科全書CCLE的相同細胞系的一部分(圖4B)。不同的融合集與每一個集群相關聯,使集群注釋到每一個細胞系(圖4A)。一個融合,RP11-96H19.1-RP11-446 N19.1在所有五個集群中都可以看到。它不存在于CCLE中,與參考基因組中相隔264 kbp的組成基因的read-through轉錄一致(圖4B)。在錯誤的細胞系簇中檢測到一些融合(圖4A)。然而,盡管有錯誤,這些結果表明JAFFAL能夠在單個細胞水平上檢測到融合。


7. JAFFAL檢測到三種基因融合

JAFFAL發(fā)現的High confidence的三基因融合之一是在H838細胞系的單細胞測序的BMPR2-TYW5-ALS2CR11。這是由于2號染色體上2.5-Mbp區(qū)域的復雜重排導致的,并由CCLE全基因組測序發(fā)現的易位支持(圖4C)。長讀連接6個單元中的BMPR2-TYW5和TYW5-ALS2CR11斷點。在46個細胞中,還發(fā)現了另一種截斷的轉錄本,它將BMPR2-TYW5斷點與TYW5中一個新的外顯子擴展事件聯系起來(圖4C)??傊?,作者鑒定了BMPR2-TYW5-ALS2CR11融合基因的6個不同亞型(圖4C)。


image.png

4. 5株細胞系ONT測序中融合的檢測


8. 計算資源

JAFFAL和LongGF所需的計算資源在一臺擁有32 cores和190 GB可用內存的機器上進行了基準測試。JAFFAL在之前描述的9個健康和癌癥細胞系批量數據集上分別用了不到6 h和21 GB內存完成(表3)。這些結果表明,大的長讀序列的融合調用不太可能受到計算限制使用融合探測器。


3. JAFFALLongGF9個基準數據集上消耗的運行和內存的平均值和范圍(括號內)

image.png


結論:

與短讀相比,長讀測序有許多新的優(yōu)勢。一項令人興奮的發(fā)展是將長讀測序技術與單細胞RNA測序技術結合使用,可以對單個細胞的全部轉錄組進行測序。在這里,作者證明融合可以在這些數據中被調用,為單細胞分析增加了一種額外的方式,為研究腫瘤的異質性提供了許多新的機會。