結(jié)直腸癌多標(biāo)記轉(zhuǎn)錄分類(lèi)反映腫瘤細(xì)胞群體的異質(zhì)性

欄目:最新研究動(dòng)態(tài) 發(fā)布時(shí)間:2023-08-10
將CRIS亞型同時(shí)分配給同一CRC樣本,它仍保留其生物學(xué)和臨床特征,這種方法有潛力在其他癌癥類(lèi)型和分類(lèi)系統(tǒng)中推廣應(yīng)用......


       背景:轉(zhuǎn)錄分類(lèi)已被用于將結(jié)直腸癌(CRC)分成具有不同生物學(xué)和臨床特征的分子亞型。然而,目前尚不清楚這些亞型是否代表著離散的、互斥的實(shí)體,還是具有潛在重疊的分子/表型狀態(tài)。因此,我們將重點(diǎn)放在CRC固有亞型(CRIS)分類(lèi)器上,并評(píng)估將多個(gè)CRIS亞型分配給同一樣本是否提供額外的臨床和生物學(xué)相關(guān)信息。
       方法:我們使用CRIS分類(lèi)器的多標(biāo)簽版本(multiCRIS)對(duì)新生成的606個(gè)CRC患者來(lái)源的異種移植物(PDXS)的RNA測(cè)序數(shù)據(jù)進(jìn)行了分析,同時(shí)結(jié)合了人類(lèi)CRC批量和單細(xì)胞RNA測(cè)序數(shù)據(jù)集。比較了單標(biāo)簽和多標(biāo)簽CRIS的生物學(xué)和臨床相關(guān)性。最后,開(kāi)發(fā)了基于機(jī)器學(xué)習(xí)的多標(biāo)簽CRIS預(yù)測(cè)器(ML2CRIS)用于單個(gè)樣本的分類(lèi)。
       結(jié)果:令人驚訝的是,約一半的CRC病例可以明顯地分配給多個(gè)CRIS亞型。單細(xì)胞RNA測(cè)序分析揭示,多個(gè)CRIS成員身份可能是由于同時(shí)存在不同CRIS類(lèi)別的細(xì)胞,或者較少情況下由于具有混合表型的細(xì)胞。發(fā)現(xiàn)多標(biāo)簽分配可以改善對(duì)CRC預(yù)后和治療反應(yīng)的預(yù)測(cè)。最后,ML2CRIS分類(lèi)器在單個(gè)樣本分類(lèi)的情境下被驗(yàn)證具有相同的生物學(xué)和臨床相關(guān)性。
       結(jié)論:這些結(jié)果表明,即使同時(shí)分配給同一CRC樣本,CRIS亞型仍保留其生物學(xué)和臨床特征。這種方法有潛力在其他癌癥類(lèi)型和分類(lèi)系統(tǒng)中推廣應(yīng)用。
       該研究于2023年5月發(fā)表發(fā)表在《Genome medicine》,IF:15.266。
       技術(shù)路線:



       實(shí)驗(yàn)方法:異種移植物收集、TCGA和PDX RNA-SEQ數(shù)據(jù)預(yù)處理、CRC單細(xì)胞數(shù)據(jù)及其預(yù)處理、bulk/scRNA-seq數(shù)據(jù)和預(yù)處理、scRNA-seq數(shù)據(jù)的偽批量、CRIS分類(lèi)、單標(biāo)簽分級(jí)機(jī)、多標(biāo)號(hào)單樣分級(jí)機(jī)。

1、結(jié)直腸癌內(nèi)在亞型的多標(biāo)簽CRIS分層研究
       為了改善結(jié)直腸癌的分層,并根據(jù)CRIS分類(lèi)捕捉生物特征,我們推斷其最近模板預(yù)測(cè)(NTP)算法不僅可以用于指定最顯著的單一類(lèi)別,還可以評(píng)估每個(gè)樣本對(duì)所有CRIS類(lèi)別的分配,以及每個(gè)分配的虛假發(fā)現(xiàn)率。因此,我們實(shí)施了基于NTP的CRIS分類(lèi)器的新的多標(biāo)簽版本,名為“multiCRIS”,能夠根據(jù)與每個(gè)CRIS中心點(diǎn)的距離和其顯著性將每個(gè)樣本分配給一個(gè)或多個(gè)CRIS類(lèi)別。
首先,將MultiCRIS應(yīng)用于來(lái)自癌癥基因組圖譜(TCGA)的620個(gè)樣本的RNA測(cè)序數(shù)據(jù)集,以明確地將91%的樣本至少分配給一個(gè)類(lèi)別(圖1a)。有趣的是,52%的樣本還可以被確信地分配給其他CRIS亞型(圖1b)。
       值得注意的是,對(duì)于所有的CRIS亞型,次要分配的數(shù)量與主要分配大致相等(圖1c)。多重分配主要發(fā)生在兩個(gè)特定的亞家族之間:CRISA/CRIS-B和CRIS-C/CRIS-D/CRIS-E。最后,為了評(píng)估這些多重分配是否捕捉到具有多個(gè)CRIS生物特征的腫瘤,我們探索了與每個(gè)CRIS類(lèi)別相關(guān)的主要特征。
       有趣的是,分配給次要類(lèi)別的樣本在圖1d中顯示了類(lèi)別的關(guān)鍵分子特征,包括CRIS-A中的MSI狀態(tài),CRIS-C中的KRAS突變的消失,以及CRIS-D/CRIS-E中的WNT信號(hào)通路活性和CRIS-B樣本中的上皮間質(zhì)轉(zhuǎn)化(EMT)。值得注意的是,我們觀察到具有多個(gè)分配的樣本傾向于與CRIS中心點(diǎn)之間的距離較大,這可能反映了同時(shí)具有不同表型的細(xì)胞組成或具有不同表型的細(xì)胞混合的情況。


圖1展示了針對(duì)TCGA數(shù)據(jù)集中的596個(gè)結(jié)直腸癌樣本進(jìn)行的多標(biāo)簽CRIS分類(lèi)的結(jié)果。


2、多個(gè)CRIS分配中的單細(xì)胞異質(zhì)性。
       觀察到一部分結(jié)直腸癌的多個(gè)類(lèi)別分配可以通過(guò)兩種方式解釋?zhuān)耗[瘤由具有模糊表型的癌細(xì)胞組成,或者存在混合的不同亞型細(xì)胞群體。為了探索支持多個(gè)CRIS分配的異質(zhì)性,我們?cè)谝粋€(gè)由PDXS(患者源性異種移植)衍生的5個(gè)結(jié)直腸癌器官樣本集合中進(jìn)行了一系列的配對(duì)單細(xì)胞RNA測(cè)序(scRNA-seq)和批量譜分析。這些數(shù)據(jù)允許直接比較單細(xì)胞和批量轉(zhuǎn)錄組譜分析結(jié)果。作為第三個(gè)選擇,通過(guò)聚合一個(gè)樣本中所有單細(xì)胞譜分析結(jié)果來(lái)獲得偽批量譜分析結(jié)果。值得注意的是,盡管來(lái)自單個(gè)細(xì)胞的譜分析結(jié)果平均捕獲了至少5個(gè)支持讀數(shù)的1116個(gè)轉(zhuǎn)錄本,但偽批量譜分析結(jié)果平均涵蓋了超過(guò)17,095個(gè)轉(zhuǎn)錄本。如預(yù)期的那樣,匹配的批量/偽批量樣本的譜分析結(jié)果顯示了強(qiáng)烈的相關(guān)性,而無(wú)法通過(guò)非匹配比較獲得。這些結(jié)果表明,(i)單細(xì)胞譜分析結(jié)果顯示出高度的異質(zhì)性,以及(ii)聚合的單細(xì)胞譜分析結(jié)果能夠重現(xiàn)批量譜分析結(jié)果中所獲得的轉(zhuǎn)錄組譜。因此,這種3D體外器官樣本培養(yǎng)系統(tǒng)捕獲了具有復(fù)雜轉(zhuǎn)錄組異質(zhì)性的細(xì)胞譜。
       值得注意的是,我們發(fā)現(xiàn)存在同時(shí)存在的細(xì)胞混合物,每個(gè)混合物具有一個(gè)單一的CRIS分配,以及具有混合多個(gè)CRIS亞型的細(xì)胞。來(lái)自給定器官樣本的個(gè)別細(xì)胞主要被分配到該器官樣本的批量譜分析結(jié)果所定義的CRIS亞型/亞型組(圖2)。
       這些結(jié)果強(qiáng)調(diào)了在單細(xì)胞分辨率下,大多數(shù)細(xì)胞被分配到單個(gè)CRIS亞型,并且它們的混合導(dǎo)致了批量轉(zhuǎn)錄組的多亞型分配;然而,也有可能存在一小部分具有混合表型的細(xì)胞,在給定的批量樣本中對(duì)多個(gè)CRIS亞型的分配產(chǎn)生貢獻(xiàn)。事實(shí)上,在所有接受多個(gè)CRIS批量分配的器官樣本中,我們檢測(cè)到了具有不同CRIS標(biāo)識(shí)的細(xì)胞和具有混合表型的細(xì)胞的共存(圖2)。
       為了將我們的觀察擴(kuò)展到人類(lèi)腫瘤,我們利用來(lái)自一組患者的公共單細(xì)胞RNA測(cè)序數(shù)據(jù)(GSE132465),重點(diǎn)關(guān)注上皮細(xì)胞,比較偽批量和單細(xì)胞的多標(biāo)簽CRIS分配情況:這種分析證實(shí)了存在多個(gè)CRIS分配的患者。在這些樣本中,我們證實(shí)大多數(shù)單個(gè)細(xì)胞被分配到特定的CRIS亞型(64%的分類(lèi)細(xì)胞,其中75%被分配到單個(gè)CRIS亞型,25%被分配到多個(gè)CRIS組;圖3a)。然而,類(lèi)似于器官樣本,每個(gè)樣本由不同的細(xì)胞群體組成,這些細(xì)胞群體被分到不同的CRIS亞型中,導(dǎo)致了一個(gè)復(fù)雜的表型,該表型通過(guò)偽批量分析的多個(gè)CRIS分配被捕捉到(圖3b)。因此,被分配到單個(gè)CRIS亞型的樣本往往具有更高比例的被分配到該亞型的細(xì)胞。在特定樣本中,具有多標(biāo)簽分配的單個(gè)細(xì)胞的高百分比可能反映出組織中正在經(jīng)歷功能轉(zhuǎn)變或穩(wěn)定的中間分化階段。例如,在患者SMC17中發(fā)生了這種情況(圖3b),其中57%的分類(lèi)細(xì)胞顯示出多標(biāo)簽表型。類(lèi)似地,SMCO3和SMC21患者分別顯示出34%和28%的具有混合表型的細(xì)胞(圖3b),與它們?cè)谂糠治鲋凶粉櫟降亩鄻?biāo)簽狀態(tài)一致。
       總的來(lái)說(shuō),這些結(jié)果表明,CRIS轉(zhuǎn)錄組的異質(zhì)性根源于單個(gè)細(xì)胞水平,而單個(gè)細(xì)胞的表型總結(jié)起來(lái)定義了腫瘤批量的CRIS分類(lèi)。因此,多CRIS腫瘤的證據(jù)主要可以通過(guò)具有特定功能特征的不同細(xì)胞群體的鑲嵌組成或具有混合表型的少量混合細(xì)胞來(lái)解釋。



圖2展示了人類(lèi)器官樣品的MultiCRIS分類(lèi)結(jié)果。

圖3展示了人類(lèi)結(jié)腸直腸癌(CRC)的MultiCRIS分類(lèi)結(jié)果。

3、針對(duì)CRIS分類(lèi)的單樣本方法
       MultiCRIS為復(fù)雜的生物學(xué)和臨床結(jié)果鋪平了道路。然而,它受到其N(xiāo)TP實(shí)現(xiàn)的影響,該實(shí)現(xiàn)依賴于在樣本批次上計(jì)算的質(zhì)心距離和基因級(jí)別的Z分?jǐn)?shù),不允許單個(gè)樣本的分類(lèi)。為了克服這個(gè)問(wèn)題,我們轉(zhuǎn)向單樣本算法,能夠獨(dú)立地對(duì)每個(gè)樣本進(jìn)行分類(lèi):這些算法既可以處理只對(duì)主要類(lèi)別進(jìn)行單標(biāo)簽分配的情況(SC),也可以處理多標(biāo)簽分配的情況(MC),以捕捉內(nèi)部的異質(zhì)性。我們的工作流程如圖4所示;它包括對(duì)所有算法進(jìn)行初始訓(xùn)練階段(藍(lán)色),在測(cè)試數(shù)據(jù)上對(duì)它們的性能進(jìn)行評(píng)估(粉色),以及對(duì)最有希望的單樣本方法進(jìn)行最終的臨床和生物驗(yàn)證(綠色)。我們首先實(shí)現(xiàn)了單樣本單標(biāo)簽算法,能夠識(shí)別每個(gè)樣本的最顯著(主要)類(lèi)別??紤]的方法包括隨機(jī)森林(RF)、線性支持向量機(jī)(LSVM)、多項(xiàng)式(PSVM)和高斯徑向基函數(shù)(GRBF-SVM)核的支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)(NN)和極端梯度提升樹(shù)(XGBoost)。隨后,通過(guò)提取每個(gè)樣本的所有CRIS類(lèi)成員關(guān)系,TESE單樣本算法被適應(yīng)于多標(biāo)簽上下文;這使得能夠?qū)φ斩鄻?biāo)簽NTP(多CRIS)的結(jié)果來(lái)驗(yàn)證其結(jié)果。
       為了評(píng)估每個(gè)算法并確定最適合在臨床應(yīng)用的單樣本分類(lèi)器中預(yù)測(cè)CRIS類(lèi)別成員資格的算法,我們利用了來(lái)自TCGA項(xiàng)目的原發(fā)性結(jié)直腸癌樣本集(n=562)和來(lái)自患者衍生的異種移植瘤(PDXS,n=550)的隊(duì)列。TCGA數(shù)據(jù)被分成訓(xùn)練集和測(cè)試集,保持整個(gè)數(shù)據(jù)集中CRIS類(lèi)別比例不變。每個(gè)分類(lèi)器僅考慮CRIS基因的表達(dá)值作為特征空間,并使用NTP主類(lèi)作為目標(biāo)參考進(jìn)行訓(xùn)練,無(wú)論其是單標(biāo)簽還是多標(biāo)簽的使用。TCGA樣本的30%和完整的PDXS數(shù)據(jù)集被用作兩個(gè)獨(dú)立的測(cè)試集,以評(píng)估單標(biāo)簽和多標(biāo)簽分類(lèi)器的結(jié)果。
       在針對(duì)主要類(lèi)別分配的單標(biāo)簽評(píng)估中,我們使用全局準(zhǔn)確率、精確度和召回率,衍生的度量指標(biāo)(F1分?jǐn)?shù)和馬修斯相關(guān)系數(shù)(MCC)),以及基于閾值的度量指標(biāo)(接收器操作特性曲線下面積和精確率-召回率曲線下面積),以評(píng)估所考慮算法的性能,并將其與原始的NTP方法的性能進(jìn)行比較。LSVM在TCGA測(cè)試集上達(dá)到了約80%的準(zhǔn)確率,在PDXS上達(dá)到了75%的準(zhǔn)確率,在考慮了所有類(lèi)別的精確度和召回率時(shí)表現(xiàn)良好(圖5)。雖然XGBoost和RF取得了有趣的表現(xiàn),但它們的類(lèi)別特定行為似乎不太穩(wěn)定,并且整體上略遜于LSVM(圖5)。
       此外,在單標(biāo)簽情況下,機(jī)器學(xué)習(xí)方法與TSP方法進(jìn)行了比較,TSP方法是單樣本CRIS分類(lèi)器的首次嘗試,最初顯示出與NTP分類(lèi)的相當(dāng)有限的一致性。本研究中證實(shí)了其次優(yōu)結(jié)果:我們所有的分類(lèi)器都比TSP獲得了更高的準(zhǔn)確性,最高準(zhǔn)確率為70.7%。特別是對(duì)于LSVM來(lái)說(shuō),即使在TCGA測(cè)試集上F1分?jǐn)?shù)最低的類(lèi)別(CRIS-E,為73%)也顯著超過(guò)了TSP的結(jié)果(CRIS-E為28%)。
在PDXS數(shù)據(jù)集上,LSVM取得了最令人信服的結(jié)果。在TCGA中,CRIS-A是最常見(jiàn)的類(lèi)別,略多于CRIS-C;其次是CRIS-E,而CRIS-B和CRIS-D的規(guī)模較小但可比較。在PDXS中幾乎可以觀察到相同的趨勢(shì),例外就是CRIS-A類(lèi)在PDXS中的表示較少,這是因?yàn)閬?lái)自轉(zhuǎn)移性結(jié)直腸癌的樣本中MSI病例(CRIS-A富集)的稀缺性。
       因此,基于性能評(píng)估,我們確定LSVM作為最佳的單標(biāo)簽分類(lèi)器,用于預(yù)測(cè)每個(gè)單個(gè)CRC樣本的主要CRIS類(lèi)別。然而,所有三種訓(xùn)練過(guò)的算法都能通過(guò)算法自適應(yīng)技術(shù)計(jì)算出對(duì)所有5個(gè)CRIS類(lèi)別的隸屬度,為多標(biāo)簽情景奠定了基礎(chǔ)。


圖4展示了基于機(jī)器學(xué)習(xí)構(gòu)建單樣本CRIS分類(lèi)器的工作流程。

圖5展示了基于機(jī)器學(xué)習(xí)的CRIS分類(lèi)器的性能評(píng)估結(jié)果

4、通過(guò)單樣本方法,進(jìn)行多標(biāo)簽CRIS分類(lèi)。
       在算法自適應(yīng)策略的基礎(chǔ)上,我們開(kāi)發(fā)了多標(biāo)簽適應(yīng)(mla)的單樣本CRIS分類(lèi)器。具體來(lái)說(shuō),每個(gè)mla算法從其單標(biāo)簽版本繼承了主要類(lèi)別的分配能力,但可以將任何異質(zhì)樣本與一個(gè)或多個(gè)額外的次要類(lèi)別關(guān)聯(lián)起來(lái)。
       為了評(píng)估m(xù)la分類(lèi)器,我們使用了與單標(biāo)簽類(lèi)似但適應(yīng)于多標(biāo)簽環(huán)境的度量指標(biāo)(放寬準(zhǔn)確率、精確率、召回率),以及特定的多標(biāo)簽度量指標(biāo)(平均精確率、Hamming損失、子集準(zhǔn)確率和多標(biāo)簽準(zhǔn)確率)。所有這些指標(biāo)都將mla算法的結(jié)果與本研究中引入的MultiCRIS方法獲得的目標(biāo)分配進(jìn)行比較。
       在mla算法中,LSVM在考慮類(lèi)別精確率和召回率時(shí)仍然達(dá)到了最佳整體性能,顯示出在多標(biāo)簽環(huán)境中也是最穩(wěn)健的方法(圖5)。此外,LSVM在91.7%的情況下分配了主要的多標(biāo)簽CRIS類(lèi)別(即根據(jù)NTP算法確定的最突出的類(lèi)別),并且在預(yù)測(cè)TCGA測(cè)試樣本的多標(biāo)簽特征時(shí)達(dá)到了92.6%的平均精確度。在考慮Hamming損失時(shí),即錯(cuò)誤分類(lèi)標(biāo)簽的平均比例,LSVM在TCGA測(cè)試集和PDXS集中都具有最低的損失比例。最后,LSVM的子集準(zhǔn)確率(嚴(yán)格相同的標(biāo)簽歸屬)也非常重要,尤其考慮到每個(gè)算法只通過(guò)提供主要類(lèi)別作為參考目標(biāo)進(jìn)行訓(xùn)練。
       因此,LSVM顯然是在單標(biāo)簽或多標(biāo)簽視角下執(zhí)行單樣本分類(lèi)的最佳方法。

5、單標(biāo)簽和多標(biāo)簽LSVM分類(lèi)器的臨床和生物學(xué)評(píng)估
       我們首先評(píng)估了基于LSVM模型在TCGA數(shù)據(jù)集上的預(yù)后價(jià)值,考慮了不同的情景:僅考慮作為主要類(lèi)別分配的樣本、僅考慮作為次要類(lèi)別分配的樣本,或者考慮所有被分類(lèi)為CRIS類(lèi)別的腫瘤,不論其是主要還是次要分配。在所有這些情況下,使用Fisher檢驗(yàn)進(jìn)行的任何比較都是針對(duì)那些完全未被分配到所研究的CRIS類(lèi)別的樣本。對(duì)于基于NTP和LSVM的單標(biāo)簽分類(lèi)器,Kaplan-Meier(KM)生存分析證實(shí)了CRIS-B類(lèi)與不良預(yù)后的顯著關(guān)聯(lián)(圖6a、b)。有趣的是,通過(guò)多標(biāo)簽分配,將次要CRIS-B分配的樣本從非CRIS-B組中排除,突出了與不良預(yù)后的更高的相關(guān)性(圖6c、d)。因此,當(dāng)排除具有主要CRIS-B分配的樣本進(jìn)行分析時(shí),次要CRIS-B分配的樣本顯示出更差的預(yù)后(圖6e、f)。當(dāng)將主要和次要CRIS-B病例合并時(shí),預(yù)后顯著性達(dá)到最大值(圖6g、h)。值得注意的是,在所有情況下,基于LSVM的分類(lèi)器具有更高的預(yù)后顯著性。
       在PDXS隊(duì)列中評(píng)估了對(duì)抗EGFR治療的反應(yīng)。我們確認(rèn)了CRIS-C與Cetuximab的敏感性相關(guān)聯(lián),其中單標(biāo)簽LSVM(優(yōu)勢(shì)比(O.R.)= 3.281,置信區(qū)間(CI)= 1.66-6.73)和多標(biāo)簽LSVM,包括在CRIS-C隊(duì)列中的次要分配,顯示出類(lèi)似的表現(xiàn)(O.R. = 3.36,CI = 1.24-10.64)。
       所有這些證據(jù)都證實(shí)了我們的LSVM單樣本模型的預(yù)測(cè)結(jié)果的可靠性,特別是mla LSVM,即ML2 CRIS(多標(biāo)簽機(jī)器學(xué)習(xí)CRIS)。ML2 CRIS能夠突出樣本的生物學(xué)內(nèi)在異質(zhì)性(如果有的話),同時(shí)在臨床應(yīng)用中對(duì)每個(gè)患者進(jìn)行個(gè)體化評(píng)估。這證明了ML2 CRIS在臨床使用環(huán)境中的可靠性。


圖6展示了單標(biāo)簽和多標(biāo)簽CRIS-B分類(lèi)在預(yù)后方面的意義


參考文獻(xiàn):

Cascianelli, S., Barbera, C., Ulla, A.A. et al. Multi-label transcriptional classification of colorectal cancer reflects tumor cell population heterogeneity. Genome Med 15, 37 (2023).https://doi.org/10.1186/s13073-023-01176-5