發(fā)布時(shí)間: 2025-01-08 13:55:47
2024年12月21日,F(xiàn)leur S A Wallis等人在《EBioMedicine》雜志上發(fā)表了一篇題為《M&M: an RNA-seq based pan-cancer classifier for paediatric tumours》的文章。該文獻(xiàn)旨在通過RNA測序數(shù)據(jù)對52種不同的兒科腫瘤類型及其96個(gè)亞型進(jìn)行分類,特別強(qiáng)調(diào)了包含罕見腫瘤類型的分類能力。
一、研究背景
在兒科腫瘤學(xué)中,正確診斷多種罕見的腫瘤類型是一項(xiàng)困難但至關(guān)重要的過程。傳統(tǒng)上,診斷依賴于疾病的組織學(xué)和形態(tài)學(xué)特征。然而,隨著基因組范圍分析技術(shù)(如RNA測序)的進(jìn)步,現(xiàn)在可以開發(fā)出分子分類工具來輔助診斷。
二、數(shù)據(jù)來源
該文獻(xiàn)的數(shù)據(jù)來源主要來自荷蘭烏特勒支的瑪西瑪公主兒科腫瘤中心(PMC),這是一家專注于兒童腫瘤研究和治療的國家級醫(yī)院。從2018年12月1日至2022年6月1日期間,研究人員收集了新鮮冷凍組織樣本及液體活檢樣本,并通過PMC生物庫獲得了患者的知情同意。最終,構(gòu)建了一個(gè)包含1256個(gè)樣本的泛癌種參考隊(duì)列,這些樣本涵蓋了52種不同的腫瘤類型、96個(gè)亞型以及5種非腫瘤組織。此外,為了驗(yàn)證兩個(gè)分類器Minority和Majority(M&M)的性能,還使用了一個(gè)獨(dú)立的測試隊(duì)列由美國國家衛(wèi)生研究院下屬的國家人類基因組研究發(fā)起的項(xiàng)目,該隊(duì)列包括471個(gè)樣本,來源于442名患者,代表39種腫瘤類型、70個(gè)亞型和4種非腫瘤組織。值得注意的是,視網(wǎng)膜母細(xì)胞瘤患者由于在阿姆斯特丹大學(xué)醫(yī)學(xué)中心接受治療,因此未包含在PMC的參考隊(duì)列中。
三、研究方法
該文獻(xiàn)的統(tǒng)計(jì)方法與設(shè)計(jì)采用了多階段的機(jī)器學(xué)習(xí)流程來構(gòu)建一個(gè)強(qiáng)大的兒科腫瘤分類器。首先,通過對訓(xùn)練隊(duì)列使用方差分析統(tǒng)計(jì)量進(jìn)行特征選擇,確定了轉(zhuǎn)錄本中差異表達(dá)最顯著的1000個(gè)作為初步特征集。隨后,利用加權(quán)隨機(jī)森林算法進(jìn)一步減少特征數(shù)量至300個(gè),這些特征是根據(jù)它們對模型準(zhǔn)確性的影響程度來挑選的。為了處理類別不平衡問題,研究者對數(shù)據(jù)進(jìn)行了下采樣,確保每個(gè)腫瘤亞型至少有一個(gè)樣本,并且在Minority分類器中限制為最多三個(gè)樣本,在Majority分類器中則擴(kuò)展到最多五十個(gè)樣本。接著,分別采用加權(quán)k近鄰算法和加權(quán)隨機(jī)森林算法構(gòu)建了Minority和Majority兩個(gè)獨(dú)立的分類器,其中加權(quán)k近鄰?fù)ㄟ^留一法交叉驗(yàn)證優(yōu)化鄰居數(shù),并考慮到了類別的權(quán)重以提高罕見類別的識別能力。最后,通過集成分類的方法,將兩個(gè)分類器的概率得分結(jié)合起來,計(jì)算出綜合概率得分,以此來衡量M&M對分類結(jié)果的信心度,并最終確定每個(gè)樣本的最佳分類標(biāo)簽。整個(gè)過程中還應(yīng)用了十折分層交叉驗(yàn)證來評估模型的穩(wěn)定性和泛化能力。
四、結(jié)果
1.參考隊(duì)列和獨(dú)立測試隊(duì)列
通過圖1展示了M&M在固體腫瘤域參考隊(duì)列中的無監(jiān)督聚類情況(圖1a),UMAP投影顯示了不同腫瘤類型的分布(圖1b),餅圖則呈現(xiàn)了各類型和亞型的樣本比例(圖1c)。這些可視化結(jié)果表明M&M能夠有效地區(qū)分不同類型的腫瘤樣本,并且提供了對訓(xùn)練數(shù)據(jù)集結(jié)構(gòu)的理解。此外,M&M在內(nèi)部參考隊(duì)列中實(shí)現(xiàn)了99%的精確度和76%的召回率,而在外部驗(yàn)證隊(duì)列中,其表現(xiàn)同樣優(yōu)異,達(dá)到了98%的精確度和77%的召回率。
2.M&M算法的性能
在機(jī)器學(xué)習(xí)中,多數(shù)類別偏見使得識別不常見腫瘤(亞)類型尤為困難。為此,我們創(chuàng)建了兩個(gè)分類器:專注于罕見腫瘤(亞)類型的Minority分類器和針對常見腫瘤的Majority分類器。兩者通過相同的四個(gè)步驟開發(fā)——特征選擇、特征減少、下采樣和分類,但步驟順序和方法不同,以實(shí)現(xiàn)特定的分類重點(diǎn)(圖2a)。分類在腫瘤亞型級別進(jìn)行,從中推導(dǎo)出腫瘤類型。在常見腫瘤(亞)類型中,Majority分類器在最高排名的標(biāo)簽中表現(xiàn)更好,從20個(gè)樣本開始趨于飽和。對于概率得分較低的分類,考慮前三個(gè)最高排名的標(biāo)簽時(shí),Minority分類器更頻繁地包含罕見腫瘤(亞)類型的正確標(biāo)簽(圖2b和2c)。
3.分類性能評估
在測試隊(duì)列中,來自98名獨(dú)特患者的18個(gè)樣本(占19%)代表了參考隊(duì)列中未涵蓋的腫瘤亞型。其中,92個(gè)樣本(占84%)未能獲得高置信度分類(即無法分類),展示了M&M識別與算法中所有可用腫瘤類型不符樣本的能力。剩余的17個(gè)樣本中,9個(gè)被自信地分類為同一主要腫瘤類型下的不同亞型(8%),而4個(gè)是基于組織信號進(jìn)行分類(4%)。所有沒有匹配診斷的樣本被排除在外,最終形成了包含471個(gè)樣本的測試隊(duì)列。在這一測試隊(duì)列中,M&M實(shí)現(xiàn)了99.4%的腫瘤類型分類精確度,高于參考隊(duì)列的98.9%(圖3a)。對于腫瘤亞型分類,M&M在測試隊(duì)列中的精確度為96.4%,略高于參考隊(duì)列的95.8%(圖3b)。這些結(jié)果表明,M&M在不同領(lǐng)域中表現(xiàn)出一致的高性能,進(jìn)一步證明了其穩(wěn)健性。
4.罕見腫瘤類型的分類表現(xiàn)
為了使分類結(jié)果具有一定的泛化能力,腫瘤類型和亞型根據(jù)其在參考隊(duì)列中的頻率進(jìn)行了分組?;谶@些子集,結(jié)果顯示M&M能夠準(zhǔn)確分類兒科人群中罕見和常見腫瘤類型(圖4a、b),對于罕見腫瘤(3–5個(gè)樣本)的最小精確度為93.7%,而對于超過100個(gè)樣本的腫瘤類型的精確度為99%。召回率對于罕見腫瘤類型較低,但仍有68%的樣本被自信地分類。M&M在腫瘤類型分類中展示了高平均F1分?jǐn)?shù)(約0.93)(圖4c~f),表明個(gè)體腫瘤類型可以被準(zhǔn)確分類,并且標(biāo)簽在不同類別之間具有區(qū)分性。罕見腫瘤類型的平均F1分?jǐn)?shù)較低。如預(yù)期,腫瘤亞型分類的整體精確度和F1分?jǐn)?shù)低于腫瘤類型分類,低頻亞型的分?jǐn)?shù)最低。具體來說,參考隊(duì)列中包含3–5個(gè)樣本的多個(gè)亞型在M&M中顯得定義不明確(F1 < 0.25)。盡管如此,這些罕見亞型再次表現(xiàn)出較低的召回率,最終精確度約為84%。
5.分類一致性與樣本類型無關(guān)性
在參考隊(duì)列的高置信度分類中,M&M總共只有34例腫瘤亞型被錯(cuò)誤分類,這些誤分類事件并不重復(fù)出現(xiàn),也不依賴于特定樣本類型。這表明M&M的錯(cuò)誤率很低,且誤分類是隨機(jī)發(fā)生的,體現(xiàn)了算法的穩(wěn)定性和可靠性(圖5a)。大多數(shù)誤分類僅發(fā)生一次,并且局限于其所屬的原始領(lǐng)域。唯一的一次跨領(lǐng)域誤分類發(fā)生在卵巢小細(xì)胞癌高鈣血癥型和具有多層菊形團(tuán)的胚胎瘤之間,這兩種均為原始胚胎瘤。此外,腫瘤亞型誤分類在所有三個(gè)領(lǐng)域的主要腫瘤類型中更為頻繁(圖5b~d)。
6.不同樣本類型的適應(yīng)性
為了確保比較的穩(wěn)健性,通過下采樣生成了100個(gè)不同的數(shù)據(jù)子集,每個(gè)子集包含25%的可用樣本。隨后,從這些子集的性能中計(jì)算了平均準(zhǔn)確率、精確度和召回率,并給出了標(biāo)準(zhǔn)偏差。結(jié)果顯示,M&M的準(zhǔn)確率和精確度與這些分類器相當(dāng)(圖6a)。為進(jìn)一步評估分類器的性能,研究生成了精確率-召回率曲線。對于M&M,將十次分類器運(yùn)行的結(jié)果合并,生成每個(gè)召回率下的最小、平均和最大精確率(圖6c~d)。
7.外部驗(yàn)證數(shù)據(jù)集的表現(xiàn)
M&M在外部數(shù)據(jù)集上的驗(yàn)證顯示了其出色的泛化能力和穩(wěn)定性,達(dá)到了98.3%的腫瘤類型分類精確度和81.8%的腫瘤亞型分類精確度,證明了其在不同數(shù)據(jù)源上的可靠性能。盡管在PMC數(shù)據(jù)集上表現(xiàn)略優(yōu)(圖7a),M&M在外部隊(duì)列中對于高置信度分類仍能達(dá)到98%的精確度(占樣本的73%),僅略低于PMC隊(duì)列的表現(xiàn)(精確度99%,召回率77%)。主要的誤分類集中在低概率得分的樣本中(圖7b),某些腫瘤類型的低置信度分類比例較高(圖7c),這可能歸因于批次效應(yīng)和技術(shù)變異導(dǎo)致的RNA轉(zhuǎn)錄本變化,使得這些樣本表現(xiàn)出多種腫瘤類型的特征。
五、總結(jié)
M&M是目前最全面的兒科腫瘤特異性分類器,覆蓋了整個(gè)兒科腫瘤領(lǐng)域,包括29種額外的腫瘤類型和55個(gè)亞型。它不僅適用于新鮮冷凍組織,還初步表明可用于RNA測序數(shù)據(jù)。M&M簡化了用戶的工作流程,只需提供RNA測序數(shù)據(jù)和一個(gè)分類器即可完成分類任務(wù)。
上一篇:免疫球蛋白預(yù)防小兒急性淋巴細(xì)胞白血病發(fā)熱住院的效果:多中心試驗(yàn)結(jié)果
下一篇:01.06-01.12 臨床預(yù)測模型研究頂刊快報(bào)