基于m7G相关基因构建AML预后风险评分模型
今天小编和大家分析一篇2024年1月发表在《Front Oncol》(IF:4.8)期刊上的文章《Identification and validation of a prognostic risk-scoring model for AML based on m7G-associated gene clustering》。本研究基于m7G相关基因的聚类分析将患者分为3组,并通过差异分析和WGCNA筛选差异基因。经过LASSO回归分析,筛选了6个特征基因(包括CBR1、CCDC102A、LGALS1、RD3L、SLC29A2和TWIST1),并构建了预后风险评分模型。低风险患者的生存率显著高于高风险患者(p<0.0001)。训练集中1、3和5年的曲线下面积分别为0.871、0.874和0.951,表明该预测模型具有良好的预测效果。此外,在单变量和多变量Cox回归筛查后,利用临床特征和预后风险评分模型构建直方图,以更好地预测个体生存率。进一步的分析表明,预后风险评分模型与免疫细胞浸润有关。本研究为急性髓系白血病(Acute myeloid leukemia, AML)患者提供潜在的预后生物标志物。该思路同样适用于肿瘤分析,有相关需求的老师欢迎联系我们。
急性髓系白血病(Acute myeloid leukemia, AML)患者的5年生存率仍然很差,缓解后复发。迫切需要更好的预后评估工具。新的证据表明,7-甲基鸟苷(7-methylguanosine, m7G)甲基化修饰在AML中起重要作用,然而,m7G相关基因在AML预后中的确切作用仍不清楚。 该研究从TCGA 、GEO和TARGET数据库获取了AML表达谱和临床信息。使用来自TCGA队列的患者数据作为训练集。基于29个m7G相关基因进行共识聚类。通过KM曲线进行生存分析。使用WGCNA筛选亚组特征基因集。通过ssGSEA进行肿瘤免疫浸润相关性分析。 在检索了之前的研究后,选择了29个m7G相关基因,包括AGO2、CYFIP1、DCP2、DCPS、EIF3D、EIF4A1、EIF4E、EIF4E1B、EIF4E2、EIF4E3、EIF4G3、GEMIN5、IFIT5、LARP1、LSM1、METTL1、NCBP1、NCPP2、NCBP2L、NCBP3、NSUN2、NUDT10、NUDT11、NUDT16、NUDT3、NUDT4、NUDT4B、SNUPN和WDR4。这些基因在染色体上的分布如补充图1A所示。体细胞突变分析显示,AML样本中的大多数基因没有突变(补充图1B)。 基于29个m7G相关基因的表达相似性,通过应用共识聚类对TCGA数据进行聚类。150个AML样本可以很好地分为3个聚类(图1A、B),即聚类1(n=51)、聚类2(n=60)和聚类3(n=39)。m7G相关基因在簇2中的表达明显高于其他两组(图1C)。此外,Kaplan-Meier生存分析的进一步应用表明,在总生存期(OS)方面,与第3组相比,第1组和第2组的预后较差(图1D)。 为了进一步了解3个集群之间存活率差异的根本原因,使用“estimate”包评估了每个集群中样本的免疫力、基质评分和肿瘤纯度。使用ssGSEA算法探索了3个免疫簇之间免疫微环境的差异。该分析的结果显示,与簇1和簇2相比,簇3的浸润免疫细胞较少,免疫评分较低(图1E、F),簇3中的肿瘤纯度明显较高(图1G,秩和检验P<0.001)。这些发现表明,在基于m7G相关性的共识聚类中,免疫浸润较少和免疫评分较低的患者比免疫浸润较多和免疫评分较高的患者具有更好的生存率。 基于各簇之间免疫浸润和预后的显著差异,我们将第3簇定义为缺乏免疫浸润(IL 型),第1簇/第2簇定义为富含免疫浸润的亚型(IR型)。对两种类型的AML患者的mRNA表达谱进行了详细分析,以揭示IL和 IR亚型之间预后不同的潜在机制。经过基因表达分析,鉴定出265个IL和IR亚型之间的差异表达基因(FDR < 0.05 和 |log FC|> 2),其中131个在IR类型中上调,134个在IR类型下调(图 2A)。差异基因的单向Cox回归分析产生了129个与预后显著相关的基因,这些基因进一步通过lasso Cox 回归分析进行筛选,最终保留了基于5个基因的预后评估模型(图 2A、B) 并使用外部数据(GEO、TARGET 数据)验证模型(补充图 2)。该模型在训练集中显示出良好的预测准确性[5年,曲线下面积(AUC)= 0.885,95% CI(0.800-0.971)](图 2C、D)。然而,它未能在两个训练集中显示预期结果 [GEO: 5-year, AUC= 0.539, 95% CI (0.382-0.697); TARGET: 5-year, AUC= 0.553, 95% CI (0.467-0.639)](补充图 2)。这表明,使用免疫浸润和差异肿瘤纯度基因作为构建预后模型的基础,无法获得有效的预后评估模型。 为了进一步探索上述3个聚类之间的差异,并建立具有更好预后评估的预后评估模型,使用WGCNA算法挖掘每个聚类的共表达编码基因集,这两个基因都是每个聚类的特征基因。首先使用分层聚类对样本进行聚类(图3A);此外,使用Pearson相关系数计算每个基因之间的距离,并使用R包WGCNA构建加权共表达网络。首先,进行软阈值选择以降低基因-基因相关性计算中的噪声。8是R平方大于0.85的幂和第一个稳定的R平方值,选择该值来过滤共表达模块(图3A)。为了确保网络是无标度的,我们选择β=8(图3B)。下一步,将表达矩阵转换为邻接矩阵,然后将邻接矩阵转换为拓扑矩阵。基于TOM,使用平均连锁分层聚类方法根据混合动态剪切树的标准对基因进行聚类,并设置每个基因网络模块50的最小基因数量。在使用动态剪切法确定基因模块后,我们依次计算每个模块。在使用动态剪切法确定基因模块后,我们依次计算每个模块的特征向量值,然后对模块进行聚类分析,并将较接近的模块合并为新模块(height=0.25, deepSplit=3, minModuleSize=50),得到总共17个模块(图3C),“灰色”模块显示了无法聚合到其他模块的基因。进一步分析了每个模块与亚型的相关性。研究结果表明,“棕色”、“黄色”和“绿黄色”基因集中的基因集分别与簇1、簇2和簇3显著相关(图3D)。 分别对“棕色”(1039)、“黄色”(574)和“绿黄色”(147)模块中包含的基因进行了KEGG通路分析。KEGG通路分析显示,与簇1亚型相关的棕色模块的基因富集在78条通路中(图3E),主要集中在免疫相关通路中,如吞噬小泡、中性粒细胞胞外陷阱形成和B细胞信号通路(图3E)。与簇2亚型相关的黄色模块的基因在6条途径中富集,主要是精氨酸和脯氨酸代谢、mTOR信号通路、TNF信号通路和其他途径(图3F)。簇3同工型相关的绿黄色模块基因富集到15条途径,主要是神经活性配体-受体相互作用、ECM受体相互作用和柠檬酸循环等途径(图3G)。进一步的分析表明,通过网络图分析,这3个亚型共同富集到只有3条通路(图3H),表明这3个子型在相关基因模块中存在显著的功能差异。因此,这些模块基因表达的差异可能是3种亚型之间生存差异的原因。 基于对3个模块化基因簇的富集分析,获得了1754个共表达模块之间的差异基因。对TCGA训练集样本中这些基因的表达和存活数据进行单因素Cox回归模型分析。获得194个与预后显著相关的差异基因(P < 0.005)。为了进一步筛选用于模型构建的基因,随机选择80% 的TCGA训练集样本进行套索回归分析,采用1000 倍交叉验证,从而进行 6次套索分析,最后保留了6个频率大于500的mRNAs作为靶基因(图 4A)。采用R包glmnet进行套索回归分析,最终得到最优模型参数(图 4B、C). 根据样本的表达水平分别计算每个样本的风险评分。绘制了样本的风险评分分布图(图4D),从中可以看出,具有高风险评分的样本表现出较差的OS,这表明具有高风险得分的样本预后较差。CBR1、CCDC102A、LGALS1和SLC29A2的高表达与高危因素有关;RD3L和TWIST1的高表达与低风险相关,是保护因素。 根据上述中位风险评分,将样本分为高风险组和低风险组,从绘制的KM曲线可以看出两组之间的显著差异(对数秩p<0.0001,HR=5.134),其中68个样本被归类为高风险,71个样本被分类为低风险(图4E)。使用R包timeROC进一步进行风险评分预后分类的ROC分析,并分析1、3和5年的预后预测分类效率,如图4F所示,从中我们可以看出该模型具有较高的AUC,均高于0.87。 为进一步探讨预后风险评分模型的临床价值,对 TCGA 队列进行了单变量和多变量Cox回归分析。在单变量Cox分析中,年龄和风险评分与AML患者的预后显著相关(图 5A)。此外,多因素Cox回归结果表明,年龄和风险评分是 AML患者预后的独立危险因素(图 5B)。接下来,我们对这些因素进行了ROC 分析,AUC值的结果表明,风险评分在预测OS方面的准确性高于年龄风险因素(图 5C)。 基于上述回归分析,我们开发了一个列线图,为临床医生提供了一种定量的预测方法。为每位患者的每个预后参数获得一个评分,并且可以使用得到的总分 (图 6A)。此外,校准图曲线还显示,列线图比理想模型具有更好的预测函数 (图 6B)。根据列线图模型评分、中位数和绘制的KM曲线将样本进一步分为高低风险组,由此可见高低风险组的OS存在显著差异(log-rank p < 0.0001,HR = 5.99),其中68个样本被归类为高风险,69个样本被归类为低风险(图 6C)。ROC分析用于验证1、3和5年预后预测的列线图的分类效率,从中可以看出,列线图评分模型在AUC线下有很高的面积,1、3、5年的AUC高于0.876(图6D)。 之前的研究表明,基于m7G相关聚类的生存差异可能与各组的免疫浸润和肿瘤纯度有关。在这里,使用R软件“estimate”包进一步分析了风险评分和免疫细胞评分之间的关系。结果显示,免疫评分和基质评分与风险模型呈显著正相关,相关系数分别为0.39和0.27(图7A)。这也表明风险模型表达与肿瘤免疫之间存在联系。它还进一步表明了风险模型与细胞免疫之间的关系。抗癌免疫反应可以被概念化为一系列被称为癌症免疫循环的逐步事件,包括癌症细胞抗原的释放(步骤1)、癌症抗原呈递(步骤2)、启动和激活(步骤3)、免疫细胞向肿瘤的转运(步骤4)、免疫单元向肿瘤的渗透(步骤5)、T细胞识别癌症细胞(步骤6)和杀死癌症细胞(步骤7)。在此,通过追踪肿瘤免疫表型(TIP)网站分析获得7步结果矩阵,并类似地分析了风险模型与7步抗癌免疫反应的相关性。结果显示,Step2、Step4 T细胞募集、Step4 CD4 T细胞募集和Step4 CD8 T细胞募集与Step4 Th1细胞募集、Step4 Th22细胞募集、Step4 NK细胞募集和Step5免疫细胞浸润与风险模型呈正相关,而Step4单核细胞募集与风险模型呈负相关(图7C)。ssGSEA算法进一步用于鉴定28个TIL亚群,包括与适应性免疫相关的主要类型:活化T细胞、Tcm、TemCD4和CD8 T细胞、Tγδ细胞、Th1、Th2、Th17、调节性T细胞、滤泡T细胞、活化B细胞、未成熟B细胞和记忆性B细胞;以及与先天免疫类型相关的细胞,如巨噬细胞、单核细胞、肥大细胞、嗜酸性粒细胞、中性粒细胞、活化DC、浆细胞样和未成熟DC、NK细胞、NKT细胞和MDSC(图7B)。结果显示,风险模型与28个TIL亚群中的绝大多数呈显著正相关(图7D)。 随后,比较了两个风险组之间的突变模式。结果表明,高危组发生突变的样本高于低风险组,并且高危组已知的AML高危分子突变明显更多(图 8)。