<aside> 🍁 富集分析
(预设;一般是某个信号通路的基因集- - -已知)
,自己的表达数据集B (排序:一般按照基因在两个样本中的差异表达程度 fold change去排序)
- - - - - 检验基因集合A是否在我们这个表达数据集B【在这个数据集B的顶端/底端富集,或者随机分布 → 判断我们预定的基因集对表型的贡献】
</aside>基因集富集分析 GSEA 【Gene-set enrichment analysis 】
- 检测的不是单个基因的表达变化,而是包含了那些细微基因
【比如:差异表达不显著但有着很重要的一些生物学意义的基因】
- 用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。其输入数据包含两部分:已知功能的基因集 (可以是GO注释、MsigDB的注释或其它符合格式的基因集定义);表达矩阵 (也可以是排序好的列表)。
[ ] 横坐标:rank- - - -排序后的基因
自己的表达数据集B 进行排序的表达量- - - 一般情况下都是从fold change表达倍数从大到小排列【fold change 越左边- → 越大- → 一些上调基因】
最大的正极分数(左边)- - -说明 预设的基因(基因集A)富集在顶部,趋势表达上调
最大的负极分数(右边)- - -说明 预设的基因(基因集A)富集在底部,趋势表达下调
峰值之前的基因就是该基因集下的核心基因
[ ] 纵坐标:富集分数ES
- - 反应 基因集A 在在自己的列表(数据集B)两端 的一个富集程度
ES计算的时候是一个动态的变化,最后会出现一个最大的峰值(基因集A的Enrichemnt score)
[ ] 垂直线:每一条垂直线表示基因集A中的一个基因,与数据集B对应- - - - -出现在表达数据集B排列顺序的位置(类似热图)
[ ] 第三部分rank in ordered dataset - ranked list metric:所有基因的rank值分布图
[ ] GSEA气泡图
下图展示了clusterProfiler包GSEA分析可视化结果,Count为核心基因的数目,GeneRatio为Count与setSize的比值,Y轴为基因集Description。