
蛙趣!这4种富集分析方法超实用❗
为什么要做富集分析?
组学数据得到的差异基因或者物质非常多,面对海量数据我们无法做到挨个研究、逐一验证来把待研究现象的机制解析清楚。
通过富集分析我们可以把差异基因或者物质根据其功能进行归类,这样具有相似功能的基因或者物质就被放在一起,从而减少工作量,并可以实现功能和表型相关联。
生信常用4种富集分析方法
KEGG/GO富集分析在方法学上均属于过表达分析(Over Representation Analysis, ORA),是一种广泛使用的分析方法,用于确定已知的生物功能或过程是否在实验获得的差异表达基因(DEG) 列表中显著地过表达(或者富集)。
GO富集分析
基因本体(Gene Ontology, GO):从三个方面对基因的本质进行描述。
1. 细胞组分(cellular component, CC)
基因产物所在的细胞内位置。如“细胞核”、“线粒体”。
2. 分子功能(molecular function, MF)
描述分子的特定化学活性,如催化反应或结合分子的活性。例如“氧化还原酶活性”、“蛋白质结合”等。
3. 生物学过程(biological process, BP)
描述基因参与的生物学过程,如细胞凋亡、DNA修复等。
KEGG富集分析
KEGG(京都基因和基因组百科全书, Kyoto Encyclopedia of Genes and Genomes) 是最常用的通路分析数据库,其实质是分析给定的基因集在哪些功能和通路上起作用。
GSEA富集分析
Gene Set Enrichment Analysis(GSEA, 基因集富集分析) 用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。
GSEA图分析
1. 富集得分(ES, enrichment score)
反应基因集成员在排序列表L的两端富集的程度。计算方式是,从基因集L的第一个基因开始,计算一个累计算统计值。
负值ES:表示基因集在列表的底部富集,意味着该通路为下调通路。
当遇到一个落在S里面的基因,则增加统计值。
当遇到一个不在S里面的基因,则降低统计值。
富集得分ES最终定义为最大的峰值。
正值ES:表示基因集在列表的顶部富集,意味着该通路为上调通路。
2. 坚线
图中间部分每一条线代表基因集 S 中的一个基因,以及其在基因列表 L 中的排序位置。
3. Leading-edge subset(领头亚集)
- 对富集得分贡献最大的基因成员,也是后续研究中重点关注的通路关键基因。
- 若富集得分为正值,则是峰左侧的基因;若富集得分为负值,则是峰右侧的基因。
4. 显著性判断(p 值)
- P 值是用来进行显著性检验的,用来评估富集得分(ES)的显著性。
- P 值 < 0.05 代表 S 基因集在列表 L 中显著富集,简单点来说,就是关注某个通路在疾病中是否显著富集。
ssGSEA
单样本 GSEA(Single-sample GSEA, ssGSEA)
- GSEA 的延伸,针对单样本无法做 GSEA 而提出的一种实现方法。
- 每个 ssGSEA 富集分数 代表了特定基因组中的基因在一个样本中协同性地上调或下调的程度。
ssGSEA 的原理
- 对感兴趣的基因组中的基因进行打分,汇总得分即为该基因组的 ES 分值。
- 通过假设检验判断该基因集是否富集。
为什么要做富集分析?
组学数据得到的差异基因或生物质非常多,面对海量数据,我们无法做到挨个研究,逐一验证来把握研究现象的机制解释。
➡ 通过富集分析我们可以把差异基因或者物质根据其功能进行归类,这样具有相似功能的基因或生物质 就被放在一起,从而减少工作量,并可以实现功能和表型的关联。
以上就是4 种常见的富集分析方法,你学会了吗?
有人可能会抱怨 生信分析太难、太复杂,还没入门就放弃了!
其实很多人都有一个误区,哐学习生信分析不代表什么都要学会,最重要的是会用!学了不会用 = 0!