
昨晚有空,顺了一遍 | 端午愉快💜
生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播、分析和解释等各方面的学科,以信息技术及其相关的手段对生物问题进行探索研究。
生物信息学,信息是手段,生物是核心。
也就是说我们学习的核心在于解决生物问题,信息技术则是实现目标的重要工具。因此需要我们掌握基础的编程和数据处理能力,一点不会会学得很痛苦。
🟦 1 基础编程语言
学习渠道很多,这里就不赘述啦。注意不要学成了程序员,以目标导向来制定学习计划,够用即可。
🟦 2 打好统计学基础
生信分析离不开统计学支持,尤其是在数据分析和结果验证环节涉及到大量的数据处理与可视化操作,完全没有统计学基础,那就很难进行了。
不过也建议以自己的目标(文章)为导向,学习有用的。就像学英语,学习英语的目的是为了帮助我们更好交流,而不是专门研究语言学,也不会将每个单词的来龙去脉都搞清楚。
🟦 3 文章套路,数据复现
所谓文章套路,即理解文章时应从宏观思维出发,能理解文章的逻辑思维。
而数据复现,则是对文章结构有所了解后,能进行模块化拆解还原,可以复现出所有模块的数据。
理解了生信文章套路,复现出文章数据,才在一定程度上掌握了文章的技能。
生信分析研究最主要的思想可概括为4大模块:
表达差异、功能聚类、交互网络、临床意义。
下面我结合实际案例讲解,更方便大家理解:
(HOXD10为多形性胶质母细胞瘤预后不良的标志物)
上图是国内学者2021年发表于期刊 OncoTargets and Therapy 的生信相关文章。
✅ 表达差异
在开始具体分析之前,论文作者已通过前期筛选,得到了一个与母细胞瘤疾病发展相关的关键分子(HOXD10),即已完成了生信分析的第一步:表达差异。
✅ 临床意义
针对该研究,作者首先证明,HOXD10在肿瘤组织中的表达高于正常组织(A)。
随后作者利用不同来源(TCGA、CGGA、GEO) 的数据,通过生存分析证明了HOXD10表达水平影响患者的生存时间。
该部分通过表达分析和预后分析,阐明了HOXD10与肿瘤的发生发展相关。
作者首先证明,研究的分子具有临床意义,是具有解决临床问题的潜在价值的,值得后续做更深层次的研究。
这部分实现了“临床意义”。
随后作者又通过单因素COX回归分析,探索了不同临床特征下(是否全切除、是否TMZ治疗、是否放疗、IDH1状态、HOXD10状态),HOXD10对预后的影响(A-E)。
又通过多因素COX回归分析,探索了影响患者生存的独立预后因子(表2)。
此部分,作者仍然是在做“临床意义”的分析。
✅ 功能聚类
前面通过各种分析论证了HOXD10影响疾病发展,接下来作者探讨了HOXD10参与肿瘤发生发展可能的作用机制。
作者先筛选出母细胞瘤中与HOXD10表达模式相似的一群差异基因(A)。
随后通过富集分析探究了这群基因可能参与的生物学过程、发挥的分子功能(B),及其涉及的信号通路(C)。
可以看到,这群基因主要与细胞因子-细胞因子受体相互作用通路相关。
该部分,作者进行了“功能聚类”的分析。
✅ 交互网络
最后,作者通过蛋白-蛋白互作(PPI)网络,呈现了这群分子之间的相互作用形式。
该部分,作者进行了“交互网络”的分析。
虽然作者不是完全按照表达差异 👉 功能聚类 👉 交互网络 👉 临床意义 的过程进行内容整合,但生信分析的精髓也是面面俱到。这也充分说明了,生信分析虽有套路,但我们也有灵活发挥的空间!
此外目前纯生信已经不好发了,所以我们还有必要学习怎么补充实验验证,常见的生信湿实验如 qRT-PCR、Western blot……有没有必要加实验?怎么加?
