
因为研一发表2篇生信,说说30天学会的强度
本人双非医学生,0基础学生信分析,科研能力也很一般,在此之前只发过一篇Meta分析SCI,如果你的基础和我一样,可以挑战一下30天极速学会生信分析!
其实大家可以当作生信分析学习清单,时间长点没关系,重要的是学会后能用,最好能发表一篇生信SCI。
30天学会生信分析挑战计划👇
✅ 【day1】一代测序/二代测序/基因芯片分别是什么?
生物信息分析的核心是处理实验产生的数据。不同技术(如测序或芯片)生成的数据格式、质量、误差类型均不同。
了解原理能帮助我们理解原始数据(如FASTQ、CEL文件)的结构和意义;判断数据质量(如二代测序的读长、覆盖深度,芯片的探针特异性);选择合适的数据预处理方法(如去接头、质量过滤、批次效应校正)。
技术 | 原理 | 特点 | 医学应用场景 |
---|---|---|---|
一代测序 | Sanger法,链终止反应 | 读长长(~1kb),精度高(99.99%) | 单基因确诊证(如囊性纤化CFTR基因) |
二代测序 | 边合成边测序(Illumina等) | 高通量,短读长(50-300bp) | 肿瘤变异检测(如肿瘤EGFR突变)、宏基因组 |
基因芯片 | 杂交探针检测表达信号 | 低成本,仅检测预知位点 | GWAS研究、药物代谢基因分型(如CYP2D6) |
✅ 【day2】reads、count、fpkm、tpm 是什么?
Reads(测序读段)
测序仪产生的原始短序列片段(如Illumina测序的150bp单端或双端读段)。
Count(原始计数)
比对到某个基因或外显子上的reads数量。
FPKM(Fragments Per Kilobase per Million)
每百万比对片段中,每千碱基基因长度的片段数。
TPM(Transcripts Per Million)
每百万转录本中某基因的转录本数量。
✅ 【day3】拆解一篇文章彻底弄懂生信在做什么?
数据获取与预处理 → 特征筛选 → 模型构建与评估 → 应用实例
✅ 【day4】差异分析及结果解读,DESeq2/Limma如何选
差异分析通常是为了检验两组之间的差异基因,进而寻找目标Marker,是生信分析的前提。
✅ 【day5】GO富集与KEGG富集
富集是指差异基因中注释到某个代谢通路的基因的数量在所有差异基因中的比例显著大于背景基因中注释到该通路的基因比例。
我们常用的富集分析包括GO富集分析、KEGG富集分析以及GSEA富集分析。
其中前两者均基于统计学的超几何分布,计算出一个p值来确定是否真的富集。而GSEA的原理是判断功能基因集中成员在差异表达基因排序列表中的位置,如果都位于差异表达基因排序列表的顶端或者底部,则该基因集也是我们需要关注的。
✅ 【day6】PPI分子互作网络
PPI网络是由蛋白质之间的相互作用关系构建而成的图形化表示。它可以帮助我们理解蛋白质功能、信号传导和细胞过程的调控机制。
✅ 【day7-day8】单因素COX分析与生存曲线
生存曲线干啥的?比如我们现在得到了某几个个基因,下一步需要验证这几个基因到底有没有临床价值,如果没有临床价值的话,建模预测再好也没意义。所以那应该怎么去验证?——绘制生存曲线。
✅ 【day9-day12】机器学习之lasso回归、SVM
除了常规的方法筛选基因,我们还可以用机器学习的方法去筛选,非常新颖。
机器学习的方法有很多种,我们可以学习常见的Lasso回归分析,以及SVM分类算法。
✅ 【day13-day14】预后模型与ROC曲线
✅ 【day15-day16】WGCNA分析
✅ 【day17-day18】免疫浸润分析
✅ 【day19-day20】GSEA与GSVA分析
✅ 【day21-day22】药物靶点及药物基因相关性
✅ 【day23-day24】基于肿瘤干性的预后分析
✅ 【day25-day26】基于免疫评分的预后模型
在2017年到2018年的时候,纯生信的确是一个好发的时代,非常简单、非常常规的生信分析都可以随便发一篇SCI论文,最简单的分析就是利用GEO2R做差异分析——绘制韦恩图——GO、KEGG富集分析、PPI分析——生存分析,我们甚至不用R语言,只用一些在线工具就可以把文章里面的内容全部搞定并且可以发表SCI论文。
现在这种文章很难找到愿意出版的期刊了,因为实在太简单了,现在这些操作大家都会了,竞争达到了前所未有的激烈。
所以我们还有必要学习怎么补充实验验证: