今年看见蕞厉害的生信分析评论!!🔥
最近想学习生信分析,发现一个很有意思的事,逛逛医学生的评论区,都能学习到很多生信分析大佬的分享。
前几天在评论区学到的生信研究的基本科研思路(干湿结合)👇
1、 我们的研究目的是什么? 数据来源及质量?(文献里的原始筛选数据、自己的测序数据、公共数据库)
2、 如何一步一步地通过拆分、解决及重组不同的模块来验证我们提出的科研假设?
3、 课题设计的重点、逻辑链条和创新性、可行性是什么?
4、 用什么样的实验可以验证我们的生信结论?计的重点、逻辑链条和创新性、可行性是什么?
很多医学生跟我一样,天天追着问,生信分析太复杂了!!!怎么才能快速入门发表一篇SCI?
导师给我的答案:学习一项新技能,蕞有效的方法就是将自己扔进这个圈子里。
比如你想学英语,你如果在一个以英语为母语的国家,想不会都难。
学习生信分析同样如此,自己闭门造车肯定枯燥且极容易走弯路,如果你处在一个都是大佬的生信课题组,大佬还愿意手把手教你,边学边练,这效率嘎嘎快!
当然,不是所有医学生/医生都有这样的课题组资源,很多人身边也没有生信大佬陪伴,所以难住大家的并不是生信分析的复杂,而是教育资源的稀缺。
能拿到稀缺资源的人,往往比别人更容易拿到成果。
室友让我把格局打开!其实除了学校/医院的资源,报班学习也是一个效率超高的途径。
只要思想不滑坡,办法总比困难多!
学习生信分析的同学经常会问,我的这个研究方向有哪些生信分析套路?
有时候问别人其实不如自己去思考总结,只有自己去思考后真正理解套路背后的机制,你才能用好套路。
那么如何形成自己的生信套路?
总结起来就3个步骤:输入 ➡️ 处理 ➡️ 输出
输入
大量阅读文献(先易后难);掌握生物信息学领域的最新研究热点和前沿问题。
处理
理清文章的前因后果及逻辑关系,阅读完文章后要使用思维导图进行复现明确作者设计课题的思路,逐渐建立自己的思维模型和思考框架。注意对文献进行分类整理,建立一个属于自己的完整、准确且易于访问的知识库(可以应用Excel、Word及思维导图等工具)。
具体的流程:
- 阅读Introduction明确为何提出问题(创新性),结合目前国内外研究提出解决思路(可行性)
- 阅读Methods明确具体分析方法(科学的研究策略和实验设计)
- 阅读Results学习叙事方式(如何把实验结构罗列清晰明确)
- 结论(讨论自身的创新性、意义及局限性)
输出
也就是落到实践中,前面的输入、处理最终都是要落到输出,尝试将总结的方法应用起来,输出成文。
也可以用输出反推自己的学习到底有没有用,经常有些同学学了很多生信分析的复杂步骤,但是自己根本不会用。
对于医学生而言,生信分析是工具,要学有用的而不是学到极致。
生信研究的基本科研思路(干湿结合)
- 我们的研究目的是什么?数据来源及质量?(文献里的原始筛选数据、自己的测序数据、公共数据库)
- 如何一步一步地通过拆分、解决及重组不同的模块来验证我们提出的科研假设?
- 课题设计的重点、逻辑链条和创新性、可行性是什么?
- 用什么样的实验可以验证我们的生信结论?计的重点、逻辑链条和创新性、可行性是什么?
生信分析研究的两恒量及两变量
两恒量:
- 研究什么疾病
- 单一疾病(肿瘤及非肿瘤,是否可以进行临床数据挖掘)。
- 两个或多个疾病(共病、同一类疾病系统、泛癌、疾病亚型)。
- 明确什么问题
生信分析可以做到多层次(分子、机制、表型、临床意义等)、多数据(多个数据集)、多靶点(多个基因)、多类型等相互结合的研究。
具体的研究方式如下:
- 筛分子:单个基因、基因家族、基因signature、hub genes、表型基因集……
- 筛药物:网络药理学、药物小分子-基因、基因-小药物……
- 筛表型:铁死亡、自噬、内质网应激、免疫、细胞焦亡、细胞凋亡、氧化应激、缺氧、糖酵解、昼夜节律、耐药……
- 筛通路:NF-kB信号通路、PI3K/AKT信号通路、PI3K/AKT/mTOR信号通路、MAPK信号通路、特定表型通路……
- 筛作用分子:PPI互作网络、药物小分子-靶基因互作网络、mRNA-miRNA-lncRNA的ceRNA互作网络、mRNA-miRNA-circRNA的ceRNA互作网络、mRNA-RBP蛋白互作网络……
- 筛细胞:主要是免疫细胞亚群。
- 其他因素:是否加药的特殊处理、加药的药物梯度;有无基因敲减或者过表达;疾病的临床特征(不同病例阶段、分级、年龄、性别、有无吸烟等)……
两变量
①数据特征
- 数据来源:物种、样本类型、数据集来源、高通量筛选平台(芯片、二代测序、质谱)……
- 分子类型:蛋白组、转录组、基因组、表观遗传学(DNA甲基化、组蛋白的翻译后修饰)、化学信息学(药物小分子)、代谢组(代谢物小分子)……
- 实验方法:五大组学:基因组、转录组、蛋白质、代谢组及表观遗传学;新技术:单细胞测序、空间转录组……
②分析策略
主要包括R包、数据库选择、统计学方法和算法模型。
四个标准模块:
- 表达差异
- 功能聚类
- 交互网络
- 临床意义
分析示例问题:
- 我主要在疾病研究中筛到了那些差异分子
- 本疾病或者这些分子与那些生物学功能和通路有关
- 本疾病可以结合哪些表型
- 这些分子可能与哪些分子/药物/细胞有相关性
- 本疾病或者这些分子可能与哪些临床变量或者特征有关