新年更的第一篇正式文章,不知道写什么主题好。想到以前还是挺多人问到“如何入门生信”这样的问题,也许写一点个人看法会有一点点用。

基本上每一个研究生都会与生信接触,因为查询NCBI网站这类技能也算是搞生信。建NCBI这样的数据库和网站是 bioinformatics,使用数据库和网页也是;研究生物领域内算法开发软件是bioinformatics,使用软件也是。搞生物信息并不高级也不低级,可以高深前沿也可以简单现用。在绝大多数的分子实验室里,生物信息是一项技术,同其它实验操作技术一样,为解决课题的研究问题而服务。也就是说,在绝大多数传统分子实验室里,学习bioinformatics其实是学习如何使用生信相关工具,并将其灵活有效的应用于课题研究中。

以下是本人的“完全小白入门路径推荐”。

1 明确学习方向

首先明确自己要学习什么,从自己的课题入手,需要做什么就学习什么。假设课题需要通过比较不同试验处理后,生物体内基因表达差别的现象,那么就从学习转录组数据分析相关内容入手。接下来要了解,转录组数据分析相关内容到底有哪些。翻翻前人论文以及博客,记下出现的高频词汇,然后挨个对不熟悉的关键词进行检索,了解它们的含义。

2 检索基本分析流程workflow

获取workflow的途径有很多,最简单的是问同学索要,次简单的方法是通过搜索引擎检索关键词。最靠谱的办法是参考研究机构的官方发布workflow,比如BROAD,EBI等等官方网站推荐分析流程和工具。记录下所用到的全部软件,检索软件教程。

3 学习Linux操作系统

绝大多数的workflow是在Linux下运行,所以,首先是熟悉Terminal下命令行操作的环境,然后学习shell的一些简单操作。达到会新建路径、会进入指定路径和知道自己当前路径是什么的水平,就可以试着参考一份workflow以及相关软件教程来尝试自行操作了。随着学习的深入,会遇到更多的errors和warnings,每解决一次error,你的水平就会提高一些。慢慢补全Linux知识。

4 阅读软件的说明文档

认真阅读workflow中所涉及的软件的说明文档,特别是如何准备输入文件这一部分,很多人无法自行走完一套workflow,很大原因是输入文件中存在错误。另外,说明文档中往往也介绍了软件的使用背景,适用条件以及基本原理。知其然知其所以然,才能更快入门。

5 正式入门阶段

返回去考虑自己的学习方向是否合理,是否符合自己研究课题的需要。比较不同的分析流程之间的差别,挑选最适宜的workflow,创建自己的workflow。进一步学习Linux,学习编程语言(推荐python),学习统计学基础。

6 反刍式学习

很多时候是靠自学,借鉴参考别人的scripts,入门之后的学习目标,是将这些东西在课题的研究中真正发挥作用。反复琢磨课题,经常翻看手册,甚至返回去查看源代码以确定算法是否合适。那么,以上五个步骤需要经常倒腾回来过一遍。

7 进阶

既然对常规的生物信息技术很熟悉了,如何进阶?本人感觉,如果生信技能够用了,那么就可以专心课题本身的科学问题。

如果希望进一步学习生信,首先还是明确学习目标,不同的目标当然有不同的路。不过相似的,科研基本功要扎实,多读书多看文献多思考多交流多写代码多看代码。查看相关领域招聘postdoc和工程师的要求,参考着来学习。基本上第一条都是精通至少一门编程语言,其次是熟悉该领域专业知识等等。由此可见,会写代码的重要性。

以上,鄙人粗浅,仅供参考。