俗话说,“一个工人要想把工作做好,必须先把工具磨快。”如果对表观遗传学研究感兴趣或者即将从事表观遗传学研究,可能需要对表观遗传学研究的常用工具有一个初步的了解。
本文基于2016年8月在复旦大学举办的表观基因组学夏季国际研讨会第八讲表观遗传学常用软件及网站资源介绍的视频。本期的主旨发言人是来自生物医学科学研究院的年轻研究员李伟,他主要讲解了UCSC基因组浏览器的使用,简要介绍了路线图数据库和RNA-seq数据的处理流程,并分享了表观遗传学中常用的数据库。同济大学的张勇在第15讲“芯片序列和甲基化分析策略”中详细解释了芯片序列的分析。后面会推,请大家继续关注。
李伟,生物医学科学院生物信息学博士,青年研究员;主持两个国家级项目,主要参加国家精密医学工程、国家973工程、国家自然科学基金项目、上海市科委9个重大基础项目;他以时事通讯、作家和主要参与者的身份发表了12篇SCI论文。
以下是正文:
生物信息学是做什么的?这是“高”的东西吗?本科没有学计算机和数学。可以做生物信息吗?答案是肯定的。我本科是做实验的,研究生阶段开始涉猎生物信息学。我觉得我可以,你也可以,不用担心。
什么是生物信息学?
生物信息学是分子生物学和计算机科学的结合,运用应用生物学、数学、信息学、统计学和计算机科学的方法来研究生物问题。它要求做生物信息的人有足够的生物学、数学、信息学、统计学和计算机科学背景。为什么会涉及这么多学科?因为生物问题不是“非零为一”,所以总有例外。如果没有生物学背景,答案总是“是”或“不是”;但其实生物问题没有绝对的“是”和“不是”,所以生物背景很重要。数学,信息学,统计学有什么用?我们在实验中产生了大量的seq数据,有时几个G,大量的样本是几个T。如果你没有统计学、信息学、数学的基础,就无法将这些海量的数据筛选到你感兴趣的部分,所以这部分是必要的。
除了筛选数据,还有就是我们如何评价获得的数据?举一个很简单的例子,我们拿样品去公司做RNA-seq,之后公司会给你一份报告,上面马上写着“付钱”。需要我付钱吗?如何评价公司给我的RNA-seq数据是否正确?生物信息学可以帮助你快速筛选分析获得的数据,从而确认公司是否存在问题。
为什么后期要有一定的计算机背景?生物是必须的,在其他方面,至少在我们学习的相关领域,需要了解很多方法。至于电脑,不要求我们掌握。毕竟我们不是程序员,我们的目的是实现我们想要实现的。做算法优化的话,需要有一定的计算机基础,因为任何算法都要考虑它的时间和空之间的成本。如果你在做初步分析,我建议你把这些科目都涵盖进去。生物信息学是如此多学科的混合。
生物信息学在表观遗传学中的应用是基于表观遗传学的分类,包括DNA甲基化修饰、组蛋白修饰和非编码RNA的调控。在我的部分,我将从以下三个部分帮你进入生物信息学。
第一部分:介绍ENCODE和路线图数据库。我们做表观遗传学的时候,可能都涉及到这两个计划,要花很多钱和人力才能完成。如何才能更好的利用和浏览这两个计划中的一些数据和数据库?我将提供一个由王船老师(圣路易斯华盛顿大学教授)开发的服务器工具,帮助您合理使用和浏览这两个计划生成的数据。其实很多人认为这两个方案产生的数据已经足够了。
第二部分:RNA-seq数据采集分析流程。RNA-seq我会告诉你如何从网站上下载一些别人测试过或者论文发表过的RNA-seq数据。当我得到别人的数据时,我应该用什么过程来评价和分析这些数据,因为我们的研究大多需要表达数据;再者,RNA-seq中有一些主流的分析例程,包括TopHat,TopHat2等等。2016年5月,提出了新方法。文章中评价其性能不逊于TopHat2。我将把它的地图原理分享给大家。
最后一部分:表观遗传学数据库介绍。这部分我很久没放了。我会根据表观遗传学的不同类别推荐几个常用的数据库,包括我自己的服务器。我在看这些网站的时候,一般会分为两类:一类是淘宝网页,一类是需要一定编程基础的。所以在第三部分,我给大家推荐的基本都是“淘宝”网页,点击即点击,界面友好。大家记住自己有什么资源也是可以的。
第1部分:ucsc和路线图数据库的介绍
UCSC数据库:用于存储编码计划数据的数据库。如果你做序列数据,无论你做实验还是做信息学分析,你都将使用这个UCSC数据库。在这里,我将展示一些常用的盘子。
UCSC简介:
1.它提供了一种可靠、快速的浏览基因组数据的方法。
2.数据来源:大约一半的注释信息是由UCSC从公布的系列数据中计算出来的,另一半来自世界各地的科学家。
3.我不做任何结论,只是收集各种相关信息供用户参考。
4.支持数据库检索和序列相似性搜索。
UCSC网页上有各种各样的工具,我将向您简要介绍其中的五种。
基因组浏览器
图1。基因组浏览器主页
无论是做计算还是做实验,我们都会用到基因组的部分(或者在我们的工具里点击基因组浏览器)。点击本部分后,有很多选项,都是点击式的。然后我把每个菜单都放在这里选择。现在必须有一个更新的版本,所以当我们通常使用UCSC数据库时,你必须选择物种,选择版本,并看看它是参考基因组的哪个版本。我们组出现了一个情况。我分析的时候是hg19的参考基因组和对应的基因定位注释。我们接受结果的同学可能看过hg38版本,所以他说这个位置不对,是不是搞错了。我说不应该有任何错误。我问他怎么选的,最后发现是因为版本不对。大家在使用的时候一定要记住前提。物种和版本一定不能错。必须和你分析的参考基因组版本一致,否则位置会串起来。
图2。基因组平板的界面
这一页的每个部分都很容易理解。在职位/搜索词中,可以输入一些基因名称。比如我随机输入一个BRCA1,这是乳腺癌中的一个著名基因。它立即出现不同的亚型和一些非编码亚型。您可以根据感兴趣的基因组位置过滤这些结果。
图3。BRCA1基因对应的几种亚型
如果你确认其中一个成绩单(以BRCA1 (uc002ict.3)为例),点击一下,整个网页很长,包含了很多信息。以上是视觉部分,下面是一些轨迹,帮助我们给视觉部分添加不同的轨迹。
图4。BRCA1基因在基因组测序中的可视化
在上面的可视化部分,这些线包括基因组主干、STS(序列标记位点)标记、不同的同工型和参考基因组。我选择了人类的mRNA和一些同源物种,因为有些人是进化的,需要是不同的同源物种,还有ESTs,保守,保守。我会有一张特别的幻灯片告诉你不同的颜色、不同的框架和不同的形状代表什么。
图5。基因的不同区域和颜色代表不同的含义
一个基因有不同的亚型,不同的亚型有不同的颜色。每一个方框就是每一个外显子。最左边的“T”形部分是UTR,上面箭头的方向是它的转录方向。不同外显子有三种颜色:黑色、深蓝色和浅蓝色(本例中没有)。黑色表示该段的表达已经在PDB(蛋白质数据库)数据库中进行了清晰的分析。如果是深蓝色,说明它的大部分结构在PDB没有很好的解释,但是很多论文都有相关的注释,说明它的结构可能是未知的。还有一种浅蓝色,说明报道很少,结构不明。
中间部分比较好理解,就是一些参考基因组,后面是保守主义。其他部分比较好学,保守部分相对难懂,因为里面有不同的颜色和形状。
图6。序列保守性中不同颜色和形状的具体含义
上图左侧显示的是不同的物种,图中单条线表示上面没有序列(碱基)。如果标记的某一段用淡黄色标注,说明其保守性没有上报,数据库中也没有备注。保守的高度和色深代表它保守的实力。它的高度越高,颜色越深,保守性越好。对它有一个全面的评价。比如我就来看看我关注的段落。如果不属于某个特定的物种,如果想在多个物种中看到,可以通过看高度和颜色来判断保育是否很好。还有一段用两条蓝线包裹,说明至少有一面是保守的,我们不知道。如果用绿色方括号标注,说明可能有错误,是有争议的区域。还有一些双线,说明有不可比拟的基础。
基因组浏览器作为可视化工具,有一百多个可视化轨迹,现在应该有一百多个了。我们如何过滤和设置这些轨迹?只有几种设置模式(密集、隐藏、挤压、打包、满)。熟悉这些显示模式后,我们就知道如何使用它们了。
隐藏:不显示。
密集:所有信息以直线显示。如果快速浏览多个基因,或者过滤大量曲目同时观看,这是空之间相对经济的模式。
Full:如果要选择full模式,每个同工型就是一条线,这样一个基因就占了你一页很长的篇幅。除非你想深入研究一个感兴趣的基因,选择这个方法。
包装:每个项目单独展示。如果有些项目很短,其他项目将在以后连接。这样可以尽可能合理地填充整个页面的空白色。
Squish:这个模式和pack类似,但是是压缩模式,高度只有整个pack模式的一半,所以看的不是很仔细。
我们知道如何使用每个项目。比如我肯定会关注BRCA1的某个同工型,点击的时候还是有很多信息的。因此,每次我谈到UCSC数据库,我都会告诉你不要在评论页面上到处指指点点。最后,您可能会远离UCSC数据库,因为它将与它支持的许多服务器相关联。
图7。在特定同种型的页面上仍然有大量的信息
如果从头到尾仔细看一个基因,我估计需要10分钟左右。在每个条目中,它都有一些到外部服务器的链接。除非非要看,否则先把整张页面上的信息看完,必要的话再调头,不然总会走岔路口,离这一页越来越远。
在UCSC,我们通常有一些经过特殊处理的组织或我们自己构建的经过特殊处理的样本的测序数据。所以,经过我的分析,我的后台数据库里什么都没有。我怎么看?比如我的数据已经映射出来了,现在我有了一个经过特殊处理的样本。处理前后的样品为RNA-seq,进行差异表达分析。做完微分表达式后怎么看这个?也就是说,在基因组浏览器中有一个添加自定义轨道,您可以在其中上传您自己的数据。
图8。通过添加自定义轨迹可视化数据
在这一部分,你点击它,它有它支持的文件格式。如果使用常规RNA-seq或其他seq处理模式,可以将其转换成这种格式的文件。不过如果我不关注基因,向分析师要这种格式的文件,你可以自己制作或者上传这种格式的文件。
类似爆破的对准工具
第二部分介绍BLAT的功能,与NCBI的BLAST类似,但略有不同。很多人用起来很乱,但可能用错了。对于DNA序列,BLAT至少需要40个碱基(网页最新版本显示至少需要25个碱基)。对于蛋白质序列,至少需要20个氨基酸序列。低于这个数,其结果不稳定,或者你得到错误的分析结果,可能导致一系列生物实验无法验证。
图9。BLAT用户界面
对于给定的氨基酸序列,选择版本和种类。如果什么都不选,就有一个初始阈值,所以提交。如果序列很多,可以上传一个序列文件。结果类似BLAST,显示哪些部分类似于什么(序列),下面也会显示各个部分的分数;然后是整体匹配度,显示哪些序列匹配,哪些不匹配。
表格浏览器
如何下载ENCODE计划中的数据?这部分我们会经常用到表格浏览器。
表格浏览器简介:
1.提供一个方便的入口来访问数据库;
2.获取以文本形式存储在基因组浏览器数据库中的基因组组装和注释数据;
3.获取整个染色体或某些特定序列的DNA序列信息或注释信息;
4.筛选具有特定条件的输出结果;
5.创建自己的路径,在基因组浏览器中可视化显示;
6.集成多个查询并为其生成相关输出;
7.提供选定数据集的基本统计结果;
8.显示数据表的详细信息,并列出数据库中与其相关的所有表;
9.根据其他应用程序和数据库的要求格式化输出结果。
一般来说,表格浏览器可以帮你过滤数据下载;如果不过滤,它有下载段,下载的数据无法过滤。如果您正在制作特殊的全新产品,您可能需要下载完整的数据。但是如果你只关心重复而我不想要其他区域,我可以用这个函数来过滤。怎么过滤?
图10。表格浏览器的页面
我们看到组里有很多条目。如果你想要所有的数据,你必须取出所有的轨道和表格,但这需要很长时间。对于特定的分析,使用一些数据是可以的。例如,从4号染色体下载一个简单重复八次以上的人类序列。我们如何将此消息或此表格拖出表格浏览器?在表格浏览器中单击,选择组选项中的重复和轨道中的简单重复,片段中的位置更改为chr4: 3000000-400000,单击过滤器选项中的创建按钮,单击后会出现更多详细选项。
图11。表格浏览器过滤器选项中的详细参数
按照我们的要求,应该重复8次以上,并且将copyNum选项设置为8次以上。单击提交,您将返回到上一个界面。请注意,过滤器选项已更改为编辑和清除,编辑可以修改先前设置的参数,而清除可以清除先前设置的参数。在这个页面上,继续点击底部的get output,输入结果如下。
图12。4号染色体的人类序列重复了八次以上
图中包含了一些关于它的位置和染色体的详细信息,它的一些序列信息详细记录在这个表中,可以直接下载或者复制。有些人可能不喜欢使用下载。如果数据很少,复制时格式不会改变。
基因分类器
人们经常会有这个问题。我们组一直在研究某个基因。研究了我,功能不行。其他人已经说得很清楚了。我该怎么办,该怎么走?我做个基因交互怎么样?那怎么才能找到和这个基因相关的基因呢?比如别人研究人类这个基因的功能,而我关注其他物种的同源基因。这个时候该怎么办?基因排序器可以满足我们的需求。
图13。进入基因分类器的两种方式
基因分类器简介:
● UCSC基因分类器是发展基因家族和基因之间关系的极好资源。该工具显示与所选基因组相关的其他基因组列表。
●利用该工具可以发现蛋白质水平、基因表达谱或基因组的相似性。
点击基因排序后,可以看到基因表达的信息(按表达排序)、同源性的信息(按蛋白质同源性排序-BLASTP)、基因之间的距离(按基因距离排序)。我们需要找出一个基因被注释到哪个功能,以及为什么被注释到哪个功能。因为基因本体是一个像树根一样的多层次结构,在基因本体的标注中,同一基因可能会以多种功能出现。它有点类似于我们人体的系统。下面组织了几个系统,下面的系统划分的比较细。基因可能出现在多个功能节点上。这个功能节点越靠近底部,功能就越详细。上游越多,功能越模糊。比如转录调控是一种功能,正向转录调控是更低级的一个节点。
图14。基因分类器的具体参数
如果关注与某个基因功能相关的基因,可以选择Go相似性选项。如果我们关注蛋白质,哪些基因和我的基因相互作用,根据不同的算法背景有一些方法可以预测这些基因。如果想成为人类蛋白质,可以使用HRPD(人类蛋白质参考数据库)蛋白质对蛋白质,另外两个数据库(M. Vidal蛋白质对蛋白质& e:汪克尔蛋白质对蛋白质)也涉及其他物种。
如果选择蛋白质同源性-BLASTP,它将输出与该基因同源的相关蛋白质。Configure是为结果显示的选项,它决定结果的显示方式;如果有许多输出结果,您也可以使用过滤器(现在关闭)选项来过滤掉其中的一些结果。以BRCA1基因为例,输入BRCA1后,点击go!输出过滤后的结果,如下图15所示。如果你点击任何一个基因,你会看到一个表格,上面有很多信息。你应该先筛选出有用的信息,然后再仔细查看。
图15。BRCA1同源基因
电子聚合酶链反应
在最后一节中,UCSC还提供了一个聚合酶链反应-原位聚合酶链反应的引物搜索工具,即电子聚合酶链反应或模拟聚合酶链反应,可以用一组序列作为聚合酶链反应引物搜索数据库,并返回相关序列。
图16。硅胶内聚合酶链反应页面
以正向引物GCCACAGTGCTCCGGA和反向引物AATGATCAGTAATCT为例,输出结果如下图17所示,引物的溶解温度也如下图所示。
图17。硅胶内聚合酶链反应结果页
路线图服务器
http://epigenomegateway.wustl.edu/browser/
以上,我们谈到了ENCODE程序中数据的下载、可视化和筛选。表观遗传学中还有一个大项目——路线图项目,它倾向于检测人类、动物和植物的正常组织样本。如果你的研究需要用到控制,那是很好的资源。它包括表达数据和各种类型的ChIP-seq数据,包括甲基化修饰和乙酰化修饰,你可以找到。特别是对于某些细胞系,如果已经测试过,可以用它的数据作为你的对照数据。它的缺点是只测量正常样本。
路线图服务器是王舟老师的实验室在2015年10月第一届国际表观基因组学研讨会上开发的,这个Browser部分是专门为我们的会议开发的。(由于网页版本的更新,新版本的页面内容与旧版本有很大不同,但具体细节和功能几乎没有变化。只需稍微修改一下输入操作,就可以通过“旧”浏览器直接访问旧网页。)
图18。华苏Epi基因组浏览器页面
关于使用WashU表观名称浏览器的教程,请参见以下链接,下面没有具体展开。
1.瓦树表观名浏览器教程
http://epigenomegateway . wustl . edu/support/2019 city of hope/2019 city of hope _ tutorial . pdf
2.WashU表观名浏览器教程讲义:
http://epigenomegateway . wustl . edu/support/Handoutfowashuepigenomebrowseredemo . pdf
3.表观基因组路线图研讨会
https://www . genome . gov/Pages/Research/ENCODE/Tutorials/2016-03-17 _ SOt _ WaSHu _ Epicenome _ Browser _ Tutorials _ Wang . pdf
4.瓦树表观基因组浏览器更新2019
图19。最新版瓦舒Epi基因组浏览器
第2部分:核糖核酸序列数据的生物信息处理
想和大家分享一下RNA-seq分析的基本步骤、关键步骤、主流方法和更新的方法。我们实验室的研究模式倾向于先有思路,再通过公布的数据来验证思路是否正确,预期结果是否有效。这时候就涉及到如何利用数据库提供的或者别人公布的数据来验证自己的想法。
ENCODE和路线图计划中的大部分数据可以从NCBI的SRA部分下载。在这里,让我们举个例子来告诉你如何在NCBI下载一些公共数据。如何找到你关心的癌症或其他疾病的数据?每个人都必须经常使用NCBI的主页,比如PubMed。这里,我们选择SRA而不是PubMed。如果你研究或者关心什么疾病,输入任何关键词,比如肺癌。
图20。NCBI分区域行动计划使用页面
搜索后,类似于PubMed搜索,会出现很多条目。下图21右侧的方框显示了所有的数据,但不是所有的数据都可以下载。对于公共部分,原始数据和处理后的数据都可以下载。如果是控制状态,可能是文章已经提交,杂志要求数据上传,审稿人想看我的数据,作者上传数据后会设定公开日期。比如我觉得文章一年后会发表,所以我把实验数据的控制日期定在一年后。此类数据只能查看,不能下载。可以下载的数据只是公共部分。
图21。肺癌相关数据综述
也可以过滤左边的数据,然后过滤物种智人,继续选择GEO数据集。因此,像PubMed一样,有许多项信息。对于这个数据库,我们只能一个一个打开,然后快速浏览一下。如果您熟悉数据,只需阅读下面描述的信息,就可以快速过滤出所需的信息。不熟悉的可以看看。
图22。中国肺癌相关地理数据集综述
图23。地球同步轨道数据概述
进入界面后,首先检查物种是否与我们关注的物种一致,然后快速浏览总结和总体设计的内容,会说明他的实验是怎么做的,样品是怎么处理的,看是否符合你的预期。在平台部分,平台将被告知大多数Seq数据现在基于Illumina平台,早期的类似Affymetrix和chips。样本显示样本信息,通常称为缩写。例如,有6个对照样本和12个病例样本,共18个样本。您可以下载相关描述文件来识别样本。在下面的SRA部分,点击对应的序列号SRP218977,看到18个样本的列表,点击第一个GSM4041206: MB231。CTL.3智人;RNA-Seq进入详细页面。
图24。地球同步轨道数据中样本的详细信息界面
在底部,我们可以看到有一个SRR数,非常大,有几个G。通常我们不在PC上分析,而是在Linux平台上分析。点击SRR序列号,会有更详细的信息。
图25。SRR 10009503数据详情
SRA数据有自己的下载工具。NCBI首页有专门的下载工具Aspera,这种压缩格式的下载速度还可以。
图26。下载工具阿斯帕拉在NCBI
本地下载后,不能直接打开。直接打开是乱码。因为是压缩格式,不是可视化格式。您应该使用fastq转储工具将压缩格式转换为fastq格式,这是我们公司测量数据的标准格式。下面是SRR518622的一个例子。
图27。使用快速转储将压缩格式转换为快速格式
图28。fastq数据格式
fastq格式是什么样子的?一个fastq文件有很多行,每一行代表一个读数,也就是你测到的一个DNA片段。第一行和第三行是描述。通常,每组数据的第一行都是相似的,但其中包含的具体信息是不同的。其中一些包括全长和条形码信息,每次读取都必须有条形码才能区分。第二行是具体的序列信息,最后一行是基础质量信息。这是稍后进行QC(质量控制)时的评估。比如都是100bp的序列。如何才能评价是否衡量好?
通常公司给你数据后,或者我们自己下载数据,首先要评价QC,或者评价数据质量,那么如何评价数据质量呢?有一个比较简单的工具——fastcqc,但不是最好的工具,只是操作比较简单。如果你有Linux系统,可以直接选择你关心的数据。
图29。fastqc生成的数据质量报告
这是它的成绩报告,主要有绿、黄、红三种颜色。和红绿灯一样,绿色是通行状态,黄色是可以容忍的状态,红色表示质量很差。比如我的测序长度是40bp,我测了两个样本。然后公司给了我结果,我做了两张QC图来评价40bp内每个岗位的测序质量。如果我这样看,左边的变异更小,所以更好。
如果你仔细观察,你还会发现,相应区域的颜色也可以表明它们从下到上是红、黄、绿。如果大部分数据是绿色的,说明质量还可以,数据可以付费。但是如果变异是这样的右边,也有绿的,黄的,红的。这时候你要考虑公司有没有错。你应该叫他争论。有可能是他的测序过程出了问题,让你的数据显示出这种状态。当你在维权,要求公司帮你复试的时候,你要拿出一些证据。
我们得到数据后,就要做地图了。目前,相对早期的方法,如领结和BWA,可能每个人都使用。这里我们以领结为例。作图是指将测量数据拼接到参考基因组的过程。结果报告将显示您的读数上有多少个地图,然后将生成一个相应的文件,并对每行内容进行注释。
此外,我们用来处理RNA-seq的经典方法是tophat和tophat2。Tophat2不仅能把你的数据映射到基因组上,还能告诉你是否有一些连接位置。拼接时,需要看是否有交叉点位置缺失,哪些位置已经缺失和插入。有专门的文件帮你预测。
为什么Bowtie的结果输出的SAM文件要强调SAM格式?因为SAM格式的信息很多,无论你后面做什么分析,大部分数据都可以从SAM格式中提取出来。拓法特使用的地图流程是蝴蝶结的。映射数据后,您可以生成一个SAM。BEDtools可以把SAM转换成一个可以上传到UCSC的文件。如果你有自己的数据,你可以在处理后上传到UCSC,例如,是否有更多的阅读堆积在我感兴趣的地方。如果你没有自己的图片,你可以注册一个账户,然后把数据上传到UCSC。
刚才提到了经典的RNA-seq图谱,我们会采用目前应用比较广泛的tophat2。这篇文章发表在2016年5月的《自然生物技术》上,它开发了一种新的RNA-seq分析算法。当我们做tophat时,我们会选择一个最小长度,输入参数有一个最小长度限制。例如,如果您有10个长度的读数,它会将读数分成几个部分,如123、234和345。如果它的基长是10,你可以得到8粒种子。每个种子都是你地图前的锚。先用这三个锚定到基因组上,再向后延伸。是三个延伸,精度相对高于原锚。有兴趣可以看看这篇论文。
图30。一种新的核酸序列分析策略
本文通过20多个测试数据来评价数据平均精度的波动性。对于Kallisto来说,精度波动不是很大,相对稳定。在计算的时候,基于哈希表的原理,种子首先存储在哈希表中,然后在哈希表中找到。再者,Kallisto跑的更快。如果你用tophat2发现整体贴图效果不理想,可以试试。
为了提取表情谱,我们更常使用袖扣。当用袖扣提取时,每个基因都有特定的表达值。部分数据显示RPKM和部分FPKM。两者有什么区别?其实对于单端测序的数据,都是一样的。如果测量成对端的数据,即一个区域内有两个成对端的位置,RPKM相对不准确。R1算一次,R2再算一次。我们现在用FPKM的比较多。
RPKM是如何计算的?RPKM指的是每百万个作图阅读数的每千碱基阅读数,即每百万个阅读数中某个基因每千个碱基长度的阅读数。比如一个基因上有1000个阅读,总阅读量为100万,外显子总长度为5kb,那么RPKM = 1000/(1 * 5) = 200,其RPKM为200。如果做双端测序,两端都映射好了,它的数据可能是原来的一半,但这种情况并不常见。
第三部分:常见表观遗传学软件和网站介绍
接下来我会分享一些表观遗传学分析中常用的数据库。希望你能通过这一部分了解你的研究领域有哪些资源。以下数据库可能不是最好的,但都是常用的。
脱氧核糖核酸甲基化数据库
1.MethDB: http://www.methdb.de
2.http://www.pubmeth.org公共电视台
3.http://bioinfo.hrbmu.edu.cn/diseasemeth数据库
组蛋白修饰数据库
1.组蛋白:组蛋白信息库
http://www.actrec.gov.in/histome/
2.人类组蛋白修饰数据库
http://bioinfo.hrbmu.edu.cn/hhmd
微小核糖核酸相关数据库
1.http://www.mirbase.org/米尔基地
2.http://zmf.umm.uni-heidelberg.de/apps/zmf/mirwalk2/微步行2
3.http://www.mir2disease.org/ mir2d ise
4.人类微小核糖核酸疾病数据库
http://www.cuilab.cn/hmdd
5.mir2子路径
http://210.46.80.7:8080/miR2Subpath/
6.传统因子和微小核糖核酸调节级联http://210.46.85.180:8080/TMREC/
LncRNA相关数据库
1.https://lncipedia.org/中央数据库
2.核糖核酸和疾病数据库
http://www.cuilab.cn/lncrnadisease
3.非编码http://www.noncode.org/
本文简要介绍了UCSC基因组浏览器、路线图数据库、RNA-seq数据处理流程以及表观遗传学领域常用数据库的使用情况。不过其实任何数据库都可以单独写教程详细解读,工具的使用和熟悉程度还需要结合自己的实际研究进一步探索!
全文结束~
-
手稿整理|表观遗传学课题组成员:彭毓忠(澳门科技大学)、朱(中南大学)、匡正(第二军医大学)
校对&排版|徐鹏(复旦大学)
特别感谢李伟老师对这份手稿的校对和确认。
扩展阅读:
1.《表观遗传学 生信一瞥 | 表观遗传学常用工具及数据库简介》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《表观遗传学 生信一瞥 | 表观遗传学常用工具及数据库简介》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/shehui/1617825.html