在前几期中,盛鑫草堂与大家分享了一篇关于TCGA数据下载的文章。小白说,TCGA仍然高深莫测,找不到下载地址,也无法理解数据格式。今天,边肖将从头开始,告诉我们所有关于TCGA的数据库和下载方法,并希望每个人都能好好利用这个宝库。
TCGA 是一个非常重要的癌症数据库,主要包含各种人类癌症的临床数据、基因组变异、mRNA表达、miRNA表达、甲基化等数据,是癌症研究人员的重要数据源。
首先,TCGA官网:https://cancergenome.nih.gov/abouttcga/overview
1.数据级别:
TCGA存储的数据可分为三个级别:
第一级:原始测序数据。)
级别2:比较bam文件
第三级:是经过处理和标准化的数据
1级和2级文件非常大。下载的话可以用官方小工具:GDC Data Transfer Tool,然后再对比一下调用突变,或者提取计数数据进行差分表达式分析。
2.数据权限
一级和二级数据为控制访问,三级数据为部分控制访问,其余开放下载。如果你想下载的数据级别显示为“未授权”,则意味着不能直接下载,需要先向TCGA申请许可。
例如:
理论上,限制下载的数据可以通过申请dbgap账户下载,但是申请这个账户需要NIH/NCI资质审查和eRA账户ID ,所以一般只有国外的PI可以申请审批。所以对于小白来说,这基本上是行不通的,所以边肖建议乖乖地下载3级数据。
3.三级数据下载
主要有两个TCGA 3号数据下载网站:
① TCGA官方数据门户:portal.gdc.cancer.gov
优点:数据最全,更新最快
缺点:每个样本是一个单独的文件。如果下载某个癌症的RNA数据,要下载几百个文件然后合并。
下载方法介绍:
在主页上搜索您想要下载的癌症类型
以表达数据为例,可见LUAD共有515个case有RNA-Seq数据,点击进入。可以过滤左边的样本,点击右边的数字下载Expression数据、Clinical数据和Annotation 。
注意表达数据可以分为三种:HTSeq-Counts、HTSeq-FPKM、HTSeq-FPKM-UQ。计数是未经数据后台处理的原始表达量,而FPKM和FPKM-UQ是对两类数据进行标准化处理后的数据。一般下载计数为差分表达式,下载后再合并所有样本,使用DESeq。
UQ计算方法:
消防软管服务器:gdac.broadinstitute.org
优点:数据也来自portal.gdc.cancer.gov,但是同癌同型的数据合并在一起,超级方便,不需要合并数据,一键下载即可。
下载方法介绍:
点击LUAD对应的数据-浏览
等一下,LUAD项目所有样本的合并三级数据都会弹出来,点击文本就可以下载,非常方便快捷。当然也可以下载临床资料等。,并得到你所需要的。
今天,边肖将向你介绍这么多。当然还有其他下载方式和一些TCGA在线分析工具,不用下载数据就可以分析。下次边肖会把你介绍给你。
盛鑫草堂
浙江大学盛鑫博士团队致力于打造一个供研究者学习交流的公共微信平台。我们致力于为科研界服务,分享最前沿的科技进步,提供分析健康信息的方法,解读经典分析案例,挖掘公共数据库,统计分析临床数据。我们欢迎您加入我们!
1.《tcga数据库 TCGA数据库讲解与数据下载》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《tcga数据库 TCGA数据库讲解与数据下载》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guoji/1804031.html