在共表达分析中,通过整合大量相关公共样本的测序数据,可以构建比常规样本量更高可靠性的基因共表达网络,从而可以基于该网络进行更准确的后续分析:

a)预测靶转录因子和靶调控网络中关键转录因子的下游调控基因;

b)预测ncRNA和mRNA之间的靶向关系;

c)基于网络中已知的功能基因,推断网络中其他功能未知的基因的功能;

e)将每个共表达模块作为一个整体,计算每个共表达模块与每个组织或每个发育时间点的相关性,建立与每个组织或每个时期相关的基因表达网络......

思维分析

一般认为功能相关基因在生物体内具有相似的表达模式,例如转录因子及其下游调控基因、lncRNA及其反式调控的靶基因、同一代谢途径中的基因都是功能相关的。因此,研究人员可以根据每个基因的表达模式来判断这些关系。

在置信度分析中,研究人员可以使用共表达分析方法,基于转录组测序数据分析每个基因的表达模式,最终将不同的基因分类到自己的表达模式网络中。常用的共表达分析方法主要有WGCNA和k-means两种。在大样本量下,建议使用WGCNA。与K-means相比,通过使用相关系数加权幂等优化算法,并考虑两个基因间的间接相关性,构建的共表达网络更符合基因调控网络无标度网络和基因间间接调控的特点。

无论用哪种方法进行共表达分析,从统计学的角度来看,样本量越大,预测的基因表达模式的分辨率越高,构建的共表达网络越可靠。受项目资金的限制,许多研究人员在公共数据库的帮助下扩大了共表达分析的样本量。

结论理论

利用大鼠体表核糖核酸序列数据,构建了4个发育期11个组织中3458个非编码基因的表达谱。构建编码基因和非编码基因的共表达网络,推断蛋白质非编码基因的生物学功能,将年龄相关模块丰富到免疫系统发育相关项目中。年龄相关brown模块的可视化分析表明,大鼠的非编码基因和免疫系统相关基因参与了网络操作。

边肖有话要说

随着各种公共数据规模的不断扩大和大数据存储、传输和分析技术的成熟,公共数据集成分析逐渐成为许多研究中的一种重要分析方法。公开数据的使用一方面可以降低研究成本,另一方面也可以补充一些受研究者研究背景和技术水平限制,难以独立检测的关键数据。

在基因组学研究领域,高通量测序技术出现后,各种测序数据库的规模开始呈指数级增长。到目前为止,基因组数据库已经记录了135,364个基因组组装结果,高通量测序数据库的SRA数据库已经记录了超过10个碱基的NGS数据。虽然公共数据资源如此丰富,但目前国内研究人员还不能高效地整合和利用这些公共数据,少数能够整合公共数据的研究大多无法获得高质量的研究成果。分析原因,主要有两点:

1)公共数据整合分析过程中的下载、存储、分析环节存在较高的技术门槛;

2)国内研究者对公共数据集成的分析缺乏研究和了解。

对于上面提到的技术门槛,百迈科提供了非常成熟的解决方案。登录白玛客云平台的www.biocloud.net,进入平台的“公共数据模块”,即可进行升信0基础用户的公共数据使用模式,不需要下载公共数据,一键导入可视化分析系统进行独立分析。平台数据库模块与SRA数据库保持同步。

1.《基因调控网络 秘籍|整合公共数据,构建物种基因调控网络(上)》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《基因调控网络 秘籍|整合公共数据,构建物种基因调控网络(上)》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/jiaoyu/1760768.html