被调查人|腾讯云地图数据库产品经理邵
记者|彦希
制作人:| CSDN(身份证号:CSDNnews)
《人工智能技术生态》的采访专栏是CSDN发起的面向数百万人的人工智能倡议的重要组成部分。通过对顶级人工智能生态咖啡馆、企业家和KOL的采访,反映了他们对行业的思考、未来趋势判断、技术实践和增长经验。
本文是AI技术生态系列访谈的第三十四期。
最近又一个国内数据库诞生了!这是腾讯图形数据库(Tencent Graph Database),腾讯推出的分布式图形数据库产品。
据说该数据库可以实现数万亿关系数据的实时查询,高效处理异构数据,支持实时图形计算。理论上,这个图形数据库中的集群节点规模可以达到一万多台,不同公共数据集下的查询速度比全球市场占有率最高的Secondary快20-150倍!
近年来,图形数据库越来越受欢迎。根据Gartner的“十大数据分析技术趋势”,从2012年到2022年,全球图形处理和图形数据库应用将以每年100%的速度快速增长。DB Engines近7年的数据库流行趋势也表明,图形数据库在流行程度上远远领先于其他主流数据库。
此前,行业内主流地图数据库产品以国外厂商为主,金融、电商、能源等国内重点行业只能依靠国外地图数据库产品。在这样的背景下,什么时候才能拥有一个真正能满足国内企业需求的强大的国内数据库,成为大家关注的热点话题。幸运的是,随着大数据,尤其是图形数据的重要性被更多的制造商认识到,国内大大小小的工厂也推出了自己的图形数据库产品,试图打破国外技术制造商的垄断,包括阿里巴巴云的图形数据库GDB、蚂蚁金服独立开发的分布式图形数据库GeaBase和华为的GraphBase。杭州光环数字网络科技等小企业也有自己的图数据产品Vega信息科技的星云图和TigerGraph。
从理论上讲,国内数据库产品在技术适应性、安全性、成本等方面应该更符合国内企业的需求和信息化的节奏。事实上是这样吗?我们今天的重点是腾讯云数字地图新发布的TGDB与已发布的地图数据库产品和国外数据库产品相比有什么特别之处。比他们有优势吗?为此,邀请腾讯云地图数据库产品经理邵从研发背景到上层设计全面评价该地图数据库产品是否名副其实。
三峡数据库的R&D背景
由5G、物联网、人工智能等数字技术驱动。,企业数据爆炸式增长,数据关联的复杂性也急剧增加。传统的关系数据库在处理复杂的相关数据时效率低下,难以帮助企业进一步发掘海量关系数据背后的价值。为了更好地利用数据之间的联系,企业需要一种将关系存储为实体并灵活扩展数据模型的数据库技术。腾讯看到了图形数据库隐藏的机会。
腾讯经过深入调查发现,客户往往需要一辆车,除了制造地图数据库的引擎,还需要一系列的合作伙伴做配套工作,以满足企业的需求。目前腾讯图形数据库的生态构成主要由顶尖数据库人才和相关上下游合作伙伴组成,包括海归和10多年的数据库领域资深专家。主要研究方向包括图形数据库的分布式存储、高性能计算、图形算法以及迁移工具、可视化、数据提取、数据建模等生态组件。
图形数据库技术的突破
与国内外其他图形数据库产品相比,TGDB具有一些独特的特点。总的来说,正是因为TGDB的一些技术突破带来了性能的提升和架构的灵活扩展,才实现了全新的特性,包括分散的纯分布式架构、高效的本地存储、图切割和分布式算法等。
分散分布式系统架构
邵表示,TGDB采用分散分布式架构,理论上支持线性扩展。从目前的部署和使用来看,TGDB的图形数据的存储极限还远远没有达到极限。在实验室中,团队测量测试中图形数据集群节点的数量为100。但根据理论推导,TGDB图形数据库的集群节点规模可以达到一万多个,在不同公共数据集下的查询速度比全球市场占有率最高的Neo4j快20倍。
如此大规模的存储限制和极快的查询速度,离不开TGDB的系统架构设计。
TGDB分布式图形数据库从内部架构上主要分为三层:
资源管理层 :负责对底层计算与数据资源进行管理和调配,简单地说,就是负责协调把每个计算任务和对应的数据按照某种算法分发到各个分布式节点上执行、监控、容错并汇总结果;数据抽象层: 提供了属性图(Property Graph)的抽象,涉及到图的数据结构、存储方法、访问模式和消息协议;上层算法应用层 :提供了基于分布式计算引擎的算法,这些算法需要访问数据抽象层的图数据,按照每个算法不同设计,把算法的执行变为可以分布式并行处理的单元,交给资源管理层执行。部署在集群中的TGDB图形数据库系统的体系结构是完全分布式和分散式的,每个节点都是平等的,不存在防止这个问题而导致的单主单点故障或系统复杂性。
底层数据一致性基于一套稳定的消息队列和快照机制,使得任何节点和进程都可以承担一个虚拟稳定的中间信息交互平台,平台保证消息的全局一致性、排序和最高传递。同时支持多个热备盘,结合合理的机柜布局,可以保证高容错性。
从技术角度看,TGDB如何实现万亿关系数据的实时查询?邵详细解释了这一点。
他说,大规模实时查询不是简单的查询分流或优化就能解决的,而是需要查询计划优化、高并发任务处理机制、分布式底层资源管理和系统部署架构的紧密配合。
具体来说,TGDB首先将每个查询或计算请求转换成一个优化的DAG(有向无环图),分布式任务由DAG模型保证正确完成。每个DAG的顶点是可执行任务,边是逻辑序列或数据传输任务。每个机器节点并行调度分解任务。每个DAG被分解成几个独立的计算任务,没有相互依赖性。这些计算任务变得易于分布和并行执行,因为任务与消息发送/接收/处理等问题之间没有依赖关系,大大降低了系统任务控制的复杂度,实现了高并发计算工作流的优化控制。
TGDB分布式资源管理逻辑负责集群的计算资源和数据存储资源的统一管理和调度。任何分布式机器节点都可以注册和发布任务,支持跨平台迁移,并在功能上提供任务的监控、转移和恢复。在分布式资源管理中,采用任务包模式,在平台中构建资源池,使得计算任务能够被各个节点智能获取和执行,并能有效发挥分散自组织架构的优势,从而实现分布式资源的优化、无瓶颈、容错调度。
简单来说,基于这种设计,可以将高度并发的实时查询拆分成易于整个系统分布式并行执行的单元。
本地图形存储
在存储计算方面,TGDB使用原生图形存储,Neo4j是否依赖于任何第三方数据存储平台,如HBase或RocksDB。存储系统由腾讯自主开发,类似于Secondary等国外原生图,但不同于开源的JanusGraph等产品。
相比之下,原生图在查询和运算速度上比非原生图有很大的性能优势。为了说明这一点,邵打了个比方:原生图形上层与存储之间的交流,相当于一个人在大脑中与自己对话,非原生图形上层与第三方存储之间的交流,相当于人与人之间在语言上的交流,需要大声喊出来,对方听到了再回复。可以看出,在非原生模式下,性能成本更高,尤其是深度图查询、多轮迭代计算和地图数据量发生变化时,劣势会更加明显。
图形切割算法
传统的图形算法大多基于矩阵进行表达和计算,TGDB的另一个技术特点是分布式,不仅在系统架构和部署上是分布式的,在分布式图形分割算法和其他分布式图形算法的设计和实现上也是分布式的。是否支持图分区也是一个图数据库能否真正支持线性扩展的关键,这与其他一些数据库产品有着本质的区别。TGDB真正实现了将一幅大图分割成小图,分配到各个分布式节点进行存储,而不是使用Raft协议构建单个节点,整个画面没有图切割,分布式节点上的每个节点都是整个画面的存储方式。显然,后者本质上需要将所有数据存储在一台机器上,并不能真正支持数据量的扩展。TGDB是一个本地分布式图形数据库。数据存储的抽象是顶点和边,而不是矩阵的形式。同时,一个大的图形被分成许多部分,并存储在多个服务器上。在这种新的结构下,传统的图形算法需要完全重写,改为使用顶点和边的方式,充分考虑图形数据片段的分布,优化跨服务器消息传输,实现可扩展的分布式并发执行。
其他特征
查询语言支持 Neo4j 的 Cypher 语言在查询语言方面,TGDB支持second的Cypher语言,可以简单替换为second,还支持易用的图形用户界面,让分析师不用编程就可以快速进行图形管理和图形迭代分析。
TGDB具有可扩展性高、集成度高、运行速度快、部署轻的特点,其核心功能如下:
目前TGDB支持多种算法,并且在不断增加。同时可以结合腾讯的柏拉图计算引擎平台输出算法能力,包括图神经网络的一些算法。此外,邵提到,如上所述,传统的图算法需要在分布式架构下进行重构和优化,TGDB在这方面还有很多科研任务要完成,也是学术领域的前沿领域。
地图数据库展望:首先,金融领域出现爆炸性增长
作为图形数据库领域的专家,邵从技术创新和应用两个方面预测了图形数据库未来的发展趋势。
他预测,图形数据库有望首先在金融领域爆发,因为传统的关系数据库或大数据实际上受到先天架构问题的限制,例如,传统数据库不能很好地解决与金融风险控制相关的问题,以及员工与亲属、员工与客户、客户、业务合规性之间的关系,这些都是非常复杂的关系。
另外,随着5G时代的到来,人与人、人与物、物与物之间的联系信息会越来越多,这也为图形数据库提供了很好的发展机会。
TGDB未来规划:在传统行业取得巨大成就
目前TGDB的应用场景包括互联网、金融风险控制、物联网、电力网络、电子商务、智能交通、生物序列研究、医疗诊断决策、疾病传播分析、辅助司法决策、公共安全等。但邵表示,今后TGDB还将深入挖掘能源、电力等传统行业数据之间的相关性。他说,这些行业虽然有一定的数据整合能力,但是数据之间的关系其实很难挖掘。以电力知识地图为例,它支持电网中访问的各种时间序列测量数据的存储和更新,直接表达电网中电力设备的隶属关系和拓扑结构,充分揭示设备状态与设备之间的关系,实现对全网设备的监控和管理。与传统的基于向量和矩阵的大规模运算耗时操作不同,由于复杂的电力网络和知识以图形结构表示,可以直接在图形上进行查询和计算,计算结果可以直接作为元素存储在图形中,大大提高了电网计算和分析的效率,实现了电网运行方式检索、设备状态推理、设备画像、家庭缺陷分析等应用。
这些都是TGDB未来可以做出很大努力的领域。
1.《qq数据库查询 又一国产数据库诞生!腾讯发布 TGDB,实时查询比 Neo4j 快 20-150 倍!》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《qq数据库查询 又一国产数据库诞生!腾讯发布 TGDB,实时查询比 Neo4j 快 20-150 倍!》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/1108903.html