Q
是什么让Greenplum越来越受欢迎,成为新一代数据平台?
01
SQL是数据分析的关键
在存储和分析大型数据集时,有些系统从一开始就被设计成基于数据集的数据库,并使用结构化查询语言(SQL)进行查询,也称为关系数据库管理系统(RDBMS)。有些大数据系统是在平台创建后添加SQL作为函数的(参见noSQL和Hadoop)。
Greenplum数据库从SQL和RDBMS的角度来看是基于PostgreSQL核心的。它被设计为从一开始就存储结构化数据,并使用SQL进行查询。用户可以通过“一个查询引发另一个问题,反过来又引发另一个查询”的模式来迭代地探索和分析数据。这是一种快速理解数据的格式,不需要对用户提出的每一个数据问题都“写软件”。
权限、并发、用户和角色的关系数据库管理系统模型也是一种成熟的访问模型,可以在工作组中共享、保护、管理和组织数据。查询优化、事务管理、多版本并发控制、开放式数据库连接(ODBC)、Java数据库连接(JDBC)都是Greenplum天然的一级公民。
02
演出
基于SQL的系统总是以有效利用磁盘IO为目标。Greenplum的数据管道可以高效地将数据从磁盘传输到CPU,而不依赖于适合RAM的数据。这与内存系统相反,内存系统要么需要足够的内存来存储所有数据,要么是更糟糕的系统。这些系统不是基于RDBMS而是基于内存处理引擎(参见Spark),内存处理引擎需要为每个并发查询分配RAM来存储所有数据,但不能有效地获取和迭代磁盘上的数据。这对大数据集影响很大,因为如果要1000人分析1 PB的数据,内存处理引擎需要1000 PB的RAM。目前这在经济上不可行!
传统的关系数据库管理系统面临的唯一挑战是能否扩展到PB数据集、高并发性和商业产品的价格。对于Greenplum来说,数据扩展不是问题,因为Greenplum可以将数据集线性扩展到PB级别,高效地处理数据;并发和资源共享是Greenplum和其他源自PostgreSQL的产品的固有特性。如果使用开源的商业模式,价格不是障碍。
经过长期的发展,青梅的这些关键成分已经成熟。对于那些想从头开始为大数据构建新的高性能数据库的竞争对手来说,他们已经成为了壁垒:SQL optimizer GPORCA;分布式事务管理器;高速管道互联;工作量管理和资源分组;包括行、列、外部存储和压缩多态存储。另外需要注意的是,Greenplum配备了传统的内置索引,可以对点查询进行高速搜索,这也是从PostgreSQL继承而来的。
03
开源和开放平台
对于竞争平台来说,构建大数据系统是一场军备竞赛。用户会去功能最好、耐用性最强、普及率高的平台。从长远来看,在完全定制的封闭源代码库中实现、支持和构建用户组所需的所有功能是不经济的。大数据平台的每一部分、每一个组件都需要专职开发人员投入其中,整个大数据系统至少有25到50个组件需要密切关注。构建一个将封闭源代码和专有代码库嵌入平台的系统,需要100~500个开发者来构建和运行系统,这部分成本将由付费客户承担。如果供应商坚持使用封闭专有的源代码,这些最终都会导致平台定价过高,功能不足。如果你看看最流行的闭源、专有大数据平台的成本和可用功能,你会发现它们不仅昂贵,而且功能无法快速实现。
相比之下,Greenplum本身就是开源的,也是基于PostgreSQL的开源核心代码。Greenplum不仅得益于开源,还借鉴了开源PostgreSQL在核心数据库引擎20年的开发经验,进而增加了一些管理大数据所必须的组件。与所有封闭的源代码供应商相比,这是一个竞争优势。如果你打算使用一种封闭源(不是基于任何现有的开源标准)的大数据技术,问问你自己和你的供应商,这样做的经济效益如何?供应商打算如何保持局面不亏损?我不羡慕他们现在的地位。
Greenplum是一个开源软件项目(由Pivotal等公司支持)。重点是软件。与大型云提供商生产的数据库不同,Greenplum是运行在Linux服务器上的软件,可以托管在云中,也可以部署在企业数据中心。代码可供查看,社区所做的一切努力都是为了保证软件的可移植性,使其适用于所有类型的环境。
想在Windows或MacBook Air上运行的Docker映像中运行Greenplum?没问题。想在云端跑青梅?没问题。在美国和中国,主要的云提供商已经在其市场上管理了Greenplum版本。很多企业供应商愿意为Greenplum托管服务付费,因为Greenplum有他们想要的东西。这种开放的灵活性使Greenplum成为一个公认的、长期的、值得信赖的平台。如果您想更改基础架构提供者,您不必冒险重新集成基础架构,并更改数据库和应用程序代码以适应数据库的独特风格。
04
可扩展的数据类型和函数
Greenplum的数据类型和函数继承自PostgreSQL项目,可以扩展到创建特定领域的数据类型和函数;支持用户自定义聚合;支持可插拔编程语言;添加计算扩展和软件包。Greenplum附带的扩展模块包括地理空处理、机器学习、图形分析、编程语言编码(Python、R、Java、Perl)、加密和文本分析。
此外,Greenplum还支持JSON、XML、HStore等半结构化数据类型,可以在单个数据库引擎中存储和分析结构化、半结构化和非结构化数据。
假设一个企业想要建立一个PB级的数据库,里面存储着客户信息和微博信息。客户信息可能是成千上万个表中数百兆字节的结构化数据;微博数据是PB半结构化文本,json和其他表中的geographic 空数据。所有这些数据都要加载到一个PB级的数据库中,供并发用户使用常见的SQL进行查询,包括复杂连接和快速关联,或者使用图形分析、文本分析、机器学习和R语言统计进行分析。这就是集中式数据库系统强大的能力,可以存储有助于运行的大型数据集,并在此基础上进行高速并发分析。
05
以企业为中心的项目
到2017年,青梅走过了12年,有着丰富多彩的发展历史。青梅一直是大企业赞助。2008年,Sun Microsystems与Greenplum合作,发挥Sun的Thumper和Thor IO优化企业服务器的功能(cbronline 2008),向企业客户销售Greenplum+Sun硬件组合。2010年,EMC与Greenplum合作构建了一个数据计算设备(EMC视频),为企业客户提供EMC硬件和服务以及Greenplum软件。到目前为止,Greenplum已经部署在1000多个企业客户站点,几乎遍布全球。
多年来,这些客户的反馈极大地影响了Greenplum数据库的发展蓝图和新版本。现在,在Pivotal和戴尔技术的赞助和支持下,Greenplum将继续成为大型企业的首选技术,赢得更多知名客户的青睐。
总结
Greenplum不仅仅是一个数据库,更是新一代的数据平台,让企业有能力了解和探索现在和未来。
作者简介:伊万·诺维克
Pivotal Greenplum产品经理
从2002年开始从事企业软件工作。自2007年以来,他一直致力于大数据和数据库管理系统。2009年,作为一名性能工程师,他开始接触Greenplum数据库,处理各种R&D和支持功能,后来负责世界上最大的数据库Greenplum的产品管理。
欲了解更多技术信息,请访问https://pivotal.io/cn
或者拨打我们的技术热线:400-135-8900
1.《greenplum Greenplum成为新一代大数据平台的5大原因》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《greenplum Greenplum成为新一代大数据平台的5大原因》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guonei/824953.html