对话阿里巴巴云李菲菲:云原生数据库时代即将到来
从1978年中国人民大学经济信息管理系第一任主任萨宣石第一次在黑板上写下“数据库”二字开始,中国数据库就处在被Oracle、DB2、Informix等主流产品所笼罩的市场中。在“不见硝烟,不见枪声”的道路上,从科研到行业,从ebay、淘宝、支付宝等巨头的推广到自我研究,现在也在云计算。
经过40年的激荡,国内厂商打造的丰富生态不亚于国外。对于最初高举“走向IOE”大旗的阿里巴巴来说,在其生态上,从传统的网络型、层次型、关系型数据库,到云数据库和众多自主开发产品的应用,阿里引领了一条属于自己、属于行业的数据库演进之路。值此之际,阿里巴巴云数据库首席负责人、达摩研究所数据库首席科学家CSDN与李菲菲在阿里巴巴云EFC总部昆仑峰会上会面,探讨数据库之路,并解锁鲜为人知的阿里巴巴云数据库故事及其背后的团队文化。
去年和这个月,我在杭州云起镇遇到了邢癫痫。他说的“技术驱动,需求驱动”,给我留下了深刻的印象。以阿里巴巴云数据库首席负责人、达摩研究所数据库首席科学家李菲菲为例,他表示,阿里的产品研发和科研是一条线上的。
今年这个时候,在阿里巴巴云和英特尔联合主办的第二届数据库大赛TAIR性能挑战赛如火如荼的时候,我遇到了李菲菲,他同时说出了这样一句话——把“仰望星空,仰望星空空”的能力和“日式拱门是棋子,摔倒无悔”的工程师文化结合在一起。
已经成为数据库技术领域领军人物的李菲菲从学术界进入行业两年多,也是阿里巴巴云数据库两年的百花齐放,如OLTP的PolarDB、OLAP的AnalyticDB和DLA、NoSQL的Tair和Lindorm等。
在王健院士的《在线》一书中,他深入地谈到了进化论的思想。互联网是世界向在线的进化,云计算是计算机向计算的进化。在数据库领域,它正在从传统数据库向云原生数据库演进。
这在阿里数据库系统中尤为明显。从最早的依靠商业软件的20多个节点的Oracle RAC数据库集群,成为开发和使用开源MySQL最好的企业之一,到云托管数据库和今天的云原生分布式数据库,阿里数据库完成了从商业、开源到自主研究的发展道路,形成了一条趋势极快的山河。
云原生数据库的黄金时代
我相信很多业内人士对李菲菲本人并不陌生。李菲菲也是斯坦福大学人工智能领域的计算机科学教授,他也有同样的名字。男性版李菲菲是数据库和大数据领域的全球领军人物,2018年ACM杰出科学家之一。目前担任中国计算机联合会CCF大数据专家委员会副主任、CCF数据库专业委员会常务委员等职务。他还是2021年VLDB工业大会和2021年国际数据库和大数据顶级学术和技术会议的主席。
这位爱笑又有程序员幽默的大牛,在加入阿里巴巴后的三年时间里,在行业内一次次低调的提出了很多解决方案,多次带领阿里数据库团队和达摩研究所数据库实验室克服云时代数据库技术的瓶颈,比如自主开发的关系数据库PolarDB的诞生,“云原生数据库”的跨越式发展。
同时,李菲菲也坚信“传统数据库将像马车一样被淘汰”
随着云生态的发展,“云原生数据库”已经成为不可逆转的趋势之一。
对此,李菲菲解释说,所谓云原创有两个重要部分:“云”和“原创”。其中,云就是用虚拟化技术来汇聚资源。“资源池”的定义可以追溯到20世纪60年代的冯·诺依曼体系结构,因为它奠定了现代计算机体系结构。冯·诺依曼有两个核心要素:计算和存储,它们构成了冯·诺依曼体系结构的基石,第三个要素——计算和存储之间的通信也可能被加入。在独立部署的情况下,通信是计算和内存总线和IOBUS。但是,在集群部署的情况下,计算和存储之间的通信是网络,这是一种经典的计算机体系结构。
传统的数据库系统都是基于上面提到的经典传统架构设计的,但是这里有一个问题。由于系统架构的原因,传统的数据库系统必须紧密耦合才能充分发挥系统的优势。类似于过去的村庄,每个家庭根据自己的用水量使用一口井,这与传统的使用计算和存储资源的数据库系统是一样的,而且是紧密耦合的。
但是水不够怎么办?李菲菲说:“这需要扩展传统数据库系统中经常提到的业务。在传统金融行业,数据库系统的扩容需要提前几个月甚至半年进行规划,然后精心部署,精心实施,整个过程就是扩容和扩容。」
现在随着云诞生的到来,不需要紧密耦合的部署和使用资源,也不需要家家户户打井。相反,整个村庄联合起来建造一个湖泊或池塘,并修复管道将其连接到每个家庭的厨房,这被称为资源池。资源池化后,资源可以按需使用,灵活调度。资源也可以解耦。
如今,在计算和存储的分离中,行业将CPU和内存绑定在一起,并将其与SSD持久存储分开。李菲菲表示,随着NVM非易失性技术的成熟,下一步CPU和内存将再次隔离,内存将再次汇集形成三层池,这将进一步隔离和灵活,更好地帮助客户根据需求和数量使用资源。
就像上面说的“井与塘”的逻辑一样,随着塘越来越大,越来越多的应用迁移到云端。池塘不再是池塘,而是会变成河流和大海。可以利用传统的分布式技术打开池塘,实现云原生+分布式架构。这带来的好处是经济学上经常听到的一个基本而简单的道理——大规模应用后的边际成本降低效应。这种效果会体现在产品上,客户会从中受益,其TCO肯定会降低。规模实现后,边际成本肯定会下降,这是一个牢不可破的经济学原理。
同样,如果有一万吨水,一个水库维持一万口独立井和一万吨水哪个更简单?“事实上,现代人类文明的发展已经清楚地告诉我们答案是什么,”李菲菲说。在规模带来的边际成本降低,也就是云诞生带来的技术红利和经济红利中,向云诞生技术演进的趋势是自然的,非常明显的,无论是公有云还是专有云的私有化部署都是一样的。
所以云原生数据库来的正是时候。
阿里巴巴云内存数据库的全面破冰
细分层面,在企业级云原生数据库轨道上,阿里推出核心云原生关系型事务数据库poledb和分布式版本poledb-X,同时在传统OLAP领域,推出新一代云原生数据仓库AnalyticDB和云原生数据湖分析Data Lake Analytics。亚行还具备存储与计算分离、存储池化、灵活性、高可用性和离线集成的大数据处理能力,支持客户通过数据库的方式处理传统大数据。DLA采用云原生无服务器的技术和架构设计,实现低成本高效的一键式建湖,自动发现和管理多源异构数据源元数据,支持delta change。低成本的数据湖构建、计算和分析以云本地无服务器的方式实现。
在NoSQL领域,阿里推出了两个核心产品,一个是云原生多模式数据库Lindorm,李菲菲用六个字概括了其主要特点,即为客户提供“实惠且可见”的非结构化和半结构化数据存储和处理解决方案。因此,客户可以在Lindorm中存储大量非结构化和半结构化的数据,并以简单高效的方式处理和查询数据,如时间序列、日志、文档等。
另一个最值得关注的产品是与“Tair性能挑战”的数据库大赛非常相关的缓存,或者叫“内存中的数据库”——Tair,与开源社区版Redis 100%兼容。
其实Tair并不是最新的产品。早在2010年4月,Tair就首次上映。至于泰尔研发的初衷,李菲菲解释说,为了支持双十一场景下自主开发的产品,阿里参考Redis的设计理念进行了大量的技术创新,从而演变成“缓存”和“内存数据库”的产品和技术。现在经过十年的发展,淘宝、天猫、优酷都能看到Tair。
与传统缓存相比,Tair在功能上有了很大的提升。过去传统的缓存是建立在关系数据库或NoSQL数据库上的,类似于MySQL、PostgreSQL或HBase,主要是为了解决冷数据访问中IO延迟大的问题,使数据可以缓存在缓存级别。
阿里巴巴云数据库团队基于对缓存技术的深入理解,进行了大量的深度创新,如热点分解、冷热数据智能分离、集群管理、集群内存的使用和调度等。,从而大大提高了应用程序对缓存和内存数据库的访问,提高了效率并降低了成本。
同时,Tair结合了英特尔AEP非易失性内存技术和神龙虚拟化技术,可以提供基于云原生缓存池的具有持久化能力的内存数据库。因此,企业在使用缓存时带来的许多传统挑战可以大大简化。另外,“性能也有了很大的提高。在标准基准上,在相同的资源消耗下,Tair性能提高了2-3倍”,李菲菲分享道。
泰尔计划的下一步
Tair在云中被称为“企业级Redis”,李菲菲表示,Tair品牌未来将正式商业化。目前,第二届Tair性能挑战数据库大赛指日可待,李菲菲也从未来规划的角度分享了Tair的下一条演进路线。
在当今拥有类似NVM技术的非易失性缓存的行业中,例如英特尔AEP,我们如何更好地利用硬件特性来设计下一代企业级云本机缓存和云本机内存数据库?解决了哪些问题?比如是否可以用NVM,DRAM等做一个智能内存池。在原子读写一致性条件下,在内存中完成计算,建立索引并保持索引和数据的一致性,高并发下写索引Update的挑战,NVM带来的单位字节价格的降低,但是RT和吞吐率相比DRAM没有太大的损失,而且NVM和DRAM的比例可以根据业务需求动态调整,这样在高并发、大写、大访问的情况下,RT不变,但是NVM越多,使用成本越低,可以进行智能调整。
1.《阿里飞飞 对话阿里云李飞飞:云原生数据库的时代来了》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《阿里飞飞 对话阿里云李飞飞:云原生数据库的时代来了》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/1470651.html