未来三年,大数据市场规模将达到1万亿元。基于阿里巴巴云大数据平台的数量,将诞生1000多名合作伙伴、1万名首席数据官和5万名数据科学家,这将把中国大数据市场的规模扩大到1万亿元。?——胡小明(孙权)2016年1月20日,阿里巴巴云在2016云起会议上海峰会上宣布开启阿里巴巴十年大数据能力,发布全球首个一站式大数据平台“数字+”。
这个平台承载了阿里巴巴云“包容性大数据”的理想,即世界上任何企业和个人都可以使用大数据。Digital Plus平台首批发布20款产品,涵盖数据采集、计算引擎、数据处理、数据分析、机器学习、数据应用等数据生产全链。
“这是一个人人都在谈论大数据的时代,但只有少数人在使用大数据。”阿里巴巴云大数据部高级主管许特别强调,“这些技术至少领先行业三年”。在输出自己的大数据能力的同时,“Digital Plus”也对拥有数据开发能力的团队开放。这些团队可以入驻“数字plus”,借助数字Plus工具为各行业提供数据服务。“就像淘宝开店一样,他们只卖专业技能。”
这个数到底加多少?我们将从以下几个方面进行分析:
第一,在来世和现世,我觉得阿里很早就很重视数据,很愿意投资。
早在阿里巴巴云成立之前,大约在2006年和2007年,气功组建了一个数据平台部的团队,这个团队就是数据事业部(CDO)的前身。在云端,数据立方体,淘宝时光机,淘宝指数,TCIF,阿里妈妈DMP,全景洞察等。都是这个团队做的,专门解决淘宝早期数据仓库、数据集市、数据分析相关的专业问题。
2009年,王健来阿里谈云计算和大数据的未来愿景,当时没几个人看得懂。不过我觉得马总还是很厉害的,他信了。随后,阿里提出了云计算和大数据相关的策略,阿里巴巴云也在当时成立。
数据平台部门首先使用hadoop代替MaxCompute(以前的ODPS)。最初的Hadoop集群命名为云台1。当时,阿里也在开发自己的计算平台,即ODPS,名为云台2。
当初天梯2不是很好用,但是得到了一个很大的内部客户,就是阿里金融的蚂蚁小贷。基本上可以说,没有蚂蚁小贷的磨合,基本上很难有现在的MaxCompute。
梯子1和梯子2内部争论了很久。后来,出于各方考虑,公司决定启动登月工程,从梯子1转到梯子2。
无论是梯1还是梯2,其实都只是整个大数据技术生态系统的一小部分,也就是计算引擎。我上面说了,一个属于hadoop生态系统,一个属于阿里巴巴云自建的数字加生态系统。
当时内部广泛使用梯子1,所有内部数据处理和数据应用基本都是基于梯子1。此外,阶梯1通过5K项目成功地将单个集群的规模扩大到5000个单位。而阶梯2的生态是后来慢慢建立起来的,底层的计算平台,开发工具/组件,基于各自算法的计算引擎/服务,顶层的各种数据应用/产品。正是在梯子1向梯子2迁移的过程中,这些工具、引擎和应用程序逐渐得到改进和统一。
当然,阿里巴巴云的整个系统,包括内部系统,现在都应用到了数字加技术上,这也是阿里的习惯,把内部使用过,验证过的东西提供给社会使用。这样做的好处是,相对于单纯做产品的大数据公司,比有场景、有需求、成熟度更高要好。
二、数加平台生态的组成二、数字加平台的生态构成
▲数字加平台生态
个人认为整个数字加生态系统可以从以下几个方面来描述:
1、添加底层技术平台
主要包括:
Maxcompute(原名ODPS)是“数加”底层的计算引擎。有两个维度可以看这个计算引擎的性能,1)6小时处理100PB数据,相当于1亿部高清电影。2)单集群规模过万台,并支持多集群联合计算。Analytic DB是实时多维分析引擎,可以实现百亿量级多维查询只需100毫秒。阿里巴巴内部很多面向海量互联网用户的产品的在线大数据查询,很大程度上依赖于Analytic DB。流计算(StreamCompute)具有低延时、高性能的特点。每秒查询率可以达到千万级,日均处理万亿条消息、PB量级的数据。计算引擎之上,“数加”提供了最丰富的云端数据开发套件,开发者可一站式完成数据加工。这些产品包含:数据集成、数据开发、调度系统、数据管理、运维视屏、数据质量、任务监控。总体来说,大数据开发套件的优势包括:支持100多人的协同设计、开发、运维;扩展性好;提供每个产品功能模块的Open API,可以重新开发;多个数据实例之间的数据授权机制保证了数据只能被使用而不可见;提供白屏运维能力,以及现场级数据质量监控、机器预警、资源利用监控等功能,让用户更好的控制自己的数据和数据任务。
计算引擎和大数据开发套件相互依赖,形成了Digital Plus的底层技术平台,与上面提到的Hadoop技术平台相对应。
阿里巴巴云的主要目标应该是做好这个技术平台,更快更好地开放平台的能力。这一层是阿里巴巴云大数据的核心竞争力。
2.数字加应用平台生态系统
基于上述技术平台,阿里还开通了规则引擎、推荐引擎、字符识别、智能语音交互、DataV可视化等数据引擎、服务和产品。这些产品很多都是从阿里自己的业务中提炼出来的,可以直接提供给企业,组合成各种解决方案。
例如:
“数加”发布的机器学习,可基于海量数据实现对用户行为、行业走势、天气、交通等的预测。图形化编程让用户无需编码、只需用鼠标拖拽标准化组件即可完成开发。产品还集成了阿里巴巴核心算法库,包括特征工程、大规模机器学习、深度学习等。规则引擎是一款用于解决业务规则频繁变化的在线服务,可通过简单组合预定义的条件因子编写业务规则,并做出业务决策。比如,银行会设置如果10分钟内用户在两个省份交易,则需要电话确认。推荐引擎是一款用于实时预测用户对物品偏好的数据工具,它能够帮助客户发现众多物品中用户最感兴趣什么。文字识别提供自然场景下拍摄的图片中英文文字检测、识别以及常见的证件类检测和识别。智能语音交互基于语音和自然语言技术构建的在线服务,为智能手机、智能电视以及物联网等产品提供“能听、会说、懂你”式的智能人机交互体验。数码+(Digital Plus)的最终目标不是让阿里巴巴云自己开发所有这些数据服务,而是“数码+”大数据平台也将向具有数据开发能力的团队开放。这些团队可以落户“数字+”并借助数字+(Digital Plus)工具为各行各业提供数据服务。阿里巴巴云计划在三年内吸引1000家合作伙伴分享1万亿大数据蛋糕。
基于底层技术平台,上层的开放可以形成丰富的生态。通过一个开放的平台,凝聚行业的力量,为更多的企业和个人提供大数据服务,这就是包容性的时代。从行业数据分析,预测行业发展方向;小到我们每个人都可以享受大数据的服务,方便我们的个人生活。
3.数字加交易生态系统
基于技术平台和应用平台,个人感觉未来可以打造一个大数据交易市场,可以包括:
应用交易:上文中,我重点描述了数据生态以及算法经济,算法作为大数据时代的另外一个重要要素,未来也是可交易的。基于算法的各种引擎,服务,应用等,既然可以基于数加来开发,就可以不仅仅是自己用,甚至作为一个公共的服务或者产品来出售。数据交易:数据是大数据时代的重要基本要素之一,也是大数据时代的基础生产资料,大数据时代的血液。作为如此重要的生产资料,必须流通才能发挥大数据最大的价值。数加通过多租户,可用不可见,担保交易等设计,未来可以解决数据交易上的各种问题。当然,要想实现大数据交易,首先要解决数据隐私、安全、法规、监管等问题。要解决这些问题,还有很长的路要走。
第三,为什么选择少数加小企业不仅缺乏数据,而且自己搭建不起大数据平台,往往周期长,成本高。很多自建的大数据平台因为没有经过实战测试,没有相应的开发工具或者工具很少,所以存在各种问题。
然而,几个新增功能的出现有望改善这种情况。
据阿里巴巴云披露的估算数据,自建Hadoop集群的成本是几个plus的三倍多,国外计算厂商AWS的EMR成本是几个plus的五倍。
计算效率方面,Sort Benchmark于去年10月28日在官网公布了2015年排名赛最终结果。其中,阿里巴巴云在377秒内整理了100TB的数据,打破了之前由Apache Spark创下的23.4分钟的纪录。
在含金量最高的两个评价体系——灰色排序(GraySort)和微小排序(MinuteSort)中,阿里巴巴云(Alibaba Cloud)分别在通用和专用排序类别上创造了四项世界纪录。
Digital Plus搭载了阿里巴巴的EB级数据处理计算,经过数万名工程师实战测试。
借助大数据技术,阿里巴巴取得了巨大的商业成功。通过对电子商务平台上客户行为的分析,诞生了蚂蚁小额贷款、花园和借贷花园;菜鸟网通过电子脸单、物流云、菜鸟天地等数据产品,为快递行业升级提供技术手段。
可以看出,通过添加数字,企业不仅可以更方便、更便宜地使用各种开发工具。其实比开发工具更重要的是未来大数据的生态。在数据之上,他们可以轻松获得自己想要的各种数据和服务。
“Digital Plus”的发布,明显降低了大数据的应用门槛。通过“加数字”,任何企业或个人都可以非常方便地开发和应用大数据,至少速度、成本和开发效率都有很大提高。
二、数字加1需要面对的问题。基于公有云号码+的安全问题
有人担心阿里会不会偷看或使用这些数据,但他们就是不信任阿里巴巴云。当然,阿里巴巴云官方的回答绝对是:不会!
阿里巴巴云大数据部高级主管许强调,数据是客户的宝贵资产,任何云计算平台都不能用于其他目的。阿里巴巴云将严格遵守去年7月推出的“数据保护提案”,希望全行业自律,共同迎接大数据行业的爆发。
2.基于专有云数字plus的规模问题
如果企业真的担心数据安全,想打造自己的专有云解决方案,目前基于digital plus的解决方案还是太复杂,没有大的预算,基本没有办法实现专有云解决方案。因此,中小企业采用基于私有云数字加的解决方案是不现实的。
就我个人而言,未来的趋势一定是公有云解决方案。
因为:
数据需要流动,互相关联才有最大的价值,所以,数据一定要交换、交易,这个要靠公共云来实现。数据加工的工具、算法、产品等等,也是一个共享的生态,不能指望所有的东西都由自己来研发。跟工业社会一样,未来的大数据时代,是一个全球化分工的时代,不能指望自己的工厂解决所有的问题。我推荐中国新一代大数据用户行为分析与数据智能平台:Digital Geek(https://www . shujike . com),它是第一款支持无埋点、前端埋点、后端埋点、API导入四种混合数据采集方式的互联网数据分析软件,整合分析用户行为数据和业务数据,可以自动监控网站、应用、小程序等渠道的推广效果分析,是黑客成长所必须的。数字极客支持实时多维分析、漏斗分析、留存分析、路径分析等十种数据分析方法,以及APP数据分析、网站统计、web分析、小程序数据统计、用户画像等应用场景。该行业首创了六种数据分析模型来提高转化率。它是用户行为分析领域第一个应用定量分析和定性分析方法的数据分析产品
1.《数加 大数据漫谈(六)——数加平台》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《数加 大数据漫谈(六)——数加平台》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/jiaoyu/744464.html