本站讯 11月30日消息,由CSDN主办的Hadoop与大数据技术大会在北京新云南皇冠假日酒店开幕。本站直播报道。
以下为Teredata大中华区Aster事业部总监孔宇华做主题为"驾驭大数据:如何实现大数据的应用性"的演讲。
孔宇华:CSDN云计算频道为大会启动了有奖问答,其中一个问题是“怎么让大数据平民化、大众化”,很多参与者的回答让我很有感触。所以今天主要就是讲述如何来让大数据更加地平民化、更加大众化。
大数据是天时地利人和,让它发挥价值也是需要天时地利人和的。不仅在技术方面、在人员方面、流程方面都需要注意。在座的各位对大数据都有一定的研究,现在大数据开发得很好的公司一方面是比较技术型公司,比较注重编程Javy,C,C++和平台的灵活与易用性;另一方面是传统的,非技术型的公司,计算机科学人才数量虽然比较少,但是在维护和管理DBAs方面很有积累,他们关注的是应用。所以在大数据的落地方案中,需要按不同企业、不同行业、不同社会的需求来定位易用。虽然现在讲大数据有四个方面,但易用很重要,因为其能让大数据更加容易被用起来,带来新价值。
SQL与MapReduce
其实大数据在数据仓库里面很早以前就有,之前是用SQL来分析,而后针对一些比较麻烦的、比较复杂用MapReduce。事实上,SQL优点很明显,SQL是高层次的,且易于重复使用,适用于任何数据库结构;纯SQL可以用在大容量的数据,已有许多上百TB级或PB级数据仓。但缺点也同样鲜明。SQL在一些问题上匹配性能较弱;有些问题用SQL繁琐,很难理解,或极难表达;查询优化器做的选择比较低效;User-defined functions(UDF)是一个不完整的修复,不灵活;不是并行设计;跟数据模型关联很大,很难重复使用。所以有了其他的方案,比如Teradata Aster特有方案,现在拥有50+个功能包SQL-MapReduce。
我们在4、5年前就有了SQL-MapReduce,并在加进一些数据库方面的技术之后,做了很多优化。对于大数据框架而言,SQL-MapReduce是建立在数据库上面的,应用方面很多传统公司的分析师可以用SQL来访问这个平台。也因为这是一个SQL平台,所以很多现成的BI的工具都可以马上地放到平台上使用。
另外一个方面,软件开发人员也可以很容易用到这个平台来写平常的MapReduce,所以它兼容了SQL的好处,也兼容了MapReduce的好处。
共建MapReduce功能包
不过传统的公司更希望可以获得MapReduce的功能包,所以更好的应用方法是把一些经常用的功能提供给企业、提供给这些人,提供给社会,可以通过功能包将结构建起来实现分析。我们建了50个功能包,让不同的企业和行业做这样的分析。而对于开发人员,在座的各位如果想写新的功能包,也可以考虑另外一层用户的应用,共建生态合作圈。
现在国内和国外很多的企业都开始知道数据库不是一个完整的企业数据框架,都需要在上面做一些增加接受非结构化的数据,然后在结构化的数据上做更加深的另外一个角度的分析。在现成的数据仓库里面现在看到了比较常见的框架是旁边有一个探索的平台,利用一个平台做快速的结构化、非结构化的数据的探索,做SQL和SQL以外的分析来得到更加大的数据的价值。Hadoop也会在这个框架里起到一定的作用,它可以进行大量的数据的搜集,ETL数据加工、数据储存的作用,可以建立更加好、更加优化的数据平台。
基于这样的平台我们也出了一个方案,其可以结合Aster数据挖掘平台和Hadoop的一些机器一起联合然后中间有一个比较宽的连接器,可以从Aster到Hadoop,以及通过Hortonworks做访问。而且这种分析不用把整个数据全部地table拿过来,只要将一些需要的列、行拿过来分析就可以了。如此,大大地减少了数据搬移的需求,只需要把需要分析的数据搬过来就可以了。
数据分析需要关联
数据分析,刚才讲了数据平台的问题,现在需要看应用方面大数据在传统的公司是怎么利用起来和应用起来的。需要关心的是产品关联。比如我喜欢吃皮蛋瘦肉粥,每次去超市会先买皮蛋之后再买大米,但是如果超市知道客户喜欢吃这个的多,那么他们会搬在一起,这样客户就方便多了。所以很多的超市想知道这样的产品跟另外一些产品的关联度比较大。其实,超市已经开始做了产品的关联了。他们以前怎么做?是用SQL来做,这方面做得比较慢,因为SQL在做产品关联的时候不是最好的平台,它表达出来的也不是表达得很好。以前一个集团做一个这样的关联需要四个小时,而他们的分析师可以可以想象到,给你一个产品关联要回去等四个小时,下一个人做这样子的关联的需求,他要在这个关联后面跑八个小时,所以造成了什么样的情况?他们的分析师对关联有一种恐惧感。导致他们后来根本就不做这种关联的要求了。
而用我们的关联的功能包做分析的时候,两分钟以内就可以实现13个集团超市的分析,改变了整个公司分析师对产品关联的认识。而他们不仅仅可以做全美国超市的产品关联,再下面他们可以做其他区域的产品关联还有其他方面的产品关联。做第一个产品关联是从13周到8年的产品关联,因为13周的产品关联看的时间看不进去,2004年到2011年美国发生了很多的事。客户的行为在这中间肯定也改变了很多事。在他们关联的时候就可以看到这一类产品其实是饮料的产品,跟其他的产品之间关联的变化,他们还可以看到最高的那一曾是麦片跟chess,他们也可以看到麦片跟chess有一些反关联的趋势。第三条线是纸巾和juce的关联,从2004年到2011年的趋势是下降的。
这对他们代表了什么?暂时还不知道。刚才说分析是第一层,是比较肤浅的。但因为有这个工具可以在两分钟之内作出这样的分析,可以接着再做下一步的分析。如果分析需要四个小时的话,可能就没有那么多的耐心做下一步的分析了。在这个基础上可以做不同区域的分析,不同年龄组的分析,一个超市在一个大学城的旁边跟在一个住宅区旁边的需求肯定会不一样的。在城市、郊区也肯定有区别。所以,因为有这个工具他们就可以更快地得到这种信息。在座的各位可能会问那在Hadoop上做这个东西行不行?也肯定行。但这些公司想得到如果在Hadoop上面做,肯定要建立一个比较大的Hadoop团队来维护然后来开发这样一个软件。他们现成的系统里是不支持人员的天时地利和人和的,人就不合。所以就需要在一个更好的、更易用的工具里面来做这样子的分析。之后下一步分析出来了会把一些production的分析方面上面,之后做一些探索的平台。
所以,在大数据方面,从应用看企业需求,从易用看维护,从速度看如何实现数据精华,是最重要的三个方面。
所以我想鼓励在座的各位在开发新的大数据平台、开发大数据产品的时候要考虑到易用。怎么样考虑到你的用户和后端的人员是哪些人,他们是用SQL的还是做代码的。你是要用大数据来解决什么样的问题哪方面的问题,之后再从这个应用的需求方面再推断你需要大数据的平台和技术上的需求。
1.《tere Teredata大中华区Aster事业部总监孔宇华演讲》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《tere Teredata大中华区Aster事业部总监孔宇华演讲》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/477316.html