当前位置:首页 > 攻略

【dwd022】数据重大交付专家告诉我们数据体系结构的分层如何更合理。

总的来说,数据重大体系结构可以分为三个主要层:数据采集层、数据计算层和数据服务层。通过这三个主要层为上层数据应用程序提供数据支持。

数据收集层

对企业来说,每时每刻都会产生大量的数据,数据收集作为数据体系的第一环尤为重要。(威廉莎士比亚,数据收集、数据收集、数据收集、数据收集、数据收集、数据收集、数据收集)

因此,数据采集层需要建立标准的数据采集系统体系,全面、高性能、规范地完成大数据采集,将其传输到大数据平台上。

互联网日志收集系统由两个主要系统组成:web端日志收集技术。APP端日志收集技术方案。

以收集技术为基础,企业可以使用以每个场景为对象的卖场规范来满足日志数据开通等多种业务场景。同时,通过构建高性能、高可靠性的数据传输系统,可以完成从生产业务到大规模数据系统的数据传输。在传输方面,收集技术可以同时包括数据库的增量数据传输和日志数据传输。需要实时流式计算和能够实时支持各种时间窗口的批量计算。另一方面,数据同步工具使您能够直接连接异构数据库(池),以提取不同时间段的数据。

下图显示了数据收集层次结构在数据层次结构中的位置。

数据计算层

在收集系统中收集了大量原始数据后,数据只有整合和计算,才能用于洞察商业规律、挖掘潜在信息、实现大数据价值、实现商业再创造的目的。收集系统收集的大量原始数据将进入数据计算层,进一步整合和计算。

面对海量的数据和复杂的计算,数据计算层包括数据存储和计算云平台以及数据集成和管理系统两大系统。

数据存储和计算云平台

例如,MaxCompute是Alibaba自行开发的离线大数据平台,它具有丰富的功能和强大的存储和计算功能,为企业的大数据提供了强大的存储和计算引擎。StreamCompute是阿里巴巴自主开发的流式大数据平台,内部更好地支持企业流式计算需求。数据集成和管理系统

“OneModel”是数据整合和管理的方法和工具,大数据工程师可以构建统一、规范和可共享的全球数据系统,防止数据重复和重复建设,避免数据烟囱和不一致,并充分利用大数据多样性方面的独特优势。这种集成的数据集成和管理方法使您能够构建企业数据公共层,并快速实施类似的大规模数据项目。数据中数据处理链路也遵循生产数据层(ODS)、详细数据层(DWD、Data Warehouse Detail)、摘要数据层(dws、Data)等行业分层概念,通过数据中跨层处理流程从数据资产过渡到信息资产,并对整个过程进行有效的元数据管理和数据质量处理。

下图显示了数据公共层(ODS DWD DWS)和数据应用层(ADS)在数据层中的位置。

图:数据公共层与数据应用层的关系

(1)集成的基于数据的层

以多种方式收集的丰富数据经过清理、结构化后进入集成的ODS数据基础层。

主要功能包括:

同步:与结构化数据增量或整个数据中间层结构同步:存储非结构化(日志)结构化处理和数据中间层累计记录,清理:根据数据业务要求和审核和审核要求,保留历史数据,负责数据清理,所有数据必须在源上统一,所有基于数据的层次结构必须由一个团队负责控制,其他团队无权复制基于数据的层次结构。

(2)数据中间层

戴尔提供数据建模R & amp执行d,并处理业务(特别是组织体系结构的变化)不容易迁移的数据中间层。包括DWD详细数据中间层和DWS摘要数据中间层。

主要功能包括:

合并相关和类似数据:使用详细的宽表重复使用关联计算,减少数据扫描。共同指标综合处理:以OneData系统为基础,建立命名规范、口径一致性和算法综合统计指标,为父数据产品-产品、应用程序和服务提供共同指标。逻辑概要宽表创建一致性维:创建一致的数据分析维表,以减少数据计算口径和算法不统一的风险。在责任方面,在为业务提供服务之前,集成团队负责从业务中抽象出与业务不同的数据域,领导集成构建数据中间层,包括侧重于详细数据预联接等的详细中间层,以及应用可重用维和指标的汇总数据中间层。特别是,唯一的团队负责将核心业务数据集成到数据中间层。允许对某些业务数据使用独立的数据团队。

一的OneModel体系方法论建设数据体系,ODS数据基础层和DWD+DWS数据中间层因其统一性和可复用性,被称为数据公共层。

(3)数据应用层

在面向应用提供服务时,业务团队或深入业务线的数据团队有极大的自由度,只要依赖数据公共层,即可自由的建设ADS数据应用层。

其主要功能包括:

  • 个性化指标加工:不公用性;复杂性(指数型、比值型、排名型指标)
  • 基于应用的数据组装:大宽表集市、横表转纵表、趋势指标串

数据服务层

当数据已被整合和计算好之后,需要提供给产品和应用进行数据消费,为了更好的性能和体验,需要构建数据服务层,通过接口服务化方式对外提供数据服务。针对不同的需求,数据服务层的数据源架构在多种数据库之上,如Mysql和Hbase等。

数据服务可以使应用对底层数据存储透明,将海量数据方便高效地开放给集团内部各应用使用。如何在性能、稳定性、扩展性等多方面更好地服务用户;如何满足应用各种复杂的数据服务需求;如何保证数据服务接口的高可用。随着业务的发展,需求越来越复杂,因此数据服务也在不断地前进。

不管是数据公共层还是应用层,最终都需要面向业务提供服务。为了让业务部门找数据、看数据、用数据更加方便,我们将OpenAPI升级为能缓解业务变化对数据模型冲击的包括方法论+产品在内的OneService体系,使其在提供统一的公用服务的同时,兼容面向个性化应用的服务。

下图为数据服务层在数据分层中的位置:

图:数据应用层与数据服务层关系

综上,企业数据中台依托数据采集层、数据计算层、数据服务层,为上层数据产品、业务系统等提供数据支撑。云上数据中台产品Dataphin从“采、建、管、用”为企业提供一站式数据中台各层次的实现,配合阿里云系列产品,可实现企业数据中台全链路稳定、高效构建。

作者:柯根


本文为阿里云原创内容,未经允许不得转载。

1.《【dwd022】数据重大交付专家告诉我们数据体系结构的分层如何更合理。》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《【dwd022】数据重大交付专家告诉我们数据体系结构的分层如何更合理。》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/gl/2482901.html

上一篇

【七雄争霸武将精研】最强武将培养攻略详细地宫武,详细培养细节。

下一篇

问道推广员奖励看这里!初心不变十一年少年变大叔,为游戏丢了2个女友放弃了理想的大学

【dwd022】从数据产品经理的角度谈数据处理

【dwd022】从数据产品经理的角度谈数据处理

dwd022相关介绍,数据处理是数据产品经理最重要的部分,与最终报告显示、分析报告、数据驱动相比,往往需要较长的时间,价值较低。我们经常听到相同的功能数据分析结果恰恰相反。追溯原因发现数据处理过程中存在错误等。(大卫亚设)...