1.数据仓库DW
1.1简介
Data warehouse(可以缩写为DW或DWH)数据仓库是在数据库已经存在很多的情况下进一步挖掘数据资源并为决策需求而创建的。包括ETL、调度、建模在内的完整理论体系。数据仓库的方案构建主要应用于基于前端查询和分析的在线分析处理(OLAP),支持复杂的分析任务,侧重决策支持,听取和提供直观易懂的查询结果。更受欢迎的有AWS Redshift、Greenplum、Hive等。
1.2主要特性
面向主题:生产数据库组织面向事务操作,而数据仓库中的数据根据特定主题域进行组织。主题是指用户在使用数据仓库进行决策时感兴趣的关键方面,其中一个主题与多个运营信息系统相关。整合需要对源数据进行处理和融合,在整合和集成处理过程中,必须消除源数据的不一致,以确保数据仓库内信息的企业一致性全局信息。(关系关系)不可修改的DW中的数据不是最新的,而是来自其他数据源数据仓库的数据,主要用于决策分析。涉及的操作主要是数据查询和与时间相关的决策所需的数据仓库中的数据必须显示时间属性1.3和数据库比较。
DW:是专门为分析数据而设计的,包括读取大量数据,以了解数据之间的关系和趋势数据库。用于捕获和存储数据特性
数据仓库
交易数据库
合适的工作负载
分析、报告、大数据
交易
数据源
从多个来源收集和标准化的数据
从单一来源(例如交易系统)撷取的资料
数据捕获
批量写入操作根据计划的批处理计划执行
使用新数据可以最大限度地提高事务吞吐量,从而优化了顺序写入操作
数据标准化
非标准化架构,例如星型架构或楔形架构
高度标准化的静态架构
数据存储区
为了便于访问和高速查询性能,使用热存储进行了优化
针对在单行物理块上执行高吞吐量写操作进行了优化
数据访问
为最大限度地减少I/O和最大限度地提高数据吞吐量而优化
大量小规模读取操作
2.数据分层
数据分层,每个企业可以根据业务需求划分为不同的层,但最基本的分层概念理论上是将数据划分为三层:数据操作层、数据仓库层和数据服务层。基于这些基本层,提交信息层以满足各种业务需求。
2.1数据操作层(ODS)
ODS:Operation Data Store数据准备区域(也称为paste source layer)。数据仓库源系统中的数据表存储未更改的副本,通常称为ODS层,是后续数据仓库处理数据的源。ODS层数据的来源方法:业务库经常使用sqoop提取(例如,每天定期提取一次)。可以考虑实时以canal方式接收MySQL的binlog。只需要实时访问。埋置日志日志通常存储为文件,可以使用flume计时同步使用spark streaming或Flink实时访问Kafka或OK消息队列(例如,ActiveMQ、Kafka中的数据等)。2.2数据仓库层(DW)
DW数据从下到上分层为DWD、DWB和DWS。
DWD:data warehouse details详细数据层。这是将业务层与数据仓库分开的层。主要对ODS数据层执行数据清理和规范化操作。数据清理:空值、清除肮脏数据、超出限制范围的DWB:数据仓库数据基础层、客观数据存储、通常用作中间层、可视为大量指标的数据层。DWS:data warehouse service数据服务层,合并为根据DWB的基础数据分析主题域的服务数据层(通常是宽表)。用于提供后续业务查询、OLAP分析、数据分发等。用户行为、轻微聚合主要提供ODS/DWD层数据的轻微摘要。2.3数据服务层/应用程序层(ADS)
ADS:应用程序数据服务应用程序数据服务。提供主要用于数据产品和数据分析的数据,通常存储在ES、MySQL等系统中,以便在联机系统中使用。我们说的报告数据,或者通过那种宽表,通常放在这里。
1.《【dwd022】数据仓库层的ODS、DWD、DWS》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《【dwd022】数据仓库层的ODS、DWD、DWS》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/gl/2490175.html