编辑导游词:相信大家平时用大数据处理产品时,会被各种专业技术名词弄得晕头转向,傻傻分不清。在这篇文章中,作者总结和分类了大数据中常用的一些技术名词。感兴趣的小伙伴也来看看,也许会被使用。
在大数据处理产品中经常遇到技术名词,这里概括整理。
一、数据源类型
1. 宽表 VS 窄表
宽表:表示包含大量字段的数据库表。通常是指与业务主体相关的指标、纬度和属性相关联的数据库表。
广泛应用于数据挖掘模型培训前的数据准备,将相关字段放在同一张表中,可以极大地提供数据挖掘模型培训期间反复计算的消息问题。
数据查询效率提高了,但有很多重复。
窄表:严格按照数据库设计的三种范式。虽然减少了数据重复,但可能需要修改多个表才能修改一个数据。
数据库设计的三种范式:
确保每一列保持原子性。检查表中的每一列是否与主键相关。确保每个列不是间接相关的,而是直接与键列相关的。
2. MySQL
MySQL是一个关系数据库管理系统,它将数据存储在单独的表中,而不是将所有数据放在一个大仓库中,从而提高了速度和灵活性。是目前最流行的关系数据库管理系统之一。
3. Oracle
Oracle是关系数据库管理系统。是数据库领域一直处于领先地位的产品,系统可移植性强、易用性好、功能出色,适用于各种大、中、小型微机环境。
是适应高效、可靠、高吞吐量的数据库方案。
4. GBase
GBase是南大通用数据技术有限公司推出的自有品牌的数据库产品,在国内数据库市场具有很高的品牌知名度。
5. HBase
h基础是分布式的面向热量的开源数据库。
与普通关系数据库不同,它是非结构化数据存储的理想数据库。另一个差异是HBase是基于列的模式,而不是基于行的模式。
6. FTP
文件传输协议(FTP)是用于访问远程资源的网络文件传输标准协议,允许用户往返于文件、目录管理、电子邮件访问等领域。
7. HDFS
HDFS是Hadoop分布式文件系统,旨在将HDFS部署到容错能力高、成本低的硬件上。
它还为具有大型数据集的应用程序提供了适用于应用程序数据的高吞吐量。
二、数据计算
1. MaxCompute
MaxCompute是一项大型数据计算服务,可提供快速、完全托管的Pb级数据仓库解决方案,以经济高效地分析和处理大量数据。
2. Flink
Flink是对无限和边界数据流执行状态计算的框架和分布式处理引擎。
Flink设计为在所有典型群集环境中运行,无论内存速度和规模如何,都可以执行计算。
3. Kafka
Kafka是一种吞吐量高的分布式发布订阅消息系统,可以在网站上处理消费者的所有动作流数据。
4. 离线计算 VS 实时计算
离线计算:也称为“批处理”,是指离线批处理和高延迟的静态数据处理过程。
离线计算适用于离线报告、数据分析等实时要求不高的场景。通用计算框架:MapReduce、Spark SQL
实时计算:也称为“实时流计算”、“流计算”,是指实时或低延迟的流数据处理过程。
实时计算通常适用于实时要求较高的场景,如实时ETL、实时监控等。典型计算框架:Spark Streaming,Flink
5. OLTP VS OLAP
网上交易处理(OLTP):可以说是网上交易,一般适用于网上商业交易系统,如银行交易、订单交易等。
OLTP的主要特点是能够支持频繁的在线操作(进一步删除)和快速访问查询。
线上分析处理(on-line analytical processing,Olap):可称为线上分析处理,重点是将更多应用程式套用至资料仓储区域、支援复杂查询的资料分析,以及为业务提供决策支援。
目前,实时OLAP场景很常见,Druid(不同于Apache Druid、Aridruid)、ClickHouse等存储组件可以更好地满足需求
三、分散相关性
1. Hadoop
Had
oop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。2. HDFS
HDFS是一个Hadoop分布式文件系统。详情在上一小节中已介绍。
3. hive
Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载。
这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。
4. MapReduce
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。
概念”Map(映射)”和”Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。
它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。
5. Spark
Spark是专为大规模数据处理而设计的快速通用的计算引擎,类似于Hadoop MapReduce的通用并行框架,拥有Hadoop MapReduce所具有的优点;
但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
四、数据仓库
1. 简介
数据仓库(全称:Data Warehouse;简称:DW/DWH),是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的。
它是一整套包括了ETL(extract-transform-load)、调度、建模在内的完整的理论体系。
2. 与数据库的差异
数据仓库是专门为数据分析设计的,涉及读取大量数据以了解数据之间的关系和趋势。而数据库是用于捕获和存储数据。
3. 分层
- ODS(Operation Data Store): 数据源头层,数据仓库源头系统的数据表通常会原封不动的存储一份,这称为ODS层(可理解为原始库),是后续数据仓库加工数据的来源。数据来源:业务库、埋点日志、消息队列。
- DWD(Data Warehouse Details ):数据细节层,是业务层与数据仓库的隔离层。主要对ODS数据层做一些数据清洗和规范化的操作。数据清洗:去除空值、脏数据、超过极限范围的。
- DWB(Data Warehouse Base):数据基础层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层,可理解为知识库字典、常用标准库。
- DWS(Data Warehouse Service): 数据服务层,基于DWB上的基础数据,整合汇总成分析某一个主题域的服务数据层,一般是宽表。用于提供后续的业务查询,OLAP分析,数据分发等。
- ADS(ApplicationData Service):应用数据服务,该层主要是提供数据产品和数据分析使用的数据,一般会存储在ES、mysql等系统中供线上系统使用。
4. 数据地图
以数据搜索为基础,提供表使用说明、数据类目、数据血缘、字段血缘等工具,帮助数据表的使用者和拥有者更好地管理数据、协作开发。
5. 数据血缘
即数据的来龙去脉,主要包含数据的来源、数据的加工方式、映射关系以及数据出口。
数据血缘属于元数据的一部分,清晰的数据血缘是数据平台维持稳定的基础,更有利于数据变更影响分析以及数据问题排查。
本文由@丸子不爱吃丸子 原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于CC0协议
1.《【dwd022】大数据的技术概念》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《【dwd022】大数据的技术概念》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/gl/2490845.html