当前位置:首页 > 体育

数据湖 什么是数据湖?有什么用?终于有人讲明白了……

简介:数据湖概念的诞生源于企业面临的一些挑战,比如数据应该如何处理和存储。起初,企业中各种应用程序的管理经历了一个相对自然的演变周期。

在开始的时候,每个应用程序都会生成和存储大量的数据,这些数据是其他应用程序无法使用的。这种情况导致数据孤岛。于是数据集市应运而生,应用程序生成的数据存储在一个集中的数据仓库中,相关数据可以导出并传输给企业中需要数据的部门或个人。

然而,数据集市只解决了一些问题。剩余的问题,包括数据管理、数据所有权和访问控制,迫切需要解决,因为企业寻求获得更高的使用有效数据的能力。

为了解决上述问题,企业强烈要求建立自己的数据湖,不仅可以存储传统数据,还可以存储任何其他数据,并可以进一步处理和分析它们,以产生最终输出供各种程序消费。

在本文中,我们将介绍数据湖的一些主要方面,以帮助读者理解为什么它对企业非常重要。

如需转载,请联系大数据(ID: hzdashuju)

什么是数据湖

如果需要定义数据湖,可以这样定义:数据湖是存储企业各种原始数据的大型仓库,数据可以在其中访问、处理、分析和传输。

数据湖从企业的多个数据源获取原始数据,出于不同的目的,同一原始数据也可能有多个满足特定内部模型格式的数据副本。因此,在数据湖中处理的数据可以是任何类型的信息,从结构化数据到完全非结构化的数据。

企业对数据湖寄予厚望,希望它能帮助用户快速获取有用的信息,并能在数据分析和机器学习算法中利用这些信息获得与企业运营相关的洞察。

数据湖与企业的关系

数据湖可以给企业带来多种能力,例如,它可以实现数据的集中管理,在此基础上,企业可以挖掘出许多以前没有的能力。

此外,数据湖结合先进的数据科学和机器学习技术,可以帮助企业构建更加优化的运营模型,也可以为企业提供其他能力,如预测分析和推荐模型,可以刺激企业能力的后续增长。

企业数据中隐藏着很多能力。然而,在重要数据被有业务数据洞察力的人使用之前,人们不能使用它们来提高企业的业务绩效。

02数据湖如何帮助企业

长期以来,企业一直试图找到一个统一的模型来表示企业中的所有实体。这项任务极具挑战性,原因有很多,其中一些列举如下:

一个实体在企业中可能有多种表示形式,因此可能不存在某个完备的模型来统一表示实体。不同的企业应用程序可能会基于特定的商业目标来处理实体,这意味着处理实体时会采用或排斥某些企业流程。不同应用程序可能会对每个实体采用不同的访问模式及存储结构。

这些问题困扰企业多年,阻碍了业务处理、服务定义和术语命名的标准化。

从数据湖的角度来看,我们是以另一种方式来看待这个问题的。通过使用数据湖,可以隐式实现更好的统一数据模型,而不用担心对业务程序的实质性影响。这些业务流程是解决具体业务问题的“专家”。数据湖根据从与实体所有者相关的所有系统中捕获的全部数据,尽可能“丰满”地表示实体。

因为实体表示更好更完整,数据湖确实给企业数据处理和管理带来了很大的帮助,让企业对企业成长有了更多的洞察,帮助企业实现业务目标。

值得一提的是,马丁·福勒(Martin Fowler)写了一篇非常有趣的文章,其中他对企业数据湖的一些关键方面做了简要的阐述,请参考以下链接:

https://martinfowler.com/bliki/DataLake.html

数据湖的优点

企业将在其多个业务系统中生成大量数据。随着企业规模的扩大,企业还需要更智能地跨多个系统处理这些数据。

最基本的策略之一就是采用一个单独的领域模型,它能够准确地描述数据,代表数据对于整体业务最有价值的部分。这些数据指的是前面提到的企业数据。

定义好企业数据的企业当然有一些管理数据的方法,所以企业数据定义的变化可以保持一致性,系统如何在企业内部共享这些信息是很清楚的。

在这种情况下,系统分为数据所有者和数据消费者。对于企业数据,需要有对应的所有者。所有者定义数据是如何被其他消费系统获得的,消费系统扮演消费者的角色。

企业一旦对数据和系统有了明确的定义,就可以通过这个机制使用大量的企业信息。该机制的一个常见实现策略是通过构建企业级数据湖来提供统一的企业数据模型。在这种机制中,数据湖负责捕获数据、处理数据、分析数据以及为消费者系统提供数据服务。

数据湖可以通过以下方式帮助企业:

实现数据治理(data governance)与数据世系。通过应用机器学习与人工智能技术实现商业智能。预测分析,如领域特定的推荐引擎。信息追踪与一致性保障。根据对历史的分析生成新的数据维度。有一个集中式的能存储所有企业数据的数据中心,有利于实现一个针对数据传输优化的数据服务。帮助组织或企业做出更多灵活的关于企业增长的决策。

在本节中,我们将讨论数据湖应该具备的功能。在下面,我们将讨论和评论数据湖是如何工作的,以及如何理解它的工作机制。

数据湖是如何工作的

为了准确了解数据湖能给企业带来什么好处,了解数据湖的工作机制以及构建一个功能齐全的数据湖需要哪些组件就显得尤为重要。在深入数据湖架构的细节之前,我们不妨先了解一下数据湖背景下的数据生命周期。

在更高的层次上,数据湖中的数据生命周期如图2-1所示。

▲图2-1数据湖生命周期

上述生命周期也可以称为数据湖中多个不同阶段的数据。每个阶段所需的数据和分析方法也是不同的。数据处理和分析可以在批处理模式或近实时模式下完成。

数据湖的实现需要同时支持这两种处理方法,因为不同的处理方法服务于不同的场景。处理模式(批处理或近实时处理)的选择也取决于数据处理或分析任务的计算量,因为许多复杂的计算无法在近实时处理模式下完成,在某些情况下,更长的处理周期是不可接受的。

同样,存储系统的选择也取决于数据访问的要求。例如,如果您希望在存储数据时通过SQL查询轻松访问数据,则所选的存储系统必须支持SQL接口。

如果数据访问需要提供数据视图,则涉及到以相应的形式存储数据,即数据可以作为视图提供,并且提供了方便的可管理性和可访问性。

最近,一个越来越重要的趋势是通过服务提供数据,这涉及到在轻量级服务层上向外部世界公开数据。每一项公开提供的服务都必须准确描述服务功能,并向外界提供数据。该模型还支持基于服务的数据集成,这样其他系统就可以使用数据服务提供的数据。

当数据从收集点流入数据湖时,根据其生命周期中的数据敏感性,从数据可追溯性、数据沿袭性和数据安全性等方面对其元数据进行捕获和管理。

数据谱系被定义为数据的生命周期,包括数据的来源和数据如何随时间移动。它描述了各种处理过程中数据的变化,有助于提供数据分析管道的可见性,简化错误的可追溯性。

可追溯性是通过识别记录来验证数据项的历史、位置或应用的能力。

-维基百科

04数据湖和数据仓库的区别

在很多情况下,数据湖被认为等同于数据仓库。事实上,数据湖和数据仓库代表了企业想要实现的不同目标。表2-1显示了它们之间的主要区别。

数据湖

数据仓库

它可以处理所有类型的数据,如结构化数据、非结构化数据、半结构化数据等。数据类型取决于数据源系统的原始数据格式。

只能处理结构化数据,这些数据必须与数据仓库的预定义模型一致。

有足够的计算能力来处理和分析所有类型的数据,分析后的数据将被存储起来供用户使用。

处理结构化数据,将其转换为多维数据或报表,以满足后续高级报表和数据分析的需要。

数据湖通常包含更多的相关信息,这些信息被访问的概率很高,可以为企业探索新的运营需求。

数据仓库通常用于存储和维护长期数据,因此可以按需访问数据。

▲表2-1数据湖和数据仓库的主要区别

从表2-1可以看出,数据湖和数据仓库的区别很明显。但是在企业中,两者的功能是互补的,数据湖的出现不应该被认为是取代了数据仓库。毕竟两者功能完全不同。

05数据湖的构建方法

不同的组织有不同的偏好,所以他们用不同的方式构建数据湖。构建方式与业务、处理流程、现有系统有关。

一个简单的数据湖实现几乎等同于定义一个中央数据源,所有系统都可以使用它来满足所有的数据需求。尽管这种方法可能简单且具有成本效益,但由于以下原因,它可能不是一种非常实用的方法:

只有当这些组织重新开始构建其信息系统时,这种方法才可行。这种方法解决不了与现存系统相关的问题。即使组织决定用这种方法构建数据湖,也缺乏明确的责任和关注点隔离(responsibility and separation of concerns)。这样的系统通常尝试一次性完成所有的工作,但是最终会随着数据事务、分析和处理需求的增加而分崩离析。

构建数据湖的一个更好的策略是将企业及其信息系统作为一个整体来对待,对数据所有权关系进行分类,并定义一个统一的企业模型。

虽然这种方法可能会有与流程相关的挑战,并且可能需要更多的努力来定义系统元素,但它仍然可以提供所需的灵活性、控制和清晰的数据定义,以及企业中不同系统实体之间的关注点分离。

这样的数据湖还可以有一个独立的机制来捕获、处理和分析数据,并为消费者应用程序提供数据服务。

关于作者:Tomcy John是企业级Java技术专家,拥有工程学士学位,14年以上行业开发经验。

Pankaj Misra是一名技术传播者,拥有工程学士学位和超过16年的跨多个业务领域的技术经验。

本文节选自企业数据湖,由出版商授权。

企业数据湖的扩展阅读

点击上图学习购买

转载请联系微信:多哥丸子

推荐:本书旨在帮助您选择合适的大数据技术,使用Lambda架构模式为企业构建自己的数据湖。“数据湖”已经成为大数据行业的一个重要术语。它是数据科学家获得有意义的见解的平台,企业可以利用它来重新定义或改变自己的运营模式。

问:关于数据湖,你还想知道什么?

转载/提交请联系:baiyu@hzbook.com

1.《数据湖 什么是数据湖?有什么用?终于有人讲明白了……》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《数据湖 什么是数据湖?有什么用?终于有人讲明白了……》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/tiyu/1178107.html

上一篇

郭mini露点 专访郭mini丨穿越风暴中心,从青涩走向成熟!

下一篇

沙建微 永德人沙建微,你认识么?

芳华小说 电影《芳华》与原著小说的这些不同,但却依旧很扎心

  • 芳华小说 电影《芳华》与原著小说的这些不同,但却依旧很扎心
  • 芳华小说 电影《芳华》与原著小说的这些不同,但却依旧很扎心
  • 芳华小说 电影《芳华》与原著小说的这些不同,但却依旧很扎心
江阴公司注册 江阴老板注意!注册企业现在方便啦!附江阴12个镇街办理大全

江阴公司注册 江阴老板注意!注册企业现在方便啦!附江阴12个镇街办理大全

想注册公司的市民请注意。 市行政审批局自12月15日起调整企业登记机关。 注册资本500万元以下企业的设立、变更、备案和注销权限将下放至12个镇和街道。 注册资本500万元以下企业的设立、变更、备案和注销登记; 分支机构的设立、变更、备案和注销...

企业微信群人数上限 一分钟让你分清楚企业微信的这些群!

  • 企业微信群人数上限 一分钟让你分清楚企业微信的这些群!
  • 企业微信群人数上限 一分钟让你分清楚企业微信的这些群!
  • 企业微信群人数上限 一分钟让你分清楚企业微信的这些群!
阿胶价位 面对市场上不同价位的阿胶,如何鉴别优劣?

阿胶价位 面对市场上不同价位的阿胶,如何鉴别优劣?

阿胶在中国有3000多年的历史。中医认为阿胶具有益气补血、强身安神的作用。阿胶的价格这几年一路上涨。所以市场上有一些以次充好的阿胶。那么这个阿胶是怎么出来的呢?什么样的阿胶才是真正的阿胶,好阿胶?怎么吃阿胶滋补品比较科学? 电子明胶 什么样的驴...

阿胶的价格 面对市场上不同价位的阿胶,如何鉴别优劣?

阿胶的价格 面对市场上不同价位的阿胶,如何鉴别优劣?

阿胶在中国有3000多年的历史。中医认为阿胶具有益气补血、强身安神的作用。阿胶的价格这几年一路上涨。所以市场上有一些以次充好的阿胶。那么这个阿胶是怎么出来的呢?什么样的阿胶才是真正的阿胶,好阿胶?怎么吃阿胶滋补品比较科学? 电子明胶 什么样的驴...

骕 师大&农大|同样的先骕楼会有怎样的不同

骕 师大&农大|同样的先骕楼会有怎样的不同

在地图APP上输入“先建”会有什么结果?  原来江西农业大学和江西师范大学 每个人都有自己的“第一栋楼” 江西农业大学和江西师范大学更早隶属于国立中正大学,但由于历史变迁,江西农业大学和江西师范大学发展缓慢,但这两所学校仍保留了当时的文化和名称...

阿胶价钱 面对市场上不同价位的阿胶,如何鉴别优劣?

阿胶价钱 面对市场上不同价位的阿胶,如何鉴别优劣?

阿胶在中国有3000多年的历史。中医认为阿胶具有益气补血、强身安神的作用。阿胶的价格这几年一路上涨。所以市场上有一些以次充好的阿胶。那么这个阿胶是怎么出来的呢?什么样的阿胶才是真正的阿胶,好阿胶?怎么吃阿胶滋补品比较科学? 电子明胶 什么样的驴...

蝴蝶面 这样吃面伤宝宝,细数适合不同年龄段宝宝的面条(附三色蝴蝶面食谱)

蝴蝶面 这样吃面伤宝宝,细数适合不同年龄段宝宝的面条(附三色蝴蝶面食谱)

面条是婴儿餐桌的主角之一。 它不仅能提供碳水化合物, 它还能提供蛋白质等丰富的营养。 给宝宝添加辅食的时候可以逐步介绍马妈。 但是应该什么时候加呢? 自制还是买来的? 如何选择? 你每天吃多少? …… 这一系列问题, 让妈妈再挣扎一次, 接下来...