人们每天吃饭、睡觉、工作、玩耍、制作数据——大量的数据。IBM称,人类每天产生2.5兆字节的数据。这相当于一堆到达月球和背面的DVD,包括我们发的文字和我们上传的工业传感器指示灯和机对机通讯的照片。
这也是“大数据”成为如此普遍的口头禅的重要原因。简而言之,当人们谈论大数据时,意味着他们可以分析大量数据,对其进行分析,并将其转化为有用的数据。
什么是大数据?
但是大数据远远不止这些。它是关于:通常来自多个来源的大量数据,不仅仅是大量的数据,而是不同类型的数据——通常同时有多种数据,并且数据随着时间而变化——这些数据不需要首先转换成特定的格式或者是一致的,并且以允许为不同目的连续分析相同数据池的方式来分析数据,并且甚至实时快速地完成所有这些。
在早期,这个行业想出了一个缩写来描述这三个四个方面:VVV,代表数量、种类和速度。
大数据和数据仓库
什么是VVV首字母缩略词是一个关键概念,数据不需要为了分析而永久改变。无损分析是指组织可以为不同的目的分析同一个数据库,也可以分析从不同目的收集的数据。
相比之下,数据仓库是专门针对特定目的对特定数据进行分析的,数据是结构化的,并转换成特定的格式,在这个过程中原始数据基本被破坏。为了这个特定的目的,其他的都不叫提取、转换和加载。数据仓库的ETL方法仅限于特定的数据进行特定的分析。当你所有的数据都存在于你的交易系统中时,这很好,但是在今天这个互联网连接的世界里,没有那么多来自任何地方的数据。
但是,不要认为大数据会让数据仓库暂时过时。大数据系统很大程度上允许你处理非结构化数据,但是你得到的查询结果的类型远不如数据仓库的复杂。毕竟,数据仓库是为深入研究数据而设计的,它可以做到这一点,因为它已经将所有数据转换为一致的格式,允许您执行诸如构建多维数据集以进行深度钻孔等操作。数据仓库供应商已经花了很多年来优化他们的查询引擎,以回答典型的业务环境查询。
大数据允许您从更多来源获得更多数据,但分辨率较低。因此,在未来,我们将既有传统的数据仓库,又有新的风格。
大数据背后的技术突破
为了满足数据量大、多样化、无损使用和速度的要求,需要许多技术突破,包括分布式文件系统的开发、动态感知不同数据的方法、Google和Apache Spark最近的MapReduce,以及按需访问和移动数据的云/互联网基础设施。
直到十二年前,任何时候都不可能操纵相对少量的数据。由于数据存储和位置、计算能力和处理能力的限制,来自多个来源的不同数据格式使得这项任务几乎不可能完成。
然后,在2003年左右,谷歌研究人员开发了MapReduce。这种编程技术通过首先将数据映射到一系列键/值对,然后对相似的键执行计算以将它们减少到单个值,来并行处理每个块数百或数千个低成本机器。这种巨大的并行性使谷歌能够从越来越多的数据中获得更快的搜索结果。
2003年前后,谷歌创造了两个突破,使大数据成为可能:一个是Hadoop,它由两个关键服务组成:使用Hadoop分布式文件系统的可靠数据存储和使用一种称为MapReduce的技术的高性能并行数据处理。
Hadoop运行在一系列没有共享服务器的商品上。您可以随意添加或删除Hadoop集群中的服务器。系统检测并补偿任何服务器上的硬件或系统问题。换句话说,Hadoop是自愈的。它可以提供数据,并运行大规模和高性能的处理工作,即使系统已经改变或失败。
虽然Hadoop提供了一个数据存储和并行处理的平台,但真正的价值来自于额外的组件、交叉集成和定制的技术实现。所以Hadoop提供了一些子项目,给平台增加了功能和新功能:Hadoop Common:支持其他Hadoop子项目的通用工具。Chukwa:用于管理大型分布式系统的数据收集系统。HBase:一个可扩展的分布式数据库,支持大型表的结构化数据存储。HDFS:分布式文件系统,提供对应用程序数据的高吞吐量访问。Hive:提供数据汇总和临时查询的数据仓库基础设施。MapReduce:计算集群上大型数据集分布式处理的软件框架。Pig:并行计算的高级数据语言和执行框架。ZooKeeper:分布式应用的高性能协调服务。
Hadoop平台的大多数实现至少包括其中的一些子项目,因为它们通常是利用大数据所必需的。例如,大多数组织选择HDFS作为主要的分布式文件系统,而HBase作为可以存储数十亿行数据的数据库。MapReduce或者更新的Spark的使用几乎是给定的,因为他们给Hadoop平台带来了速度和敏捷性。
使用MapReduce,开发人员可以创建程序,在分布式处理器集群或独立计算机上并行处理大量非结构化数据。MapReduce框架分为两个功能区:映射,一种将工作划分到分布式集群中不同节点的功能。将结果简化、组织和分解为单一值的能力。
MapReduce的一个主要优点是容错性,通过监控集群中的每个节点来实现;预计每个节点将定期报告已完成的工作和状态更新。如果一个节点保持静默的时间超过了预期的时间间隔,主节点将进行记录并将工作重新分配给其他节点。
Apache Hadoop是一个以MapReduce为核心的开源框架,是两年后开发的。Hadoop最初是基于索引现在模糊的Nutch搜索引擎,现在它被用于几乎所有主要行业和广泛的大数据工作。得益于Hadoop的分布式文件系统和纱线,该软件允许用户将大量数据集分发到数千个设备上,就像它们都在一台巨大的机器上一样。
2009年,加州大学伯克利分校的研究人员开发了Apache Spark作为MapReduce的替代品。Spark可以比MapReduce快100倍,因为它使用内存存储来并行执行计算。Spark可以作为一个独立的框架工作,也可以在Hadoop中工作。
即使使用Hadoop,您仍然需要一种存储和访问数据的方法。这通常是通过像MongoDB这样的NoSQL数据库来完成的,例如CouchDB或Cassandra,它处理分布在多台机器上的非结构化或半结构化数据。与数据仓库不同,大量的数据和数据类型被收集成统一的格式并存储在数据存储中。这些工具不会改变数据的基本性质或位置——电子邮件仍然是电子邮件,传感器数据仍然是传感器数据——并且可以存储在任何地方。
然而,在一组NoSQL数据库中存储大量数据是不太好的,除非您采取措施。这就是大数据分析的来源。Tableau、Splunk和Jasper BI等工具允许您分析数据以识别模式、提取意义并揭示新的见解。你从那里做什么取决于你的需求。
1.《什么事大数据 什么是大数据?可以从三个方面去了解》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《什么事大数据 什么是大数据?可以从三个方面去了解》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/junshi/1528465.html