当前位置:首页 > 科技数码

仓储系统 数据仓储是什么 数据仓储系统组成介绍【图文】

  数据仓储,数据仓储是什么意思

  各个组织每天都要捕获一些基本不可使用的数据,原因是无法很方便地访问、操作和呈现这些数据。在一个组织的各计算机系统上,有数十亿字节的数据基本上是“锁定”的。数据仓储技术定义了可以使该数据更容易访问的策略。

  业内分析人士和系统供应商长久以来已经认识到有两种类型的信息系统:

  作业系统 作业系统是指组织内将输入转换成输出而创造价值的系统。它接受输入,即:人、设备和材料,然后将其转换成能满足需要的商品或服务。这些系统用来处理日常的经营活动,如记帐、订单输入和库存管理等。这些系统维持企业运行。

  信息系统 信息系统是以提供信息服务为主要目的的数据密集型、人机交互的计算机应用系统。人们使用这些系统来分析数据、作出企业管理决策和规划未来发展。这些系统通常是指“经理管理系统”。

  这两个系统之间的重要差别在于,作业系统处理一组特定的数据(如库存),而信息系统则要涉及到从多种多样的相关信息源中提取有用的信息。信息系统从以下信息源访问和使用数据:

  遗留数据系统 一个组织经过多年的收集而获得的数据的仓库。这些系统包括较早的大型机或小型计算机系统,这些系统运行的特定应用程序已经不容易从较先进的基于PC的应用程序中来访问了。

  外部数据系统 这些系统位于组织外部,如Web服务器或订阅数据业务,它们提供了广泛的信息(如人口统计数据、经济趋势数据、产品数据等)。

  作业数据系统 如前所述,作业数据是指由记帐和其他企业系统收集和生成的日常数据。

  数据仓库可以视为一个三部分系统,其中,中间系统向终端用户安全地提供可用的数据。在中间系统的一侧是终端用户,一侧是后端数据存储区。数据仓库通常由以下几部分组成,如图D-12所示

图D-12 数据仓库结构分级系统/数据集市 从后端系统中选择的数据即存储在此,以供客户机访问。通常要以多种方式对数据进行清理和处理才能对其进行访问,这在后面将进行探讨。数据仓库可以包含多个数据集市,每个数据集市对应于公司的一个部门。尽管数据集市可存储从数据仓库提取的信息,但数据仓库常常是分阶段建立的,首先建立部门数据集市,然后将各个数据集市合并起来。

  前端客户机 这些客户机是指使用基于PC的应用程序访问数据以供分析的终端用户。

  中间件 中间件是一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源。中间件位于客户机/ 服务器的操作系统之上,管理计算资源和网络通讯。是连接两个独立应用程序或独立系统的软件。中间件可隐藏不同数据管理系统之间的差别,并使客户机可以容易地访问这些系统。执行中间件的一个关键途径是信息传递。通过中间件,应用程序可以工作于多平台或OS环境。

  消息系统 数据仓库通常包含多个后端系统和多个客户机。一个消息系统就是一个传递系统,用来在整个数据仓库中传输请求和响应消息系统使用基础网络协议和设备传递信息。

  元数据 元数据是描述数据仓库内数据的结构和建立方法的数据,这一点与图书馆的目录卡片包含图书相关的信息很类似。可将其按用途的不同分为两类,技术元数据和商业元数据。

  从图D-12中可以看出,客户机可以访问存储在数据集市中的数据,尽管也可以直接访问遗留系统、作业系统或外部系统。但这种分级的方法有许多优点,其中包括安全性以及客户机对数据分析人员或数据管理员严格控制的数据的访问权。

  关于数据仓库中的信息

  数据仓库可以视为一个系统,该系统保存有来自遗留、作业或外部数据源的汇总信息。分级系统只存储最新的信息,仅供只读使用。所有数据更新均在作业系统上进行,而不在分级系统上进行。根据Prism Solutions(现在称为Informix),在数据仓库中有不同级别的汇总和细节,如图D-13所示。下面进行解释:

  图D-13 数据仓储中的数据结构(经Prism Solutions许可)

  较早的细节数据是指历史数据或遗留数据。

  当前细节数据(通常为作业数据)是指最新的数据,该数据容量非常大,因此需要进行广泛的汇总以使其易于访问。

  轻度汇总的数据是指数据库分析人员或其他一些进程已经从当前细节数据中提取出来的数据。

  高度汇总的数据是指压缩数据,特定部门的终端用户可以容易地对该数据进行访问。

  可以想象,存储在遗留、作业或外部系统中的数据用多种不同的方式编码、构造和存储,并且数据库设计人员多年来使用他们自己的惯例来建立数据库结构。因此,信息在一个数据库中存储的方式与相关信息在其他数据库中存储的方式大相径庭。

  将数据传输到分级系统后,它必须由数据库分析人员或专为该任务设计的应用程序进行“预处理”。处理过程包括提取、清理、合并、更改和操作数据,从而将数据转变为与终端用户关系更大的新的数据集。也可以包括广泛的完整性检查,以确保终端用户可以访问到准确而及时的数据。

  这一过程的主要特征是使用通用的命名惯例和一致的属性、编码和结构来集成数据,例如,来自不同数据库的日期信息的格式可能多种多样(如Julian、yymmdd、mmddyy等),但可以在分级系统上仅以Julian格式重新设置格式和存储。

  如前所述,公司每个部门可以拥有自己的分级系统用于轻度或高度汇总的数据。数据库分析人员通常负责从后端系统上对数据进行汇总和提取,并使其可由终端用户访问。D2K,Inc.将这些分析人员称为“农场主”,因为他们的工作就是提取存储在“服务器场”上的数据。数据农场主可以使用OLAP(联机分析处理)和“数据开采”工具,这些工具可以帮助他们将信息关联在一起,并在数据中发现有趣和有意义的关系。OLAP所提供的数据格式是多维“立方体”,而不是比较传统的表格形式。

  支持数据仓储概念的新软件可用来替代EIS(执行信息系统)和DSS(决策支持系统)。数据仓库中发生的数据不断更新并不会使这些早期的系统受益,并且这些系统仅限于少数决策者使用。

  IDWA(国际数据仓储协会)确定了一种数据仓库类型,并将其称为“作业数据仓库”。该仓库可提供在前端系统已经鉴别的后端数据进行动态访问。它用银行作为例子来说明这一点。该银行被要求来鉴定某家公司的所有资产,银行要从多个不同的系统上提取相关的数据,然后法院传令冻结所有帐号。如果所有这些帐号都存储在多个不同的遗留系统上,则会引发一个问题。银行雇员需要分别关闭每个帐号。如果使用作业数据仓库,则所有帐号可以使用同一种软件来关闭,该软件原本用于提取帐户信息。

  构建数据仓库的目的

  (1)市场的激烈竞争和管理过程的复杂性,决定了一个企业为了生存与发展,就需要对客户关系、市场营销、产品工程、投资分析等方面的历史数据进行提取与分析,从中找到对企业进一步发展有价值的潜在信息。

  (2)数据仓库能够把企业的内部数据和外部数据进行有效的集成,为企业的各层决策提供数据依据。

  (3)企业现有的系统不能提供更多的决策信息(尽管企业已经有了大量的数据积累)。

  (4)通过构造一种体系化的数据存贮环境,将分析决策所需的大量数据从传统的操作环境中分离出来,使分散的、不一致的操作数据转换成集成的、统一的信息。

  (5)可以为市场营销和客户分析提供基本的信息源和辅助工具。

  (6)可以实现对产品、部门、机构的利润与成本分析。

  (7)可以规范管理流程、优化业务处理、提高资本利用率。

  规划和构建数据仓库

  数据仓库的构架由三部分组成:数据源、数据源转换/装载形成新数据库、OLAP(联机分析处理 On-line Analytical Processing)。

  决定构建数据仓库的组织面对着一个重要任务,就是如何生成用户可以使用的及时、准确和有用的信息。为构建数据仓库,曾经有许多被误导的尝试,最终所提供的信息都不准确或不完整。而且常常是除了构建数据仓库之外别无其他选择。另一种方法是将有价值的数据仍锁定在遗留系统中。

  曾经有一个公司构建了七个数据仓库,前六次尝试均以失败告终,成为学习经验。

  数据仓库的实施过程大体可分为三个阶段:数据仓库的项目规划、设计和实施、维护调整。

  构建数据仓库一开始应仔细规划策略并建立原型。在购买昂贵的硬件之前,开发人员应与用户紧密合作,以便准确确定分级系统上需要什么信息以及将如何使用这些信息。完成这一任务的通常做法是构建一些小型系统,然后由这些小型系统扩展成为完整的生产系统。

  供应商们已经开发出一些特殊的系统用于数据仓储。IBM拥有它自己的“信息仓库”系统。并行数据库系统正在出现,可以改善对数据库系统的访问。新的数据可视化工具已经开发出专门用于这一目的的并行处理系统。

  Web接口可能是数据仓储中新的最重要的方面。许多供应商(包括D2K, Inc.)正在开发一些应用程序,用来将存储在仓库中的数据传输到Web浏览器上。“推送”技术用于自动为订阅的用户提供他们所感兴趣的最新数据视图。利用Web技术,只需设置数据格式以便在Web浏览器上显示即可。然后,任何系统上的用户就可以使用任何Web浏览器来显示该信息了。

1.《仓储系统 数据仓储是什么 数据仓储系统组成介绍【图文】》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《仓储系统 数据仓储是什么 数据仓储系统组成介绍【图文】》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/433716.html

上一篇

mac层 MAC是什么 MAC层提供业务介绍【图文】

下一篇

光纤中继器 光中继器原理是什么 光中继器功能特点介绍【图文】

数据电缆 电缆数据网络是什么 电缆数据网络介绍【详解】

数据电缆 电缆数据网络是什么 电缆数据网络介绍【详解】

什么是电缆(CATV)数据网络  在有些国家,有线电视行业已经成为通过升级的CATV(有线电视)网络进行数据传送的主要服务提供商。有线电视行业有许多向订户提供独有服务的计划。高分辨率数字视频以及提供交互游戏接口、Web电视和其他特征的电视机顶盒已是该计划的一部分。电缆数据网络使这一点成为可能。  这里将描述宽带服务是如何通过“电缆网络”传送的,还...

华为手机是安卓系统吗 华为是安卓系统吗,手机安卓系统有哪些优势?

华为手机是安卓系统吗 华为是安卓系统吗,手机安卓系统有哪些优势?

手机对我们来说应该是分不开的。基本上人人都有一部手机。手机品牌很多,比如华为,小米,苹果,而是通常使用的手机系统有苹果和安卓,那么,华为是安卓系统吗?  华为是安卓系统吗?  到2020年为止,华为的手机是安卓系统。但并不排除华为手机未来会使用新的操作系统,华为手机已经参与了fuchsia OS的内部测试。  华为手机使用的EMUI系统(简称EM...

视频点播系统 视频点播系统是什么 视频点播系统组成部分介绍【详解】

视频点播系统 视频点播系统是什么 视频点播系统组成部分介绍【详解】

视频点播(VOD),视频点播(VOD)是什么意思  VOD(Video on Demand)是视频点播技术的简称,也称为交互式电视点播系统,意即根据用户的需要播放相应的视频节目,从根本上改变了用户过去被动式看电视的不足。当您打开电视,您可以不看广告,不为某个节目赶时间,随时直接点播希望收看的内容,就好像播放刚刚放进自己家里录像机或VCD机中的一部...

数据传输 数据传输中成帧是什么 数据传输中成帧知识介绍【图文】

数据传输 数据传输中成帧是什么 数据传输中成帧知识介绍【图文】

什么是数据传输中的成帧  数据传输中的成帧  成帧技术是一种用来在一个比特流内分配或标记信道的技术,为电信提供选择基本的时隙结构和管理方式、错误隔离和分段传输协议的手段。两个计算机或设备之间的点到点的连接中包括一根电线,在这根电线中数据作为位流传输。但是,这些位必须被分成可辨别的信息块。分帧是数据链路层的功能。它使发送器接收器传输一组对有含义的位...

数据特点 数据管理是什么 数据管理特点介绍【图文】

数据特点 数据管理是什么 数据管理特点介绍【图文】

数据管理,数据管理流程和特点有哪些?  数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效地发挥数据的作用。实现数据有效管理的关键是数据组织。随着计算机技术的发展,数据管理经历了人工管理、文件系统、数据库系统三个发展阶段。在数据库系统中所建立的数据结构,更充分地描述了数据间的内在联系,便于数据修改、...

监控系统设计方案 车辆监控系统如何设计 车辆监控系统设计方案介绍【详解】

监控系统设计方案 车辆监控系统如何设计 车辆监控系统设计方案介绍【详解】

GPS(GlobalPositioningSystem)是全球卫星定位系统的英文缩写。GPS系统主要分为三个部分:卫星,在天上提供定位信息;控制系统,在地面维护卫星的正常运转,保证卫星的健康状态;接收机,一般用户所使用的部分。GPRS是通用无线分组业务的缩写(GeneralPacketRadioSystem),是介于第二代和第三代之间的一种技术,...

冗余设计 数据中心如何进行分级布线冗余 数据中心各级冗余布线设计【详解】

冗余设计 数据中心如何进行分级布线冗余 数据中心各级冗余布线设计【详解】

本文根据标准附件中有关数据中心可靠性分级的内容,介绍了数据中心通信基础及布线设计时的冗余考虑。  一级通信  一级通信基础没有冗余考虑,是最基本的数据中心要求。  设施中需要有一个用户自有的维护孔,以及连接数据中心的进入通道。接入服务商的服务要端接在一个进入场所内。整个数据中心内部,通信基础设施将通过一条单独通道分布于进入场所到主分布区和水平分布...

数据库系统的特点 分布式数据库特点是什么 分布式数据库设计目标介绍【图文】

数据库系统的特点 分布式数据库特点是什么 分布式数据库设计目标介绍【图文】

分布式数据库,什么是分布式数据库  分布式数据库系统是在集中式数据库系统成熟技术的基础上发展起来的,但不是简单地把集中式数据库分散地实现,它具有自己的性质和特征。集中式数据库系统的许多概念和技术,如数据独立性、数据共享和减少冗余度、并发控制、完整性、安全性和恢复等在分布式数据库系统中都有了不同的、更加丰富的内容。  现状与需求  有些公司拥有多个...