众所周知,谷歌存储了世界上最大的数据量,包括数千亿的网页和数百亿的图片。没有数据的支撑,Google的搜索、音乐播放、图形搜索、翻译、广告、趋势分析等产品将不复存在。但是,数据本身并不能创造出伟大的产品,它们需要更多的外部条件来支撑各种产品的快速稳定运行。Google构建自己的硬件,构建自己的硬件系统,开发自己的分布式系统软件,通过基础设施和系统设计,让海量数据实现真正的价值。
一、谷歌搜索引擎平台和大数据分析核心技术
Google开发的定制软件包括GFS:Google File System,一个面向数据密集型应用的分布式文件系统;MapReduce,简化处理和创建大规模数据集的编程模型;BigTable用于存储和管理大规模非结构化数据;Sawzall,一种用于在分布式计算环境中分析大规模数据集的解释性编程语言;Google Workqueue用于处理分布式系统队列分组和任务调度等。
GFS,MapReduce,BigTable都是谷歌2003年到2004年发布的。自2009年以来,谷歌尝试了新一代技术来优化各种系统和应用,并取代了原有的系统。咖啡因、Pregel、Dremel的出现再次影响了全球大数据技术的发展趋势。
咖啡因是一个基于Percolator的增量处理索引系统,取代了MapReduce批量索引系统,比MapReduce批量索引系统更快。巨像是专门为BigTable设计的分布式存储系统,也叫GFS2(第二代Google文件系统),专门用来构建咖啡因搜索索引系统。
Pregel主要用于绘制大量在线信息之间关系的“图形数据库”。
Dremel是一种分析信息的方式,可以跨数千个服务器运行,允许“查询”大量数据,比如Web文档集合或数字图书馆,甚至是数百万个垃圾邮件的数据描述。
第二,谷歌的大数据智能应用服务
Google提供的大数据分析的智能应用包括客户情绪分析、交易风险(欺诈分析)、产品推荐、消息路由、诊断、客户流失预测、法律文案分类等。
一些典型应用如下:
1.基于地图缩减,谷歌的传统应用包括数据存储、数据分析、日志分析、搜索质量和其他数据分析应用。
2.基于Dremel系统,谷歌推出了其强大的数据分析软件和服务——大查询,这也是谷歌自己的互联网检索服务的一部分。谷歌已经开始销售在线数据分析服务,试图在市场上与亚马逊网络服务(Amazon Web Services)等企业云计算服务竞争。这项服务可以帮助企业用户在几秒钟内扫描数万亿字节。
3.基于搜索统计算法,Google推出了输入和书写纠错、统计机器翻译等服务。
1.《谷歌引擎 解密谷歌搜索引擎平台和大数据分析技术》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《谷歌引擎 解密谷歌搜索引擎平台和大数据分析技术》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/jiaoyu/1235722.html