摘要:最近有几起起伏伏,这种情况最适合回到书中去寻找你心中认可的东西。这几天花时间重温《大数据时代》,整理和总结有精华的东西,与大家分享。(大卫亚设)。
大数据引起了变化
当今社会独一无二的新能力:以前所未有的方式分析海量数据,获得具有巨大价值的产品和服务或深刻见解。
1、令人震惊的数据。
2003年人类第一次破译人体遗传密码时,努力工作了10年才完成了30亿对碱基对序列。大约10年后,全世界的基因系统每15分钟就能做同样的事情。在金融领域,美国股市每天的成交量达到70亿股,其中三分之二是由邮件中数学模型和算法上面的计算机程序自动完成的。
2007年,所有数据中只有7%是存储在报纸、书籍、照片等中的模拟数据,剩下的都是数字数据。2000年,数字存储信息仅占全球数据量的四分之一。当时,四分之三的信息存储在报纸、电影、塑料唱片、盒式磁带等媒体上。
2、大数据的本质。
大数据给我们带来的三种破坏性观念的变化:整个数据,而不是随机抽样。不是正确的引导,而是一般的方向。不是因果关系,而是相关关系。
A.整体数据,而不是随机抽样:在大数据时代,可以分析更多的数据,有时不依赖随机抽样,可以处理与特定现象相关的所有数据。
B.不是准确性,而是混合性:研究数据太多,我们不再热衷于追求准确度。因为之前需要分析的数据很少,所以我们要尽可能准确地量化我们的记录,随着规模的增长,对准确度的执着会减弱。(大卫亚设,Northern Exposure,科学)有了大数据,我们就不必再对现象刨根问底了。只要把握大体的发展方向就行了。适当忽略微观层面的准确度,可以在宏观层面获得更好的洞察力。
C.不是因果关系,而是关系关系:我们不再热衷于寻找因果关系,寻找因果关系是人类长期以来的习惯。在大数据时代,不必再关注事物之间的因果关系。要找到事物之间的关联。相关关系可能不能准确地告诉我们为什么会发生某事,但它会提醒我们这件事正在发生。
3、大数据的核心是预测。
大数据的核心是预测。通常被认为是人工智能的一部分,或者更确切地说是机器学习。大数据不是教机器人像人一样思考,而是将数学算法应用于大量数据,预测事情发生的可能性。
不是随机样本,而是整个数据
历史上,记录、存储和分析数据的工具都不足,所以为了简化分析,我们选择减少数据量。统计学的目的之一是用尽可能少的数据来证明可能的重大发现。
1、传统采样精度
采样分析的准确性随着采样随机性的增加而大幅增加,但与采样数量的增加没有太大关系。大致的原因是,当样本数达到特定值时,可以从新对象中获得的信息将越来越少。这类似于经济学的边际效应。
2、随机抽样问题
随机抽样存在很大问题。人们只能在随机抽样中得到预先设计的问题的结果,调查的数据不能重新分析以达到计划以外的目的,如果抽样过程中存在偏见,分析结果就会相差甚远。
3、样本=全部
取样的目的是用最少的数据获取最多的信息。当我们能得到大量数据时,那就没有任何意义了。人生中真正有趣的是,很多时候隐藏在细节中,但采样分析无法捕捉到这些细节(因为采样无法得到计划外的东西)。大数据是在所有数据、至少是尽可能多的数据基础上构建的,因此可以准确地调查细节,进行新的分析。
不是准确性,而是混合性
执着于准确性是信息不足时代和模拟时代的产物。只有5%的数据是结构化的,可以应用于现有数据库。如果不能接受混乱,剩下的95%的非结构化数据将无法使用。
1、小数据时代的正确性。
在“小数据时代”,人们收集和处理数据的能力有限,对于“小数据”来说,最基本和最重要的要求是减少错误并确保质量(信息收集的局限性意味着微小的错误会扩大,或者影响整体结果的准确性)。人们创造了很多正确的系统,使我们接受世界上疲惫而有规律的惨状。——试图假装世界上的一切都排列得很整齐。(莎士比亚,奥赛罗,莎士比亚)。事实上,现实是复杂的,存在于天地之间的东西也比系统想象的要多得多。
2、我们想要的是概率
我们总是为一个“答案”而活。准确度似乎一直是我们生活的支柱,但所有问题只有一个答案的想法是没有根据的。“唯一真理”的存在是不可能的,追求这个唯一真理是对注意力的分散。大数据可能是拯救我们的重要方法。大数据通常不是“准确”的,而是概率的。
无疑”的面孔。不是因果关系,而是相关关系
在大数据时代,我们不必知道现象背后的原因,而是要让数据自己“发声”。我们不再一味追求人们为什么这么做,知道人们为什么这么做可能是有用的,但这个问题目前并不是很重要,重要的是我们能通过大数据分析出人们的相关行为。
1、相关关系
相关关系的核心是量化两个数据值之间的数理关系:相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加;相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。相关关系没有绝对,只有可能性。
2、人们的直接目的就是寻找因果关系
人们的直接愿望就是了解因果关系,我们已经习惯了信息的匮乏,故此亦习惯了在少量数据的基础上进行推理思考。以前我们用实验来证明因果关系,它是通过是否有诱因来分别观察所产生的结果是不是和真实情况相符。但是,凡事皆有因果的话,那么我们就没有决定任何事的自由了。如果说我们做的每一个决定或者每一个想法都是其他事情的结果,而这个结果又是由其他原因导致的,以此循环往复,那么就不存在人的自由意志这一说了——所有的生命轨迹都只是受到因果关系的控制了——这显然是不正确的。
3、 相关关系和因果关系并不矛盾
相关关系分析本身意义重大,同时它也为研究因果关系奠定了基础,通过找出可能相关的事物,我们可以在此基础上进行进一步的因果关系分析,如果存在因果关系的话,我们再进一步找出原因。在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道“是什么”时,我们就会继续向更深层次研究因果关系,找出背后的“为什么”。在小数据时代,我们会假象世界是怎么运作的,然后通过收集和分析数据来验证这种假象;在大数据时代,我们会在数据的指导下探索世界,不再受限于各种假想;我们的研究始于数据,也因为数据我们发现了以前不曾发现的联系。
A.大量的数据意味着“理论的终结”:用一系列的因果关系来验证各种猜测的传统研究范式已经不实用了,如今它已经被无需理论指导的相关关系研究所取代;
B.现在已经是一个有海量数据的时代,应用数学已经取代了其他的所有学科工具,而且只要数据足够,就能说明问题,如果你有一拍字节的数据,只要掌握了这些数据之间的相关关系,一切就迎刃而解了;
C.“理论的终结”:所有的普遍规则都不重要了,重要的是数据分析,它可以揭示一切问题;但大数据并不意味着理论已死,因为大数据就是在理论的基础上形成的。
大数据时代的商业变革
在一个可能性和相关性占主导地位的世界里,专业性变得不那么重要了;行业并不会消失,但是他们必须与数据表达的信息进行博弈。
1、 数据化:一切皆可量化
大数据的核心发展动力来源于人类测量、记录和分析世界的渴望。为了得到可量化的信息,我们要知道如何计量;为了数据化量化了的信息,我们要知道怎么记录计量的结果。如今我们经常把“数字化”和“数据化”这两个概念搞混,但是对这两个概念的区分实际上非常重要:
A.数据化:一种把现象转变为可制表分析的量化形式的过程;
B.数字化:把模拟数据转换成0和1表示的二进制码;
数字化带来了数据化,但是数字化无法取代数据化;数字化是把模拟数据变成计算机课读的数据,和数据化有着本质的不同。
2、当方位变成了数据
1978年见证了一个伟大的转变,当时构成全球定位系统(GPS)的24颗卫星第一次发射成功,通过与技术手段的融合,全球定位系统能够快速、相对低价地进行地理定位,而且不需要任何专业知识。地理位置信息汇集起来,可能会揭示事情的发展趋势;位置信息一旦被数据化,新的用途就犹如雨后春笋般涌现出来,而新价值也会随之不断催生。
3、 当沟通变成数据
社交网络平台不仅给我们提供了寻找和维持朋友、同事关系的场所,也将我们日常生活的无形元素提取出来,再转化为可作新用途的数据。数据化不仅能将态度和情绪转变为一种可分析的形式,也可能转化人类的行为,这些行为难以跟踪,特别是在广大的社区和其中的子人群环境中。
A.Facebook将关系数据化——社交关系在过去一直被视作信息而存在,但从未被正式界定为数据,直到Facebook“社交图谱”的出现;
B.Twitter通过创新,让人们能轻易记录以及分享他们零散的想法,从而使情绪数据化得以实现。
4、“取之不尽,用之不竭“的数据创新
尽管数据长期以来一直是有价值的,但通常只是被视作附属企业经营核心业务的一部分,或者被归入知识产权或个人信息中相对狭窄的类别,但在大数据时代,所有数据都是有价值的。我们的时代,数据收集不再存在固有的局限性,由于存储成本的大幅下降,保存数据比丢弃数据更加容易,这使得以较低成本获得更多数据的可能性比以往任何时候都大。不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理,信息不会像其他物质产品一样随着使用而有所损耗。数据的价值并不仅限于特定的用途,它可以为了同一目的而被多次使用,也可用于其他目的。
End.
运行人员:中国统计网小编(微信号:itongjilove)
中国统计网,是国内最早的大数据学习网站,公众号:中国统计网
1.《【六年级大数据第一单元作文】精华干货,3000字摘要《大数据时代》》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《【六年级大数据第一单元作文】精华干货,3000字摘要《大数据时代》》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/jiaoyu/2631489.html