别忘了,第一步必须是导入我们的库——导入熊猫为PD
构造数据框最常用的方法是字典+列表。语句很简单。首先将字典括起来,然后依次键入每个列标题及其对应的列值(此处必须使用列表)。此处的列顺序并不重要:
很简单。其实read_csv和read_excel都有一些参数,比如表头、sep、名称等。,您可以进一步了解。实际上,数据源的格式一般都是有规律的,更多的时候是直接读取的。
3.存储
它很简单,粗鲁,类似于商店:
快速识别数据
在这里,以我们的案例数据为例,快速熟悉地查看N行、数据格式概述和基本统计数据。
1.查数据看尾巴
在许多情况下,我们希望对数据内容进行概述。通过使用df.head函数,我们可以直接查看默认的前五行。相应的,df.tail可以查看最后五行数据。可以在这两个参数中传递一个数值来控制查看的行数。例如,df.head(10)表示查看前十行数据。
从上面可以直接知道数据集的行数和列数,数据集的大小,每列的数据类型,有多少条非空数据存在。
3.统计信息概述
快速计算数值数据的关键统计指标,如均值、中位数、标准差等。
我们本来有五列数据,为什么只返回两列结果?这是因为该操作仅适用于数值列。Count计算每列中非空值的数量。平均值、标准值、最小值和最大值对应于该列的平均值、标准偏差、最小值和最大值,25%、50%和75%对应于分位数。
立柱的基本处理
这里我们用SQL四大法宝的逻辑来简单梳理一下列的基本处理方法——增删选改。
温馨提示:使用熊猫时,尽量避免使用行或EXCEL的思维来操作单元格处理数据,逐渐养成一种面向列的思维。每一列都是一个原点,处理起来唰唰又快。
1.增加
添加一列,形式为df['新列名'] =新列值,并在原始数据的基础上赋值:
一般来说,清洗后的色谱柱是为了更换原来的色谱柱:
2.数字类型
数值数据常见的运算是计算,分为单值运算和等长列运算。
以案例数据为例。我们知道源数据的访问者数量。现在我们想在所有渠道增加一万名访客。怎么操作?
只需选择访问者数量所在的列,然后添加10000即可。熊猫会自动在每行值上加10000,以及对单个值的其他运算(减法、乘法和除法)。
列间的操作语句也很简洁。源数据包括访客数量、转化率和客户单价,但实际上我们更感兴趣的是每个渠道贡献的销售额。(销售额=游客数量x转化率x客户单价)
对应操作语句:df['销售额'] = df['访客数'] * df['转化率'] * df['客户单价']
但是你为什么疯狂举报错误呢?
错误报告的原因是数值数据和非数值数据的相互计算。熊猫将带有“%”符号的转换速率识别为字符串类型,在将该列转换为浮点数据之前,我们需要删除百分号:
需要注意的是,这个操作将9.98%改为9.98%,所以我们还需要将支付转化率除以100来恢复百分比的真实值:
然后,用三个指标相乘来计算销售额:
在被转换成时间格式(这里是datetime64)后,我们可以利用处理时间的思想来高效地处理这些数据。比如现在想知道年底前几天提取数据(' 2019-12-31 '),直接做减法(这个函数接受时间格式的字符串序列,也接受单个字符串):
很简单吗?
最后,让我们快速回顾一下本文的内容:
第一步,我们先了解PANDAS到底是个什么东西。第二步,学习如何构建、读入存储数据。第三步,拿到数据之后,怎么样快速查看数据。第四步,对数据有了基础了解,就可以进行简单的增删选改了。第五步,在了解基础操作之后,对Pandas中基础数据类型进行了初步照面。每一步都是基于小而美(毕竟沾沾自喜也是美)和轻量级的初心,我们会一起重新认识和回顾这些模块,然后在接下来的案例实践中对这些操作和分析思路进行测试、巩固和沉淀。
声明:本文为作者提交,版权归其所有。
1.《pandas 不识 Pandas,纵是老手也枉然?》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《pandas 不识 Pandas,纵是老手也枉然?》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/caijing/1551713.html