我前面说过,在数据分析中,我们要处理的表都是结构化数据表。什么是结构化?用白话来说,“数据表”(table)的第一行是每列的名称,其馀所有行都是数字值,如下图所示
下图是一个非结构化数据表的示例。
数据分析要处理的表是第一个图中所示的结构化数据表,SQL语句要处理的表的格式也是结构化的。在实际工作中,数据源不是结构化的,非结构化的数据格式也各不相同。为此,在保存到数据库之前,必须根据实际工作结构化非结构化数据。
今天,我将分享一个在非结构化表中使用Excel转换为结构化表的示例。以NBA数据为例,要分析运动员在比赛中的成绩,我们必须在一个表格中输入统计数据。一般来说,我们没有办法获得每场比赛的原始统计数据,但赛后统计数据都放在网站上。如下图所示。
但是,如果选择将数据复制到Excel,则结构如下:
此数据的格式不是结构化数据表,此表的格式不能存储在数据库中,例如行与行之间的空格。还有一些不是我们想要的数字,例如“undefined”。名字列中的选手的姓氏和名字没有列入数字。我们要把这张表转换成表格。我的方法如下。
第一步:删除“undefined”,首先选择“名称”列,然后选择Ctrl H。此功能是用其他数值替换表中的某些数值。在此示例中,使用空格代替“undefined”代替“undefined”,然后单击Replace All。
这样可以消除不想要的数字。
第二步:把选手的名字放在数据里。在此阶段,我使用的方法是在名称和位置之间插入两列,在D2中输入公式“=C3”,然后下拉,如下图GIF所示。
如下图GIF所示,在E2中输入公式=CONCAT(C2,'-',D2)。
这样获得了新的名字列,从这一列可以看出,一些选手的名字比较正常。
第三步:取消部分中间空格。在此阶段,我使用的方法是选择G列,然后单击Data中的filter以减去blank。如下图所示。
然后,您可以将数据从“名称”列复制到最后,然后将其粘贴到新工作表中。例如,如果将“%”替换为命中率,将“/-”替换为“正数负数”,则可以获得格式化的数据表。
上图所示为结构化数据表,因此可以将格式表输入到数据库系统中,以执行以下分析:
当然,在实际工作中,非结构化数据可以说是多种多样的。今天只是一个使用Excel将非结构化数据转换为结构化的简单例子。我个人认为Excel在这方面非常强大。因为上面提到的一系列流程也可以用Excel的Macro记录,下次只要复制和粘贴数据,就可以自动生成结构化数据表单。(大卫亚设,Northern Excel(美国电视剧),Northern Excel)希望今天的分享能帮助大家。
在网上拍照,入侵并删除。
1.《【excel非怎么用】共享实例:使用Excel将非结构化NBA数据表转换为结构化表》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《【excel非怎么用】共享实例:使用Excel将非结构化NBA数据表转换为结构化表》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/2512346.html