当前位置:首页 > 娱乐

SSIS 「数据ETL」从数据民工到数据白领蜕变之旅(六)-将Python的能力嫁接到SSIS中

在之前的推文中,我展示了如何在SSIS上使用dotNET脚本来实现一些原生SSIS人很难实现的功能,并称之为无限可能。

对于一些非dotNET的人来说,很难发挥自己的知识储备能力。这篇文章郑重宣布,所有过去的知识都可以为SSIS所用。

这个演示python脚本有助于清理数据,这成为SSIS过程的一部分。同样,其他语言和工具也可以完成它,只要有最终输出,SSIS就可以使用。

充分复用python的现有优势

Python确实是一种非常好的编程语言,尤其是在数据领域,在web爬虫、数据处理和分析方面非常强大。

估计现在很多做数据的朋友或多或少都会学python。深入学习一门语言代价很高,入门也很容易。

尤其是在掌握一门现有语言的基础上,学习一门新的语言并不难。您可以熟悉语法、现有类库和包调用。

因为作者喜欢使用现成的微软工具,对微软的生态有深入的研究,产品之间有广泛的跨应用场景,所以学习dotNET是一个非常好的投资回报。

如果其他朋友的学习路径主要是python,那么这篇论文可以给python社区很大的乐趣,尽自己最大的努力用python,把剩下的过程交给SSIS现有的成熟易用的数据ETL框架,这样可以充分发挥双重优势。

演示内容介绍

本文打算用python来清理数据。引用的案例是我师傅带我来dotNET产生的案例:清理一个课程数据,转换成结构化的一维表结构。

我的主人精通dotNET、python等语言,是一名专业的程序员。他的代码很标准,值得学习和关注。

详细文章来源:

数据源结构是:

最终转换的结果:

工作原理介绍

这次SSIS可以调用本地程序的函数,调用CMD,然后输入参数python main.py,启用python,运行文件main.py

以上前提是本机安装了python,设置了环境变量,让CMD可以通过轻敲python直接启动python程序,并根据不同脚本的要求安装相应的包。比如本文使用熊猫进行数据清理,熊猫包需要用python安装。

从实例数据运行python脚本。xlsx生成res.csv文件..

在SSIS上使用python脚本

在控制流任务中,有执行过程任务。将任务拖到右侧,双击该任务进行详细配置。

在[处理]选项卡中,将[可执行]参数作为CMD路径,这与运行其他程序相同。

在【参数】参数中,输入CMD调用的参数,在这里输入绝对路径,在CMD参数中加入/C开关,表示CMD程序运行后关闭。

python的路径识别中,需要转换成反斜杠,比如python F:/Share from media/other articles/data ETL/main . py

运行后关闭程序非常重要。如果想在[可执行文件]中直接运行程序,最后一步就是关闭程序本身,比如用dotNET写一些控制台程序。否则,最好使用CMD运行所需的程序,并添加/C开关来关闭它,以便SSIS任务流可以流向下一个任务。

创建任务后,可以独立执行任务,测试最终效果。

在这里,我们将向您展示控制流任务,它可以将我们日常的许多编程代码任务转换成控件拖动的方式。例如,如果上面的py脚本不是防错的,当res.csv文件已经存在时,它将在再次生成时报告错误。这里使用SSIS的[文件系统任务]先完成文件删除操作。

接下来,我们返回到常规任务,提取新生成的res.csv文件并将其加载到数据库中。

本文中的文件是一个csv文件,使用[平面文件源]读取。具体配置比【Excel Source】复杂。但是,因为很常见,所以要熟悉。

我们将目标存储在关系数据库中,这样数据的二次利用更加方便,数据库的存储数据也能得到保证。

最后,我们的数据流任务如下,增加了加载时间,方便了后期审核。

最后,我们的控制流任务如下,以达到我们的预期结果,并将清理后的数据从python中交给SSIS的后续步骤进行调用。

打开SSMS上的目标表,发现数据已成功加载。

为什么不使用一步直接python完成或SSIS完成?

在python社区中,熟练使用后直接将数据上传到数据库并不困难。

但是对于一个基于工具的做事方式,为什么你有现成的不需要的工具,却要自己从头开始写代码,而且写出来的代码没有专业工具那么周到完善,比如数据上传过程中的错误怎么处理?如何保证数据上传的性能等。,没有足够的专业性是写不出健壮的代码的。

所以,如果能充分利用每种工具的最大优势,结合使用,每种工具都可以完成手头的任务,而不用学得太深。为什么不可以?

同理,如果用SSIS直接处理杂乱的数据源,也是一个很痛苦的过程,没有python现成熊猫那样的专业库清理数据方便。

标签

本文再次拓宽了我们的思路,使用现成的SSIS ETL框架功能,加上一些其他现成的易于使用的数据处理工具,使我们的数据ETL过程更加容易,处理更复杂场景的能力也更强。

在下一篇文章中,我们回到微软部门,使用SSIS和PowerQuery将轻量级ETL工具的一些易于使用的功能移植到SSIS,同时避免使用这个短板。请注意。

未来作者将专注于数据共享,不仅限于Excel,还会分享更多诸如Sqlserver、dotNET、Azure、PowerBI等话题。,并提升数据分析能力。欢迎继续关注。*

系列文章

从数据民工到数据白领的旅程(一)——https://www.jianshu.com/p/2bd3f90206ec工具概述

从数据民工到数据白领的旅程(2)——重温Excel catalyst的经典https://www.jianshu.com/p/cb89929bb8ae

“数据ETL”:从数据民工到数据白领的旅程(3)——除了Excel催化剂,PowerQuery更值得https://www.jianshu.com/p/d154b09c881d期待

“数据ETL”:从数据农民工到数据白领的转型之旅(ⅳ)——用PowerQuery还需要SSIS吗?https://www.jianshu.com/p/7ca5a3785bd0

“数据ETL”:从数据农民工到数据白领的转型之旅(5)——用dotNET脚本实现SSIS无限扩张https://www.jianshu.com/p/8de014b1f957

关于Excel催化剂

Excel catalyst最早命名为微信微信官方账号,后来正式推出为Excel插件。插件会持续更新,更新周期看我的时间,争取一周内推出一个大功能模块。Excel catalyst插件承诺个人用户永久免费使用!

Excel catalyst插件采用最新的部署技术实现一次性安装,以后所有更新都会自动更新。与其反复关注更新动态,不如手动下载安装包重新安装,只需一次安装,随时保持最新版本!

Excel catalyst插件下载链接:https://pan.baidu.com/s/1Iz2_NZJ8v7C9eqhNjdnP3Q

联系作者微信官方账号

命名为catalyst,因为Excel本身功能强大,不是每个人都能马上享受到的。大部分人还处于被Excel软件滥用的阶段,也就是想达到的效果在脑子里想清楚了,高手已经达到了,也就是自己弄不出来,或者更糟的是,还不知道Excel能做什么,还在不停的重复,机械的手动的做数据,消耗着无数年的青春。所以诞生了是否可以作为媒介,让广大Excel用户瞬间点燃Excel的爆点,不用日以继夜的苦学技能,不用燃烧高级复杂功能的大脑,最终走向从入门到放弃的道路。

最后,Excel功能强大。其实需要建立一个观点。不是所有的事情都要用Excel来做,也不是所有的事情用Excel都很胜任。外面的世界还是一个广阔的世界。Excel只是耀眼的明星之一,还有很多其他同样精彩强大的技术和工具。*Excel catalyst还会利用这些其他技术,让Excel发挥出更强大的爆炸作用!

Excel催化剂作者

姓名:李伟健,从事数据分析多年(BI方向),也在路上的学习者。

服务行业:零售,尤其是鞋服零售行业,电商(淘宝、天猫、JD.COM、唯品会)

技术路线从一个普通用户,通过学习Excel软件,到数据世界,非专业IT专业人士。

经过重重困难,它终于在数据的道路上到达了技术平原期,学习很多知识不再太难,同时也形成了自己的一套数据解决方案(数据采集、数据处理与清理、数据多维建模、数据报表显示等)。).

擅长技术领域:Excel、VBA&等办公家庭软件;VSTO的二次开发,Sqlserver数据库技术,Sqlserver的商业智能BI技术,Powerbi技术,云服务器部署技术等等。

从2018年开始,他的职业生涯有了重大调整。他从原来的全职变成了自由职业者,暂时没有固定收入。他不清楚前面的路,又要回归全职工作,肯定会对Excel catalyst的运营和发展造成很大影响(全职工作时间内无法在工作时间内维护和发布结果,工作之外的时间也很有限。因为他早年,家庭责任很大)。

希望和广大支持者一起,Excel catalyst可以一直运行,我受益的群体可以给予支持(多消息鼓励,朋友圈推荐,小额奖励,最重要的是可以和我的公司和同行一起推荐,让我的技术在贵公司发挥价值,实现双赢(初步假设可以以数据顾问或者一些小规模项目开发的方式合作)。

1.《SSIS 「数据ETL」从数据民工到数据白领蜕变之旅(六)-将Python的能力嫁接到SSIS中》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《SSIS 「数据ETL」从数据民工到数据白领蜕变之旅(六)-将Python的能力嫁接到SSIS中》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/yule/1078020.html

上一篇

沈昌珉婚礼一张图都没有 沈昌珉结婚对象是竹内涉吗

下一篇

美剧好看的有哪些

世卫组织肯定中国订正病例数据 还原事发经过及背后真相!

世卫组织肯定中国订正病例数据 还原事发经过及背后真相!

世界卫生组织卫生紧急项目技术负责人范凯尔克霍弗4月17日表示,中国向世卫组织上报订正的病例数据非常重要,事关公共卫生,必须掌握确切的数字和情况。她预计许多国家在回顾新冠病例统计数据时都会遇到同样的情况,并表示已关注到有报道...

安徽高考语文 2019年安徽省文理科录取率近1:3,看大数据谋2020年高考!

安徽高考语文 2019年安徽省文理科录取率近1:3,看大数据谋2020年高考!

本文内容 一、2019年安徽省高考总录取人数 二、文理科录取比较 三、新高中第三轮复习计划 1.文理科录取 2019年高考,安徽省考生513,274人。 共有427,136名学生被录取,外加五年制 21,727名学生就读于高等职业院校的第三和第二部分。 综合录取率达到83.9%, 比上年高0...

海鹰 亚马逊工具介绍:海鹰数据

海鹰 亚马逊工具介绍:海鹰数据

深圳林友信息科技有限公司(迎海数据)是一家国内跨境电商大数据分析公司。海鹰数据可以支持Wish、亚马逊、eBay、Shopee数据分析。 以亚马逊为例: 1.抓取范围:服装、鞋类&珠宝类,前4万;所有其他网站的类别,前20,000。 2.特价商品:如在分店类,不要抢;没有一流排名的Asin不...

程序设计导引及在线实践 应用型本科计算机《Android程序设计及实践 》

程序设计导引及在线实践 应用型本科计算机《Android程序设计及实践 》

""  本书是在国家大力推进“互联网+”和创业教育教学方法改革的基础上,按照教育部《创业基础》教学大纲的要求,以传授创业知识为基础,以培养创业能力为重点,以培养创业精神为重点撰写的。 本书共分6章(16讲)。每节课都认真的编撰了创业的基础知识,提出了需要考虑的问题。同时,相关创业案例附在每节...

短链 缩短网址工具遍地都是,为何51la要上线短链分发平台?

  • 短链 缩短网址工具遍地都是,为何51la要上线短链分发平台?
  • 短链 缩短网址工具遍地都是,为何51la要上线短链分发平台?
  • 短链 缩短网址工具遍地都是,为何51la要上线短链分发平台?

menubar 这 13 个小工具,让我的 Mac 菜单栏更好用

金丹有价 金丹科技财务数据前后矛盾 张鹏“不甘心”欲再闯IPO

  • 金丹有价 金丹科技财务数据前后矛盾 张鹏“不甘心”欲再闯IPO
  • 金丹有价 金丹科技财务数据前后矛盾 张鹏“不甘心”欲再闯IPO
  • 金丹有价 金丹科技财务数据前后矛盾 张鹏“不甘心”欲再闯IPO

桂林论坛 中国数字银行论坛·2019桂林论坛召开 国内首个全流程数据治理方案亮相

【桂林日报】(记者孙敏实习生何梅)8月8日,中国数字银行论坛2019桂林论坛在桂林大厦举行。本次论坛聚集了来自全国各地的200多名银行高管、行业专家和主流媒体代表,他们聚集在一起讨论银行数字化转型的新趋势。中国首个全流程数据治理方案在本次论坛上揭晓。 中国数字银行论坛是银行业公认的高标准、高...