当前位置:首页 > 房产信息

turkiye 你总说没有经历没人要?这24个全网公认最有价值的开源数据项目你做了么?

你消化了今天的知识吗?

美人儿

想快速入门数据科学?做一些数据科学项目往往是一个很好的敲门砖。做这些项目,不仅可以练习掌握相关技能,还可以写在简历里!要知道,现在HR判断求职者潜力的方式,已经不是看他取得了什么证书,而是看他做了什么项目。如果你没有什么东西给他们看,你说你会做很多,他们只会觉得你只是说说而已,不练招数。

你可能做了很多数据相关的事情,但是如果你做的事情不好向大家展示和解释,HR怎么知道你也有两把刷子呢?这就是我们今天介绍的项目可以帮助你的地方。我们保证这些项目的含金量,你保证你在上面花足够的时间,那么你一定会收获很多。

而且,我们为你选择的项目横跨各个领域,无论你喜欢哪个领域,都能找到你喜欢的话题;每个合格的数据人都应该有处理大数据集的经验,所以也有一些大数据集供你选择。最重要的是,零成本,免费!

由难到易

为了让你知道从哪里开始,我们将这些数据集按照难度分为三个级别:

首先,入门

这一级别的数据集往往处理起来相对简单,不需要任何复杂的技术就可以通过分类或回归算法来解决。而且这个数据集有一个公共教程教你怎么做,不至于让你一上来就全瞎闭门造车。

第二,高级

与原始数据集相比,这一级别的数据集相对复杂且较大,需要一定的模式识别能力。而且一个优秀的特征工程往往会带来更好的分析结果。你能想到的机器学习方法,从简单到复杂,都可以。

第三,高级

这种级别的数据集更适合了解神经网络、深度学习或推荐系统等热点话题的人。这些数据集往往有很多特色,是适合你施展才华的地方。

初级课程

1.虹膜数据集

可能没有更适合初学者分类问题的数据集了,只有150行4列。如果你是小白,就不能错过这个数据集。

问题:预测花的种类

数据:https://archive.ics.uci.edu/ml/datasets/Iris

教程:https://www.slideshare.net/thoi _吉安/iris-数据分析-带-r

6.葡萄酒质量数据集

这个数据集很受数据科学新粉丝的欢迎。分为两部分,可以用来分类,也可以用来回归。它可以测试你处理离群值、模型选择和不平衡数据的能力。它有4898行和12列。

问题:葡萄酒质量预测

数据:https://archive.ics.uci.edu/ml/datasets/Wine+Quality

教程:https://web.stanford.edu/~ilker/doc/wine_Stats315A.pdf

7.图尔基耶学生评估数据集

该数据集取自学生对多门课程的教学评价。它包含了很多特征,如出勤率、难易程度、年级等,这是一个无监督学习的问题。该数据集有5820行和33列。

问题:使用分类和聚类技术处理数据

数据:https://archive.ics.uci.edu/ml/datasets/wine+quality

教程:https://sanghosuh.github.io/research/la _埃德蒙·sanghosuh.pdf

7.电影镜头数据集

要不要自己写一个推荐系统?机会来了。这个数据集也是最受欢迎的数据集之一,包含6000个用户对4000部电影的100万条评论。

问题:向用户推荐新电影

数据:https://grouplens.org/datasets/movielens/1m/

教程:https://www . analyticsvidhya . com/blog/2016/06/quick-guide-build-推荐信-engine-python/

8.推特分类数据集

做情感分析,需要分析Twitter数据。如果你想要一块NLP,你一定很乐意挑战这个数据集。

问题:区分推特用户的情感极性

数据:https://data hack . analyticsvidhya . com/contest/practice-problem-Twitter-句子-分析/

教程:https://github.com/abdulfatir/twitter-sentiment-analysis

较年长的

1.识别您的数字数据集

这个数据集包含许多带数字的图片。可以通过它学习图像识别的技术和原理。这和人脸识别的原理一样!通过用7000张图片分析这个数据集,你就掌握了这些技巧。

问题:识别图片中的数字

数据:https://data hack . analyticsvidhya . com/contest/practice-problem-identify-the-digits/

教程:https://www . analyticsvidhya . com/blog/2016/10/an-introduction-to-implementing-neural-networks-use-tensorflow/

2.城市声音分类

当你开始你的机器学习之旅时,你通常会先处理一些简单的数据集,比如泰坦尼克号,但你仍然没有处理过现实生活中的问题。然后,这个数据集会带你去处理一个现实生活中的音频分类问题,这个问题包括10类8732段音频。

问题:区分音频的类型

数据:https://data hack . analyticsvidhya . com/contest/practice-problem-urban-sound-classification/

教程:https://www . analyticsvidhya . com/blog/2017/08/audio-voice-processing-deep-learning/

3.沃克斯名人数据集

音频处理现在是深度学习中非常重要的一个领域,这个数据集正好属于这个领域。它是从YouTube上提取的,包含了很多名人演讲的音频。你的任务是识别声音,并告诉每个片段是谁的声音。这个数据集包含了1251位名人的10万个演讲片段。

问题:说出每个片段是谁的声音

数据:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

教程:https://www.robots.ox.ac.uk/~ vgg/publications/2017/nagrani 17/nagrani 17 . pdf

4.ImageNet数据集

ImageNet提供了很多关于目标检测、目标定位、目标分类的问题,所有图像数据都是免费的。您可以选择任何您喜欢的图像,并根据它制作您自己的项目。它有高达140GB的图像数据等着你去翻牌子。

问题:区分图像类型

数据:http://image-net.org/download-imageurls

教程:http://image-net.org/download-imageurls

5.芝加哥犯罪数据集

在这个计算能力丰富的时代,公司不再喜欢用小样本来分析和处理数据,处理大数据集的能力变得越来越重要。这个多分类数据集不难处理,数据管理是关键!

问题:预测犯罪类型

资料来源:https://data . city his cago . org/public-safety/crimes-2001-至今/ijzp-q8t2

教程:http://nathanwayneholt . com/Mathematica modeling/Chicago crimes report . pdf。

6.印度演员数据集的年龄检测

对于深度学习爱好者来说,检测人的年龄是一个非常有趣的挑战。这个数据集提供了很多印度演员的照片,你的任务是区分他们的年龄。每张图片都是手工挑选的,有各种比例、姿势、年龄、妆容、分辨率。训练集有19906个样本,测试集有6636个样本。

问题:预测演员的年龄

数据:http://image-net.org/download-imageurls

教程:https://www . analyticsvidhya . com/blog/2017/06/hand-with-deep-learning-solution-for-age-detection-practice-problem/

7.推荐引擎数据集

这是一个高阶推荐系统问题。在这个问题中,它提供了程序员已经解决的问题,以及他们花在这个问题上的时间。而你的任务就是给用户推荐下一个问题。

问题:根据用户目前解决编程问题的水平,为用户推荐合适的问题。

数据:https://data hack . analyticsvidhya . com/contest/practice-problem-推荐信-engine/

8.可视化问答数据集

VisualQA是一个包含很多开放性问题的图像数据集,需要你对计算机视觉有一定的了解。这个数据集中有265,016张图片,每张图片有3个问题。

问题:通过深度学习解决形象开放性问题。

数据:https://visualqa.org/

教程:https://arxiv.org/abs/1708.02711

如你所见,资源很多,但你只需要选择适合自己的,适合自己的就是最好的。如果还是小白,就不要选择那些难的数据集,不要想着一口吃掉一个胖子,一步一个脚印就好。当然,如果你专攻数据分析和商业分析,最好不要错过这个周末的公开课。

当你完成了两三个项目,记得把它们写在简历上,LinkedIn或者GitHub上,这一点很重要。许多人力资源招聘人员使用LinkedIn或GitHub来筛选人员。

当然,如果你不知道自己努力的方向,不知道如何做出一个漂亮的项目,不知道如何展示,那么3月30号来我们数据应用研究所的数据科学家训练营吧。

原作者:ANALYTICS VIDHYA CONTENT TEAM

翻译:唐唐

美术编辑:郭儿

校对:卡里

原文链接:https://www . analyticsvidhya . com/blog/2018/05/24-ultimate-data-science-projects-to-boost-you-knowledge-and-skills/

1.《turkiye 你总说没有经历没人要?这24个全网公认最有价值的开源数据项目你做了么?》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《turkiye 你总说没有经历没人要?这24个全网公认最有价值的开源数据项目你做了么?》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/fangchan/1052064.html

上一篇

复旦大学教授亮工资条 高校教师究竟靠什么赚钱?

下一篇

山东男子一觉醒来欠2个亿 这是怎么一回事?

棰怎么读 趣读 | 知乎10万赞回答:真正厉害的人,是怎么分析问题的?

  • 棰怎么读 趣读 | 知乎10万赞回答:真正厉害的人,是怎么分析问题的?
  • 棰怎么读 趣读 | 知乎10万赞回答:真正厉害的人,是怎么分析问题的?
  • 棰怎么读 趣读 | 知乎10万赞回答:真正厉害的人,是怎么分析问题的?
G7峰会公报对东海南海问题指手划脚 外交部:强烈不满

G7峰会公报对东海南海问题指手划脚 外交部:强烈不满

5月28日,据外交部网站5月28日报道,外交部发言人鲁抗就七国集团峰会关于东海和南海问题的联合公报回答了记者提问。 问:最近在意大利举行的七国集团首脑会议联合公报提到了东海和南海问题。你对此有何评论?  答:我们注意到了有...

上海建无性别公厕 解决了女性排队如厕问题却难解尴尬

上海建无性别公厕 解决了女性排队如厕问题却难解尴尬

5月31日,上海第二家无性别公厕解决了女性排队上厕所的问题,但尴尬却难以解决。两个月前,位于黄浦区大林路93号的公厕被改造成不再区分男女的无性别公厕。公厕大同室的九个马桶座不分男女,隔断两米多高。每个马桶座的门板上都写着...

涪陵区人才网 【招聘会】奔走相告!涪风人才网第十六届大型招聘会,我们期待你的到来!

顺丰菜鸟之争落幕 今日12时全面恢复业务合作和数据传输

6月3日,6月2日晚,国家邮政局召集菜鸟网和顺丰快递的高层来京协调关闭双方互通数据接口事宜。双方同意从6月3日12: 00起恢复业务合作和数据传输。 6月2日晚,国家邮政局召集菜鸟网和顺丰快递高层来京协调关闭双方互通数据接...

mycard官网 《APEX英雄》关闭支付宝通道,送上mycard充值教程

因为EA突然关闭支付宝充值方式,很多小伙伴陷入了想尴尬的尴尬,某宝被充了电,怕被封... 专门打造一个mycard充值教程,安全可靠无风险~(mycard积分可以用支付宝充值!)   1000金币=309mycard点 2000金币=618mycard点 4000金币=1235mycard点...

中国启动积雪调查 1980年以来中国积雪空间分布及其变化数据

中国启动积雪调查 1980年以来中国积雪空间分布及其变化数据

2006年6月5日,我国开始了积雪调查,并获得了1980年以来我国积雪的分布和变化数据。中国开始积雪调查。众所周知,本次调查只需要获得中国典型积雪地区积雪特征的综合调查数据集和1980年以来中国积雪分布及变化的数据。通过...

如何关闭icloud iPhone 如何退出 Apple ID 并彻底抹除数据?

如何关闭icloud iPhone 如何退出 Apple ID 并彻底抹除数据?

IPhone是目前最有价值的智能手机。当我们更换新的时候,我们可以把旧的iPhone卖掉或者转让给他人,其中最重要的一个步骤就是把iPhone里面的个人信息和数据清除掉。以下描述退出Apple ID和擦除数据的步骤。 提示:在退出账户和清除数据之前,您应该注意以下几点: 1.如果您使用您的苹...