你消化了今天的知识吗?
美人儿
想快速入门数据科学?做一些数据科学项目往往是一个很好的敲门砖。做这些项目,不仅可以练习掌握相关技能,还可以写在简历里!要知道,现在HR判断求职者潜力的方式,已经不是看他取得了什么证书,而是看他做了什么项目。如果你没有什么东西给他们看,你说你会做很多,他们只会觉得你只是说说而已,不练招数。
你可能做了很多数据相关的事情,但是如果你做的事情不好向大家展示和解释,HR怎么知道你也有两把刷子呢?这就是我们今天介绍的项目可以帮助你的地方。我们保证这些项目的含金量,你保证你在上面花足够的时间,那么你一定会收获很多。
而且,我们为你选择的项目横跨各个领域,无论你喜欢哪个领域,都能找到你喜欢的话题;每个合格的数据人都应该有处理大数据集的经验,所以也有一些大数据集供你选择。最重要的是,零成本,免费!
由难到易
为了让你知道从哪里开始,我们将这些数据集按照难度分为三个级别:
首先,入门
这一级别的数据集往往处理起来相对简单,不需要任何复杂的技术就可以通过分类或回归算法来解决。而且这个数据集有一个公共教程教你怎么做,不至于让你一上来就全瞎闭门造车。
第二,高级
与原始数据集相比,这一级别的数据集相对复杂且较大,需要一定的模式识别能力。而且一个优秀的特征工程往往会带来更好的分析结果。你能想到的机器学习方法,从简单到复杂,都可以。
第三,高级
这种级别的数据集更适合了解神经网络、深度学习或推荐系统等热点话题的人。这些数据集往往有很多特色,是适合你施展才华的地方。
初级课程
1.虹膜数据集
可能没有更适合初学者分类问题的数据集了,只有150行4列。如果你是小白,就不能错过这个数据集。
问题:预测花的种类
数据:https://archive.ics.uci.edu/ml/datasets/Iris
教程:https://www.slideshare.net/thoi _吉安/iris-数据分析-带-r
6.葡萄酒质量数据集
这个数据集很受数据科学新粉丝的欢迎。分为两部分,可以用来分类,也可以用来回归。它可以测试你处理离群值、模型选择和不平衡数据的能力。它有4898行和12列。
问题:葡萄酒质量预测
数据:https://archive.ics.uci.edu/ml/datasets/Wine+Quality
教程:https://web.stanford.edu/~ilker/doc/wine_Stats315A.pdf
7.图尔基耶学生评估数据集
该数据集取自学生对多门课程的教学评价。它包含了很多特征,如出勤率、难易程度、年级等,这是一个无监督学习的问题。该数据集有5820行和33列。
问题:使用分类和聚类技术处理数据
数据:https://archive.ics.uci.edu/ml/datasets/wine+quality
教程:https://sanghosuh.github.io/research/la _埃德蒙·sanghosuh.pdf
7.电影镜头数据集
要不要自己写一个推荐系统?机会来了。这个数据集也是最受欢迎的数据集之一,包含6000个用户对4000部电影的100万条评论。
问题:向用户推荐新电影
数据:https://grouplens.org/datasets/movielens/1m/
教程:https://www . analyticsvidhya . com/blog/2016/06/quick-guide-build-推荐信-engine-python/
8.推特分类数据集
做情感分析,需要分析Twitter数据。如果你想要一块NLP,你一定很乐意挑战这个数据集。
问题:区分推特用户的情感极性
数据:https://data hack . analyticsvidhya . com/contest/practice-problem-Twitter-句子-分析/
教程:https://github.com/abdulfatir/twitter-sentiment-analysis
较年长的
1.识别您的数字数据集
这个数据集包含许多带数字的图片。可以通过它学习图像识别的技术和原理。这和人脸识别的原理一样!通过用7000张图片分析这个数据集,你就掌握了这些技巧。
问题:识别图片中的数字
数据:https://data hack . analyticsvidhya . com/contest/practice-problem-identify-the-digits/
教程:https://www . analyticsvidhya . com/blog/2016/10/an-introduction-to-implementing-neural-networks-use-tensorflow/
2.城市声音分类
当你开始你的机器学习之旅时,你通常会先处理一些简单的数据集,比如泰坦尼克号,但你仍然没有处理过现实生活中的问题。然后,这个数据集会带你去处理一个现实生活中的音频分类问题,这个问题包括10类8732段音频。
问题:区分音频的类型
数据:https://data hack . analyticsvidhya . com/contest/practice-problem-urban-sound-classification/
教程:https://www . analyticsvidhya . com/blog/2017/08/audio-voice-processing-deep-learning/
3.沃克斯名人数据集
音频处理现在是深度学习中非常重要的一个领域,这个数据集正好属于这个领域。它是从YouTube上提取的,包含了很多名人演讲的音频。你的任务是识别声音,并告诉每个片段是谁的声音。这个数据集包含了1251位名人的10万个演讲片段。
问题:说出每个片段是谁的声音
数据:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/
教程:https://www.robots.ox.ac.uk/~ vgg/publications/2017/nagrani 17/nagrani 17 . pdf
4.ImageNet数据集
ImageNet提供了很多关于目标检测、目标定位、目标分类的问题,所有图像数据都是免费的。您可以选择任何您喜欢的图像,并根据它制作您自己的项目。它有高达140GB的图像数据等着你去翻牌子。
问题:区分图像类型
数据:http://image-net.org/download-imageurls
教程:http://image-net.org/download-imageurls
5.芝加哥犯罪数据集
在这个计算能力丰富的时代,公司不再喜欢用小样本来分析和处理数据,处理大数据集的能力变得越来越重要。这个多分类数据集不难处理,数据管理是关键!
问题:预测犯罪类型
资料来源:https://data . city his cago . org/public-safety/crimes-2001-至今/ijzp-q8t2
教程:http://nathanwayneholt . com/Mathematica modeling/Chicago crimes report . pdf。
6.印度演员数据集的年龄检测
对于深度学习爱好者来说,检测人的年龄是一个非常有趣的挑战。这个数据集提供了很多印度演员的照片,你的任务是区分他们的年龄。每张图片都是手工挑选的,有各种比例、姿势、年龄、妆容、分辨率。训练集有19906个样本,测试集有6636个样本。
问题:预测演员的年龄
数据:http://image-net.org/download-imageurls
教程:https://www . analyticsvidhya . com/blog/2017/06/hand-with-deep-learning-solution-for-age-detection-practice-problem/
7.推荐引擎数据集
这是一个高阶推荐系统问题。在这个问题中,它提供了程序员已经解决的问题,以及他们花在这个问题上的时间。而你的任务就是给用户推荐下一个问题。
问题:根据用户目前解决编程问题的水平,为用户推荐合适的问题。
数据:https://data hack . analyticsvidhya . com/contest/practice-problem-推荐信-engine/
8.可视化问答数据集
VisualQA是一个包含很多开放性问题的图像数据集,需要你对计算机视觉有一定的了解。这个数据集中有265,016张图片,每张图片有3个问题。
问题:通过深度学习解决形象开放性问题。
数据:https://visualqa.org/
教程:https://arxiv.org/abs/1708.02711
如你所见,资源很多,但你只需要选择适合自己的,适合自己的就是最好的。如果还是小白,就不要选择那些难的数据集,不要想着一口吃掉一个胖子,一步一个脚印就好。当然,如果你专攻数据分析和商业分析,最好不要错过这个周末的公开课。
当你完成了两三个项目,记得把它们写在简历上,LinkedIn或者GitHub上,这一点很重要。许多人力资源招聘人员使用LinkedIn或GitHub来筛选人员。
当然,如果你不知道自己努力的方向,不知道如何做出一个漂亮的项目,不知道如何展示,那么3月30号来我们数据应用研究所的数据科学家训练营吧。
原作者:ANALYTICS VIDHYA CONTENT TEAM
翻译:唐唐
美术编辑:郭儿
校对:卡里
原文链接:https://www . analyticsvidhya . com/blog/2018/05/24-ultimate-data-science-projects-to-boost-you-knowledge-and-skills/
1.《turkiye 你总说没有经历没人要?这24个全网公认最有价值的开源数据项目你做了么?》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《turkiye 你总说没有经历没人要?这24个全网公认最有价值的开源数据项目你做了么?》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/fangchan/1052064.html