目录:

金融

交通

商业

推荐系统

医疗健康

图像数据

视频数据

音频数据

自然语言处理

社会数据

处理的科学研究和竞争数据

1

金融

美国劳工部统计局正式公布的数据:

沪深股市除权第二者,配股增额全量数据,截至2016.12.31

上海主板一线数据,2017.05.05,原价,颠覆权价,后彩票价,1260支股票。

深证板一线数据,2017.05.05,原始价格,颠覆权价格,后彩票价格,466支股票。

深证中小板块一线数据,2017.05.05,原始价格,颠覆权价,后彩票价,852支股票。

深证创业板一线数据,2017.05.05,原始价格,颠覆权价,后彩票价,636支股票。

上海a股一线数据,1999.12.09 ~ 2016.06.08,颠覆权,1095支股票。

深证a股一线数据,1999.12.09 ~ 2016.06.08,颠覆权,1766支股票。

创业板一线数据,1999.12.09 ~ 2016.06.08,颠覆权,510支股票。

MT4平台外汇交易历史数据

Forex平台外汇交易历史数据

不同集团的外汇交易(Ticks)数据

美国股票新闻数据[Kaggle数据]

美国医疗保险市长/市场数据[Kaggle数据]

美国金融客户投诉数据[Kaggle数据]

Lending Club互联网借贷违规数据[Kaggle数据]

信用卡欺诈数据[Kaggle数据]

美国股票数据xbrl [ka ggle数据]

纽约证券交易所数据[Kaggle数据]

贷款违约预测竞争数据[kagle竞争]

Zillow网站房地产价值预测竞争数据[Kaggle竞争]

Sberbank俄罗斯房地产价值预测竞争数据[Kaggle竞争]

Homesite保险价格竞争数据[Kaggle竞争]

温顿股票收益率预测竞争数据[Kaggle竞争]

2

交通

2013年纽约出租车驾驶数据

2013年芝加哥出租车驾驶数据

Udacity自动驾驶数据

纽约Uber接送数据[Kaggle数据]

英国交通事故数据(2005-2015年)[Kagle数据]

芝加哥汽车超速数据[Kaggle数据]

基蒂自动驾驶任务数据[数据太大,只有部分]

Cityscapes场景尺寸数据[数据太大,只有部分]

德国交通标志识别数据

交通信号识别数据

芝加哥迪比共享自行车数据(截至2013年)

美国查塔努加市公共自行车骑行数据

Capital公共自行车骑行数据

Bay Airia官方自行车骑行数据

Nice Ride公用自行车骑行数据

花旗银行公共自行车骑行数据

利用卫星数据追踪亚马逊热带雨林的人类轨道竞争[Kaggle竞争]。

纽约出租车管理委员会官方乘车数据(2009 -2016年)

3

商业

Airbnb开放民宿信息和嘉宾评论数据。

亚马逊食品评论数据

[卡格尔数据]

亚马逊解锁手机评论数据

[卡格尔数据]

美国电子游戏销售和评价数据

[卡格尔数据]

Kaggle竞争形势数据Kaggle数据]

Bosch生产线减少次品率竞争数据[Kaggle竞争]

公寓租金竞争数据预测

广告点击预测竞争数据

餐厅营业收入预测建模竞赛

银行产品推荐竞争数据

建议网站用户点击预测竞争数据。

网络广告实时招标数据[Kaggle数据]

购物车商品相关竞争数据[Kaggle竞争]

Airbnb新用户的民宿预订预测竞争数据[Kaggle竞争]

推荐系统

Netflix电影评价数据

MovieLens 20m电影推荐数据集

维基林(电影)

Jester

HetRec2011

Book Crossing

p>

Large Movie Review

Retailrocket 商品评论和推荐数据

4

医疗健康

人识别物体时大脑核磁共振影像数据

人理解单词时大脑核磁共振影像数据

心脏病心房图像及标注数据

细胞病理识别

FIRE 视网膜眼底病变图像数据

食物营养成分数据 【Kaggle数据】

EGG 大脑电波形状数据【Kaggle数据】

某人基因序列数据【Kaggle数据】

癌症CT影像数据【Kaggle数据】

软组织肉瘤CT图像数据【Kaggle数据】

美国国家健康与服务部-国家癌症研究所发起的癌症数据仓库介绍【仅有介绍】

Data Science Bowl 2017 肺癌识别竞赛数据【数据太大仅有介绍】

TCGA-LUAD 肺癌CT图像数据

RIDER Lung CT 肺癌CT影像

TCGA-COAD癌症CT影像数据

TCIA-TCGA-OV 癌症CT影像数据

TCIA RIDER NEURO 癌症MRI影像数据

QIN Beast 乳腺癌MRI影像数据

5

图像数据

综合图像

Visual Genome 图像数据

Visual7w 图像数据

COCO 图像数据

SUFR 图像数据

ILSVRC 2014 训练数据(ImageNet的一部分)

PASCAL Visual Object Classes 2012 图像数据

PASCAL Visual Object Classes 2011 图像数据

PASCAL Visual Object Classes 2010 图像数据

80 Million Tiny Image 图像数据【数据太大仅有介绍】

ImageNet【数据太大仅有介绍】

Google Open Images【数据太大仅有介绍】

场景图像

Street Scences 图像数据

Places2 场景图像数据

UCF Google Street View 图像数据

SUN 场景图像数据

The Celebrity in Places 图像数据

Web图像标签

HARRISON 社交标签图像

NUS-WIDE 标签图像

Visual Synset 标签图像

Animals With Attributes 标签图像

人形轮廓图像

MPII Human Shape

人体轮廓数据

Biwi Kinect Head Pose 头部姿势数据

上半身人像数据

INRIA Person 数据集

视觉文字识别图像

Street View House Number 门牌号图像数据

MNIST 手写数字识别图像数据

3D MNIST 数字识别图像数据【Kaggle数据】

MediaTeam Document 文档影印和内容数据

Text Recognition 文字图像数据

NIST Handprinted Forms and Characters 手写英文字符数据

NIST Structured Forms Reference Set of Binary Images

(SFRS) 图像数据

NIST Structured Forms Reference Set of Binary Images

(SFRS) II 图像数据

特定一类事物图像

著名的猫图像标注数据

Caltech-UCSD

Birds200 鸟类图像数据

Stanford Car 汽车图像数据

Cars 汽车图像数据

MIT Cars 汽车图像数据

Stanford Cars 汽车图像数据

Food-101 美食图像数据

17_Category_Flower

图像数据

102_Category_Flower

图像数据

UCI Folio Leaf 图像数据

Labeled Fishe

in the Wild 鱼类图像

美国 Yelp 点评网站酒店照片

CMU-Oxford

Sculpture 塑像雕像图像

Oxford-IIIT Pet 宠物图像数据

Nature

Conservancy Fisheries Monitoring 过度捕捞监控图像数据【Kaggle数据】

材质纹理图像

CURET 纹理材质图像数据

ETHZ Synthesizability 纹理图像数据

KTH-TIPS 纹理材质图像数据

Describable Textures 纹理图像数据

物体分类图像

COIL-20 图像数据

COIL-100 图像数据

Caltech-101 图像数据

Caltech-256 图像数据

CIFAR-10 图像数据

CIFAR-100 图像数据

STL-10 图像数据

LabelMe_12_50k

图像数据

NORB v1.0 图像数据

NEC Toy Animal 图像数据7

iCubWorld 图像分类数据8

Multi-class 图像分类数据9

GRAZ 图像分类数据

人脸图像

IMDB-WIKI 500k+ 人脸图像、年龄性别数据

Labeled Faces in the Wild 人脸数据

Extended Yale Face Database B 人脸数据

Bao Face 人脸数据

DC-IGN 论文人脸数据

300 Face in Wild 图像数据

BioID Face 人脸数据

CMU Frontal Face Image

FDDB_Face Detection Data Set and Benchmark

NIST Mugshot Identification Database

Faces in the Wild 人脸数据

CelebA 名人人脸图像数据

VGG Face 人脸图像数据

Caltech 10k Web Faces 人脸图像数据

姿势动作图像

HMDB_a large human motion database

Human Actions and Scenes Dataset

Buffy Stickmen V3 人体轮廓识别图像数据

Human Pose Evaluator 人体轮廓识别图像数据

Buffy pose 人类姿势图像数据

VGG Human Pose Estimation 姿势图像标注数据

指纹识别图像

NIST FIGS 指纹识别数据

NIST Supplemental Fingerprint Card Data (SFCD) 指纹识别数据

NIST Plain and Rolled Images from Paired Fingerprint Cards

in 500 pixels per inch 指纹识别数据

NIST Plain and Rolled Images from Paired Fingerprint Cards

1000 pixels per inch 指纹识别数据

其他图像数据

Visual Question Answering V1.0 图像数据

Visual Question Answering V2.0 图像数据

6

视频数据

综合视频

DAVIS_Densely Annotated Video Segmentation 数据

YouTube-8M 视频数据集【数据太大仅有介绍】

YouTube 网站视频备份【数据太大仅有介绍】

人类动作视频

Microsoft Research Action 人类动作视频数据

UCF50 Action Recognition 动作识别数据

UCF101 Action Recognition 动作识别数据

UT-Interaction 人类动作视频数据

UCF iPhone 运动中传感器数据

UCF YouTube 人类动作视频数据

UCF Sport 人类动作视频数据

UCF-ARG 人类动作视频数据

HMDB 人类动作视频

HOLLYWOOD2 人类行为动作视频数据

Recognition of human actions 动作视频数据

Motion Capture 动作捕捉视频数据

SBU Kinect Interaction 肢体动作视频数据

目标检测视频

UCSD Pedestrian 行人视频数据

Caltech Pedestrian 行人视频数据

ETH 行人视频数据

INRIA 行人视频数据

TudBrussels 行人视频数据

Daimler 行人视频数据

ALOV++ 物体追踪视频数据

密集人群视频

Crowd Counting 高密度人群图像

Crowd Segmentation 高密度人群视频数据

Tracking in High Density Crowds 高密度人群视频

其他视频

Fire Detection 视频数据

7

音频数据

综合音频

Google Audioset 音频数据【数据太大仅有介绍】

语音识别

Sinhala TTS 英语语音识别

TIMIT 美式英语语音识别数据

LibriSpeech ASR corpus 语音数据

Room Impulse Response and Noise 语音数据

ALFFA 非洲语音数据

THUYG-20 维吾尔语语音数据

AMI Corpus 语音识别

8

自然语言处理

RCV1

英语

新闻数据

20news 英语新闻数据

First Quora Release Question Pairs 问答数据

JRC Name

各国语言专有实体名称

Multi-Domain Sentiment V2.0

LETOR 信息检索数据

Yale Youtube Vedio Text

斯坦福问答数据【Kaggle数据】

美国假新闻数据【Kaggle数据】

NIPS会议文章信息数据(1987-2016)【Kaggle数据】

2016年美国总统选举辩论数据【Kaggle数据】

WikiLinks 跨文档指代语料

European Parliament Proceedings Parallel Corpus 机器翻译数据

WikiText 英语语义词库数据

WMT 2011 News Crawl 机器翻译数据

Stanford Sentiment Treebank 词汇数据

英语语言模型单词预测竞赛数据

9

社会数据

希拉里邮件门泄露邮件

波士顿Airbnb 公开数据【Kaggle数据】

世界各国经济发展数据【Kaagle数据】

世界大学排名芝加哥犯罪数据(2001-2017)【Kaagle数据】 3

世界范围显著地震数据(1965-2016)【Kaagle数据】1

美国婴儿姓名数据【Kaagle数据】

全世界鲨鱼袭击人类数据【Kaagle数据】

1908年以来空难数据【Kaagle数据】

2016年美国总统大选数据【Kaagle数据】

2013年美国社区统计数据【Kaagle数据】

2014年美国社区统计数据【Kaagle数据】

2015年美国社区统计数据【Kaagle数据】

欧洲足球运动员赛事表现数据【Kaagle数据】

美国环境污染数据【Kaagle数据】

美国H1-B签证申请数据Kaggle数据】

IMDB五千部电影数据【Kaggle数据】

2015年航班延误和取消数据【Kaggle数据】

凶杀案报告数据【Kaggle数据】

人力资源分析数据【Kaggle数据】

美国费城犯罪数据【Kaggle数据】

安然公司邮件数据【Kaggle数据】

历史棒球数据【Kaggle数据】

美联航 Twitter 用户评论数据【Kaggle数据】

波士顿 Airbnb 公开数据【Kaggle数据】

芝加哥市2001年以来犯罪记录数据

美国查塔努加市犯罪记录数据(2003年至今)

芝加哥街边咖啡厅季节中的人行道咖啡厅许可数据

芝加哥餐馆卫生检查结果数据

几个人类运动位置路线GPS数据集(骑行、跑步等)

10

处理后的科研和竞赛数据

NIPS 2003 属性选择竞赛数据0

台湾大学林智仁教授处理为 LibSVM 格式的分类建模数据

Large-scale 分类建模数据

几个UCI 中 large-scale 分类建模数据

Social Computing

Data Repository 社交网络数据

猫和狗分类识别竞赛数据【Kaggle竞赛】

DSTL 卫星图像识别竞赛数据【Kaggle竞赛】8

根据手机应用软件使用行为预测用户性别年龄竞赛数据【Kaggle竞赛】

人脸关键点标定竞赛数据【Kaggle竞赛】

Kaggle竞赛数据合辑(部分竞赛数据)

Kaggle

书籍推荐数据集(goodreads/上万图书/百万评价)【Kaggle】

带有预期点数和获胜概率的NFL比赛详情数据集(2009-2016)【Kaggle】

HackerNews数据集(2006年以来约1/4文章) 【Kaggle】

酒店评价数据集【Kaggle】

1950年以来NBA球员状态&表现数据集【Kaggle】

开普勒太空望远镜深空星球光强时序数据集【Kaggle】

巴基斯坦无人机袭击数据集(2004-2016)【Kaggle】

墨尔本房屋市场数据集【Kaggle】

1789-2016历任美国总统签署行政命令数据集【Kaggle】

来自Stack Overflow平台的Python语言问答数据集【Kaggle】

来自Stack Overflow品台的R语言问答数据集【Kaggle】

每日海冰范围数据集【Kaggle】

NIPS(1987-2016)论文数据集【Kaggle】

大学公开数据集

(Stanford)69G大规模无人机(校园)图像数据集【Stanford】

人脸素描数据集【CUHK】

自然语言推理(文本蕴含标记)数据集【NYU】

Berkeley图像分割数据集BSDS500【Berkeley】

宠物图片(分割)数据集【Oxford】

发布ADE20K场景感知/解析/分割/多目标识别数据集【MIT】

多模态二元行为数据集【GaTech】

▍计算机视觉/图像/视频数据集:

Fashion-MNIST风格服饰图像数据集【肖涵】

大型(50万)LOGO标志数据集

4D扫描(60fps移动非刚性物体3D扫描)数据集【D-FAUST】

基于MNIST的视觉计数合成数据集Counting MNIST

YouTube MV视频数据集【Keunwoo Choi】

计算机视觉合成数据集/工具大列表【unrealcv】

动物属性标记数据集【ChristophH. Lampert/Daniel Pucher/JohannesDostal】

日本漫画数据集Manga109

俯拍舞蹈视频数据集

Pixiv(着色)图片数据集【Jerry Li】

e-VDS视频数据集

Quick, Draw!简笔画涂鸦数据集

简笔画涂鸦数据集【hardmaru】

服饰人像生成模型(&Chictopia10K[HumanParsing]时尚人像解析数据集)【Christoph Lassner/Gerard Pons-Moll/Peter V. Gehler】

COCO像素级标注数据集

大规模街道级图片(分割)数据集【Peter Kontschieder】

大规模日语图片描述数据集

Cityscapes街景语义分割数据集(50城30类5k细标20k粗标图片及标记视频)

(街头)时尚服饰数据集(2000+标注图片)

PyTorch实现的VOC2012数据集Pixel-wise目标分割【BodoKaiser】

Twenty Billion Neurons对象复杂运动与交互视频数据集【Nikita Johnson】

▍文本/评价/问答/自然语言数据集:

(20万)英文笑话数据集【TaivoPungas】

机器学习保险行业问答开放数据集【HainWang】

保险行业问答(QA)数据集【Minwei Feng】

Stanford NLP发布新的多轮、跨域、任务导向对话数据集【Mihail Eric】

实体/名词语义关系标记数据集【David S. Batista】

NLVR:自然语言基础数据集(对象分组、数量、比较及空间关系推理)

2.8万文章/10万问题大规模(英语考试)阅读理解数据集

错误拼写数据集

文本简化数据集

英语词/句/语义框架框架标注数据集FrameNet

(又一个)自然语言处理(NLP)数据集列表【Nicolas Iderhoff】

跨语种/多样式/多粒度文本相似性检测数据集

Quora数据集:400000行潜在重复问题

文本分类数据集

Frames:Maluuba对话数据集

跨域(Amazon商品评论)情感数据集

语义网机器学习系统评价/基准数据集集合

▍其它数据集

数据科学/机器学习数据集汇总

CORe50:连续目标识别数据集【VincenzoLomonaco&DavideMaltoni】

(Matlab)数据集统计分布自动发现【Isabel Valera】

(建筑物)损害评估数据集【tsunami】

IndieWeb社交图谱数据集【IndieWeb】

DeepMind开源环境/数据集/代码集合【DeepMind】

鸟叫声数据集【xeno-canto】

Wolfram数据集仓库

大型音乐分析数据集FMA

(300万)Instacart在线杂货购物数据集【Jeremy Stanley】

用于欺诈检测的合成财务数据集【TESTIMON】

NSynth:大规模高质量音符标记音频数据集

LIBSVM格式分类/回归/多标签/字符串数据集

笔记本电脑用logistic回归拟合100G数据集【DmitriySelivanov】

StackExchange近似/重复问题数据集

2010-2017最全KDD CUP赛题回顾及数据集

食谱数据集:带有评级、营养及类别信息的超过2万种食谱【HugoDarwood】

奥斯卡数据集【Academy of Motion Picture Arts and Sciences】

计算医疗库:(TensorFlow)大型医疗数据集分析与机器学习建模【AkshayBhat】

聚类数据集

官方开放气候数据集

全球恐怖袭击事件数据集【START Consortium】

七个机器学习时序数据集

大型众包关系数据库自然语言查询语义解析数据集(8万+查询样本)

赛马赔率数据集

新的YELP数据集:包含470万评论和15.6万商家

JMIR数据集专刊《JMIR Data》

用于评价监督机器学习算法的基准数据集

https:// gi

人口普查收入数据集分类

https:// gi

日文木版印刷文字识别数据集

多模态二元行为数据集

(TensorFlow)AudioSet音频事件数据集分类模型

GitHub: tensorflow/models/tree/master/audioset

Facebook星际争霸游戏数据集

(TorchCraft可读/365GB/6万多场次/15亿帧画面/近5亿用户操作)

机器学习论文/数据集/工具集锦(日文)

机器学习公司的十大数据搜集策略

NLP数据集加载工具集

日语相似词数据集

大规模人本完形填空(多选阅读理解)数据集

高质量免费数据集列表

《数据之美》自然语言数据集/代码

微软数据集MS MARCO,阅读理解领域的「ImageNet」

AI2科学问答数据集(多选)

常用图像数据集大全(分类,跟踪,分割,检测等)

1.搜狗实验室数据集:

互联网图片库来自sogou图片搜索所索引的部分数据。其中收集了包括人物、动物、建筑、机械、风景、运动等类别,总数高达2,836,535张图片。对于每张图片,数据集中给出了图片的原图、缩略图、所在网页以及所在网页中的相关文本。200多G

2

http://www.imageclef.org/

IMAGECLEF致力于位图片相关领域提供一个基准(检索、分类、标注等等) Cross Language Evaluation Forum (CLEF) 。从2003年开始每年举行一次比赛.

The more we share, The more we have

欢迎加入数据君高效数据分析社区

加我私人进入大数据干货群:tongyuannow

1.《【sun138】500个各领域机器学习数据集中的一个总是你要找的》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《【sun138】500个各领域机器学习数据集中的一个总是你要找的》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/gl/2493213.html