当前位置:首页 > 科技数码

mnist 学界 | Fashion-MNIST:替代MNIST手写数字集的图像数据集

转载自《机器的心脏》

微信官方账号:PaperWeekly

时尚列表是一个替代MNIST手写数字集的图像数据集[1]。由德国时尚科技公司Zalando的研究部门提供。它涵盖了来自10个类别的7万种不同产品的正面图片。

时尚达人的训练集/测试集的大小、格式、划分都与原MNIST完全一致。60000/10000训练测试数据分部,28x28灰图。您可以直接使用它来测试您的机器学习和深度学习算法的性能,而无需更改任何代码。

该数据集大致如下(每个类别有三行):

1.为什么要做这个数据集?

经典MNIST数据集[1]包含大量手写数字。十多年来,机器学习、机器视觉、人工智能、深度学习等领域的研究人员都把这个数据集作为衡量算法的基准之一。你会在会议和期刊的许多论文中找到这个数据集。实际上,MNIST数据集已经成为算法作者必备的数据集之一。有人曾经嘲讽说:“如果一个算法在MNIST行不通,那么它就根本无法使用;如果它对MNIST有效,它可能对其他数据无效”。

时尚MNIST的目的是成为MNIST数据集的直接替代品。作为算法作者,可以直接使用这个数据集,无需修改任何代码。时尚MNIST的形象大小、训练和测试样本数量以及类别数量与经典MNIST完全相同。

写信给专业的机器学习研究者

我们是认真的。更换MNIST数据集的原因如下:

MNIST太简单了,很多算法在测试集上的性能都达到了99.6%!让我们看看基于scikit-learn [2]和此代码[3]的评估。大多数MNIST只能用一个像素来区分。

MNIST已经破旧不堪了。参考下图,伊恩·古德费勒希望人们停止使用MNIST;

MNIST数字识别的任务并不代表现代机器学习。如下图所示,关于MNIST的想法不能转移到真正的机器视觉问题上。

2.检索数据

您可以使用以下链接下载该数据集。时尚MNIST数据集的存储模式和命名与经典MNIST数据集完全一致[1]。

或者,可以直接克隆这个代码库。数据集被置于数据/方式下。该代码库还包含一些用于评估和可视化的脚本。

类别标签

每个训练和测试样本都根据以下类别进行标记:

3.如何加载数据?

使用Python(需要安装NumPy)

您可以直接使用utils/mnist_reader:

使用张量流

使用其他语言

作为机器学习领域最常用的数据集,人们已经开发了多种语言的MNIST加载工具。有一些方法需要先解压数据文件。请注意,我们没有测试所有的加载方法。有关如何获取加载方法的详细信息,请参见文章的结尾。

C

C++

爪哇

计算机编程语言

斯卡拉

C#

开发

迅速发生的

稀有

矩阵实验室

红宝石

4.评价

我们使用scikit-learn来制作一个自动评估系统。它涵盖了除深度学习以外的125种经典机器学习模型(包括不同的参数)。您可以在此交互式查看结果[2]。

您可以运行benchmark/runner.py来复制结果。我们更推荐的方法是使用Dockerfile来打包和部署,然后在容器模式下运行。

欢迎您提交自己的模型评估,请使用Github创建一个新的问题。如果您提交自己的模型,请确保该模型没有在此列表中测试过[2]。

5.数据可视化

时装秀上的t-SNE形象——MNIST(左)和经典的MNIST(右)

时尚MNIST(左)和经典MNIST(右)的主成分分析可视化

6.在论文中引用时尚-MNIST

如果你在研究工作中使用这个数据集,欢迎你引用这篇论文:

时尚-MNIST:基准机器学习算法的新图像数据集。晓寒,卡希夫·拉苏尔,罗兰·沃尔格拉夫。arXiv:待定

本文将于2017年8月28日00:00:00格林尼治标准时间在arXiv上发表。

[1]经典MNIST数据集:

http://yann.lecun.com/exdb/mnist/

[2]基于scikit-learn的评估:

http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/

[3] MNIST测试代码:

https://gist . github . com/dgrtwo/aaef 94 ECC 6a 60 CD 50322 c 0054 cc 04478

欢迎点击“阅读原文”查看数据集完整描述文档及作者论文:

时尚-MNIST:基准机器学习算法的新图像数据集

关于作者:

德国萨兰多研究部门的高级科学家、德国慕尼黑工业大学计算机科学博士韩笑专注于深度学习在产品搜索中的应用。

关于纸质周刊:

PaperWeekly是一个推荐、解释、讨论和报告人工智能前沿论文成果的学术平台。如果你正在学习或从事AI领域,请点击微信官方账号后台的“交流群”,助手会将你带入PaperWeekly的交流群。

这篇文章是为机器的核心而转载的。请联系本微信官方账号进行授权。

1.《mnist 学界 | Fashion-MNIST:替代MNIST手写数字集的图像数据集》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《mnist 学界 | Fashion-MNIST:替代MNIST手写数字集的图像数据集》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/1611639.html

上一篇

身上有狐仙的症状 身上带狐仙的人的特点,拜狐仙的不良后果危害有哪些?

下一篇

设施农用地 设施农业用地你了解多少?

闲聊人工客服电话 智能客服机器人还有多种类型?

  • 闲聊人工客服电话 智能客服机器人还有多种类型?
  • 闲聊人工客服电话 智能客服机器人还有多种类型?
  • 闲聊人工客服电话 智能客服机器人还有多种类型?

海贼王之寻亲记 海贼王:三大机器狂魔,均是来自南海,弗兰奇身世之谜直指贝加庞克

  • 海贼王之寻亲记 海贼王:三大机器狂魔,均是来自南海,弗兰奇身世之谜直指贝加庞克
  • 海贼王之寻亲记 海贼王:三大机器狂魔,均是来自南海,弗兰奇身世之谜直指贝加庞克
  • 海贼王之寻亲记 海贼王:三大机器狂魔,均是来自南海,弗兰奇身世之谜直指贝加庞克
愉客行重庆市公路客运售票网 2019年重庆市公路客运出行大数据出炉!

愉客行重庆市公路客运售票网 2019年重庆市公路客运出行大数据出炉!

2019年,“重庆公交出行平台”为2100万乘客提供出行服务,相当于平均每0.67秒售出一张公交车票,平均每人每年通过平台购买4张公交车票。余克星已成为重庆本地公路旅客出行的首选平台。 为了了解重庆道路出行用户的构成,对2019年通过微信微信官方账号、APP、车站自助售票机购票的用户进行官方分析,...

建成区 建成区面积数据

建成区 建成区面积数据

建成区是指城市行政区域内的实际开发建设、市政公用和共用设施。 随着城市的不断发展,人口和经济的增长,城市的建成区将逐渐扩大,超出预期。一般来说,发展迅速的城市建成区会更加集中,反之则会更加分散。 地理国情监测云平台产生的全国建成区数据包括2006年、2007年、2008年、2009年、20...

三角围巾的围法 太漂亮了 围巾系法合集,简单又时尚

  • 三角围巾的围法 太漂亮了 围巾系法合集,简单又时尚
  • 三角围巾的围法 太漂亮了 围巾系法合集,简单又时尚
  • 三角围巾的围法 太漂亮了 围巾系法合集,简单又时尚
druid连接池 Druid数据连接池实现数据源的管理及监控

druid连接池 Druid数据连接池实现数据源的管理及监控

springboot项目使用可视化druid数据连接池实现数据源的管理及监控 作者:阳旭网络 在项目开发过程中,我们经常需要编写与数据库操作相关的代码,所以我们需要数据库连接池作为中间件来管理我们的数据库连接。简单来说就是数据库连接池负责分配。管理和释放数据库连接,它允许我们的程序使用现有...

调查报告数据分析 数据分析|2018毕业生起薪点调查报告(中文版)

  • 调查报告数据分析 数据分析|2018毕业生起薪点调查报告(中文版)
  • 调查报告数据分析 数据分析|2018毕业生起薪点调查报告(中文版)
  • 调查报告数据分析 数据分析|2018毕业生起薪点调查报告(中文版)
gale数据库 数据库|寻找权威英美文学信息—— Gale数据库资源说明会

gale数据库 数据库|寻找权威英美文学信息—— Gale数据库资源说明会

寻找权威的英美文学信息 ——大风数据库资源简报 前五名将收到盖尔出版社的礼物  一个 6月5日(星期三) 14:30-15:30 2 三 讲座单元 文献资源中心(文献资源中心) 讲座内容: ◆文献资源中心(LRC)的内容、平台功能和运作 ◆如何利用LitFinder补充LRC,辅助文献研究...