转载自《机器的心脏》
微信官方账号:PaperWeekly
时尚列表是一个替代MNIST手写数字集的图像数据集[1]。由德国时尚科技公司Zalando的研究部门提供。它涵盖了来自10个类别的7万种不同产品的正面图片。
时尚达人的训练集/测试集的大小、格式、划分都与原MNIST完全一致。60000/10000训练测试数据分部,28x28灰图。您可以直接使用它来测试您的机器学习和深度学习算法的性能,而无需更改任何代码。
该数据集大致如下(每个类别有三行):
1.为什么要做这个数据集?
经典MNIST数据集[1]包含大量手写数字。十多年来,机器学习、机器视觉、人工智能、深度学习等领域的研究人员都把这个数据集作为衡量算法的基准之一。你会在会议和期刊的许多论文中找到这个数据集。实际上,MNIST数据集已经成为算法作者必备的数据集之一。有人曾经嘲讽说:“如果一个算法在MNIST行不通,那么它就根本无法使用;如果它对MNIST有效,它可能对其他数据无效”。
时尚MNIST的目的是成为MNIST数据集的直接替代品。作为算法作者,可以直接使用这个数据集,无需修改任何代码。时尚MNIST的形象大小、训练和测试样本数量以及类别数量与经典MNIST完全相同。
写信给专业的机器学习研究者
我们是认真的。更换MNIST数据集的原因如下:
MNIST太简单了,很多算法在测试集上的性能都达到了99.6%!让我们看看基于scikit-learn [2]和此代码[3]的评估。大多数MNIST只能用一个像素来区分。
MNIST已经破旧不堪了。参考下图,伊恩·古德费勒希望人们停止使用MNIST;
MNIST数字识别的任务并不代表现代机器学习。如下图所示,关于MNIST的想法不能转移到真正的机器视觉问题上。
2.检索数据
您可以使用以下链接下载该数据集。时尚MNIST数据集的存储模式和命名与经典MNIST数据集完全一致[1]。
或者,可以直接克隆这个代码库。数据集被置于数据/方式下。该代码库还包含一些用于评估和可视化的脚本。
类别标签
每个训练和测试样本都根据以下类别进行标记:
3.如何加载数据?
使用Python(需要安装NumPy)
您可以直接使用utils/mnist_reader:
使用张量流
使用其他语言
作为机器学习领域最常用的数据集,人们已经开发了多种语言的MNIST加载工具。有一些方法需要先解压数据文件。请注意,我们没有测试所有的加载方法。有关如何获取加载方法的详细信息,请参见文章的结尾。
C
C++
爪哇
计算机编程语言
斯卡拉
去
C#
开发
迅速发生的
稀有
矩阵实验室
红宝石
4.评价
我们使用scikit-learn来制作一个自动评估系统。它涵盖了除深度学习以外的125种经典机器学习模型(包括不同的参数)。您可以在此交互式查看结果[2]。
您可以运行benchmark/runner.py来复制结果。我们更推荐的方法是使用Dockerfile来打包和部署,然后在容器模式下运行。
欢迎您提交自己的模型评估,请使用Github创建一个新的问题。如果您提交自己的模型,请确保该模型没有在此列表中测试过[2]。
5.数据可视化
时装秀上的t-SNE形象——MNIST(左)和经典的MNIST(右)
时尚MNIST(左)和经典MNIST(右)的主成分分析可视化
6.在论文中引用时尚-MNIST
如果你在研究工作中使用这个数据集,欢迎你引用这篇论文:
时尚-MNIST:基准机器学习算法的新图像数据集。晓寒,卡希夫·拉苏尔,罗兰·沃尔格拉夫。arXiv:待定
本文将于2017年8月28日00:00:00格林尼治标准时间在arXiv上发表。
[1]经典MNIST数据集:
http://yann.lecun.com/exdb/mnist/
[2]基于scikit-learn的评估:
http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/
[3] MNIST测试代码:
https://gist . github . com/dgrtwo/aaef 94 ECC 6a 60 CD 50322 c 0054 cc 04478
欢迎点击“阅读原文”查看数据集完整描述文档及作者论文:
时尚-MNIST:基准机器学习算法的新图像数据集
关于作者:
德国萨兰多研究部门的高级科学家、德国慕尼黑工业大学计算机科学博士韩笑专注于深度学习在产品搜索中的应用。
关于纸质周刊:
PaperWeekly是一个推荐、解释、讨论和报告人工智能前沿论文成果的学术平台。如果你正在学习或从事AI领域,请点击微信官方账号后台的“交流群”,助手会将你带入PaperWeekly的交流群。
这篇文章是为机器的核心而转载的。请联系本微信官方账号进行授权。
1.《mnist 学界 | Fashion-MNIST:替代MNIST手写数字集的图像数据集》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《mnist 学界 | Fashion-MNIST:替代MNIST手写数字集的图像数据集》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/1611639.html