更多腾讯海量技术文章,请关注云社区:

Weka的全名是waikato environment for knowledge analysis,以JAVA为基础,免费非商业化(对应于SPSS公司商业数据挖掘产品- Clementine),其源代码可以从官方网站下载有趣的是,该软件的缩写WEKA也是新西兰独有的鸟名,Weka的主要开发者来自新西兰的the University of Waikato(百度百科全书,译者注)。

在Weka中加载CSV机器学习数据的方法

开始建模之前,必须能够加载(用户)数据。

在本句课程中,您将学习如何从Weka加载CSV数据集。读完这句话,你就知道了:

介绍ARFF文件格式和在Weka中表示数据的基本方法。

如何从Weka Explorer加载CSV文件并以ARFF格式保存。

如何在ArffViewer工具中加载CSV文件并将其保存为ARFF格式。

本教程假定已安装Weka。

开始吧。

how to load CSV machine learning data in WEKA

注:照片由Thales提供,并保留一定的权利。

在Weka中描述数据的方法

机器学习算法主要设计为与数组数组一起工作。

此数据称为表格式或结构化数据,因为它在由行和列组成的电子表格中显示相同。

Weka在解释数据时有以计算机科学为中心的特定词汇表。

实例:数据行称为实例或问题域的观察等实例。

属性:数据列称为特征或属性,就像观察到的要素一样。

每个属性可以有以下不同的类型:

“实数”(Real)表示数字值,如1.2。

“整数”(Integer)表示没有小数部分数的数字(例如5)。

公称(Nominal)是指分类数据,如“狗”和“猫”。

“字符串”(String)表示单词列表,就像句子本身一样。

在分类问题上,输出变量应该是称呼。对于回归问题,输出变量必须是实数。

来自Weka的数据

Weka倾向于以ARFF格式加载数据。

(WEKA存储数据的格式是ASCII文本文件属性报告文件格式(ARFF)文件。二维表存储在ARFF文件中。请参见译者)

ARFF是表示属性关系文件格式的首字母缩写。使用标题的CSV文件格式的扩展,提供列中数据类型的元数据。

例如,CSV格式的经典iris数据集的前几行如下:

ARFF格式的文件如下:

指令以表示数据集的名称(例如@RELATION iris)、定义每个属性的名称和数据类型(例如@ATTRIBUTE sepallength REAL)的指令以及表示原始数据的指令的符号(@)开头。

在ARFF文件中,以百分比符号(%)开头的行表示注释。

原始数据部分中的问号(?)的值表示未知或缺少的值。格式支持数字和分类值(categorical values),如上iris示例所示,但也支持日期和字符串值。

根据Weka安装(方法),Weka安装目录data/子目录下可能存在默认数据集,也可能不存在。这些随Weka分发的基本数据集是ARFF格式。文件扩展名为ARFF。

在ARFF-Viewer中加载CSV文件

数据可能不是ARFF格式。

实际上更可能是逗号分隔值(Comma S)

eparated Value,CSV)格式。这是一种简单的格式,其中数据在行和列的表格中进行布局,而逗号用于分隔行中的值。引号也可以用来包围值,特别是如果数据包含带空格的文本字符串。

CSV格式很容易从Microsoft Excel导出,所以一旦您可以将数据导入到Excel中,您可以轻松地将其转换为CSV格式。

Weka提供了一个方便的工具来加载CSV文件,并保存成ARFF。你只需要用你的数据集做一次(这样的操作)。

使用以下步骤,您可以将数据集从CSV格式转换为ARFF格式,并将其与Weka workbench结合使用。如果您没有方便的CSV文件,可以使用鸢尾花数据集。从UCI Machine Learning存储库() (传送门())中下载文件并将其保存到iris.csv的当前工作目录中。

1.启动Weka Chooser(选择器)。

Weka GUI选择器的屏幕截图

2.通过点击菜单中的“Tools”,选择“ArffViewer,来打开ARFF-Viewer”。

3.您将看到一个空的ARFF-Viewer窗口。

Weka ARFF Viewer

4.点击“File”菜单,在ARFF-Viewer中打开您的CSV文件,然后选择“Open”。导航到您当前的工作目录。将“Files of Type”过滤器更改为“CSV data files (*.csv)”。选择你的文件,然后点击“Open”按钮。

在ARFF Viewer中加载CSV

5.你现在应该可以看到你的CSV文件加载到ARFF-Viewer的一个示例样本。

6.通过点击“File”菜单并选择“Save as...”,以ARFF格式保存您的数据集。你需要输入带有.arff扩展名的文件名并单击“Save”按钮。

您现在可以将保存的.arff文件直接加载到Weka中。

请注意,ARFF-Viewer提供了在保存之前修改数据集的选项。例如,您可以更改值,更改属性的名称和更改其数据类型。

强烈建议您指定每个属性的名称,因为这将有助于稍后对数据进行分析。另外,确保每个属性的数据类型都是正确的。

在Weka Explorer中加载CSV文件

您也可以直接在Weka Explorer界面中加载您的CSV文件。

如果您急着想快速测试一个想法,这很方便。

本节介绍如何在Weka Explorer界面中加载CSV文件。您可以再次使用虹膜数据集,如果您没有加载CSV数据集,则练习。

1.启动Weka GUI Chooser(选择器)。

2.通过单击“资源管理器”按钮启动Weka资源管理器。

Weka资源管理器的屏幕截图

3.点击“Open file…”按钮。

4.导航到您当前的工作目录。将“Files of Type”更改为“CSV data files (*.csv)”。选择你的文件,然后点击“打开”按钮。

您可以直接用数据开始工作。您也可以通过点击“Save”按钮并输入文件名,以ARFF格式保存数据集。

使用Excel中的其他文件格式

如果您有其他格式的数据,请先将其加载到Microsoft Excel中。

以另一种格式(如CSV)这样使用不同的分隔符或固定宽度字段来获取数据是很常见的。Excel有强大的工具来加载各种格式的表格数据。使用这些工具,并首先将您的数据加载到Excel中。

将数据加载到Excel后,可以将其导出为CSV格式。然后,您可以直接或通过首先将其转换为ARFF格式在Weka中使用它。

资源

下面是一些额外的资源,你会发现这些资源对在Weka中使用CSV data进行工作非常有帮助。

  • Attribute-Relation File Format()

  • Can I use CSV files?()

  • CSV File Format()

概要

在这篇文章中,您发现了如何将您的CSV数据加载到Weka中进行机器学习。

具体来说,你了解到:

  • 关于ARFF文件格式以及Weka如何使用它来表示机器学习的数据集。

  • 如何使用ARFF-Viewer加载您的CSV数据并将其保存为ARFF格式。

  • 如何直接在Weka Explorer中加载CSV数据并将其用于建模。

如果你有关于本文中的Weka加载数据的任何问题?可以在评论中提出您的问题,我会尽我所能来回答。

翻译人:Steve Wang,该成员来自云+社区翻译社

原文链接:

原文作者:Jason Brownlee

原文标题:How To Load CSV Machine Learning Data in Weka

译者微博:@从流域到海域

译者博客:blog.c

1.《【weka怎么导出excel】在Weka中加载CSV机器学习数据的方法》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《【weka怎么导出excel】在Weka中加载CSV机器学习数据的方法》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/2481029.html