更多相关文章

关于数据科学家(DS)的十万个为什么>

怎么写technical resume(简历)>

Informational Interview很重要!>

机器学习扫盲篇

近几年, 人工智能(AI),机器学习(Machine Learning)可算是大红大紫,是这个世界的新宠儿。老是听朋友们说起人工智能啊机器学习啊,不知其所以然的你是不是只能躲在墙角画圈圈想,它们到底是啥? 今天,小编就和大家聊一聊这个话题,下一次你也可以自信满满地和朋友吹水,拍拍胸脯说,不就这个大数据、机器学习嘛,我也知道!

大数据大数据,老是有人说我们已经进入了大数据时代。但什么又是大数据呢?大数据是一个术语,来描述那些数据(datasets), 数据被产生时的特点是高量(High Volume),高速(High Velocity),多样(High Variety),高疏(High Verasity),也就是大家常常提到的四个”V”。 高量(High Volume)指的是数据产生时的庞大(the scale of dataset),高速描述的是数据产生之快,多样是指数据产生时候各种各样不同形式(different forms), 比如有图片形式,字符形式,数值形式等等,多疏讲的是很多数据的不完整,比如亚马逊推荐系统里面客户评分,这是个很典型的例子,因为你不可能让所有用户给所有商品都打分。由于大数据产生的特点,是的传统系统(traditional systems)无法再存储(store),处理(process)和分析(analyze)这些数据。为了能更好应用这些数据,我们也需要新的系统解决方法。

今天,我们不聊大数据的存储,我们来聊聊怎么分析大数据或者应用大数据,也就是我们的正题----机器学习(machine learning)。机器学习是人工智能(AI)的一个分支,人工智能有很多分支,比如机器学习,神经网络(neural networ),深度学习(deep learning),自然语言(Natural Language processing),计算机视觉(computer vision)。这些不同分支虽然不同,但做的事情都大同小异,都在做:你有输入(input), 然后计算机跑一些运算后生成输出(output)。就好像,我给你一堆图片上面有的图片是辆车有的图片不是,这些图片当作你的输入,你想让计算机建立些模型帮你自动判断下一张进入的图片是一辆车还是不是一辆车,这个判断结果就是你的输出。这些分支的不同简单来说就是你用了不同模型而已。机器学习吧,顾名思义,让机器学习,让机器从数据中学习(learn and adapt through upcoming data),这个过程很像我们小时候学习的过程,看到东西后学下来,学习过程中不断会犯错误并受到惩罚,再从这些错误中纠正,这样以后遇到类似的东西就会了,机器也是一样。神经网络,是个比机器学习的模型更为复杂一点的模型,最初是从人大脑里的神经元获得启发的。深度学习,是有着很多层(layers)的大型的神经网络。计算机视觉和自然语言,一个是分析图片数据一个是分析语言文字类数据,都用到了神经网络和深度学习。现在,我们处于一个海量数据的时代,有这么多的数据,我们建立的模型也更加准确。

讲完了大的概念,接下来,我们进一步聊一聊机器学习。机器学习,再精准一点的定义是,我们有好多好多特征X(features)我们想通过这些features来预测(predict)我们的结果(Y), 用数学的表达式写呢,就是(在这里小编用加粗的X,是因为X可能是多维的,比如我们通过一个中学生的年龄和体重两个维度来预测它的身高) 然后呢,你收集了一系列数据(Xi, yi),把这些数据分成两部分一部分叫training data(训练模型数据,用来fit models(拟合模型))一部分叫testing data(检测数据,用于评估模型预测的精准度). Training data和testing data就好像我给一个同学我很多很多的模拟考卷练习(testing data),并且我也给他正确答案让他们不断改正自己错误(model fitting)。当我将这学生训练好后,我就让他考真题了,也就是我们的期末考(testing data), 在期末考里面他通过之前的学习来答卷,只有我知道正确答案是啥,等他考完我给他改卷打分,这个分,就是他的准确度(model accuracy)。在每次练习卷模拟考时,我都会给这个学生评估他的错误率(training error),期末考评估他的错误率(test error),这些模拟考都是模拟一次都告诉他错在哪,所以他的模拟考错误率会随着训练次数增多而越来越低,而他的期末考错误率先是随着训练次数增多而降低之后可能又逐渐升高,这就是我们说的overfit(过度拟合)。在这里,重点地方说三遍,在建模前一定要记得分数据分数据分数据!

机器学习分为两大类,supervised learning(有监督学习)和unsupervised learning(无监督学习)两种,两者的区别是是否知道结果的标签(knowledge of output Y label),或者换句话说,我们的结果Y被标记为一个数值或者一个类别 (Y is labeled with a numeric value or class), 这就是有监督学习。supervised learning(有监督学习)的目的是预测一个数值或者一个类别(predict a value or a class),unsupervised learning(无监督学习)的目的是描述数据的特点(describe the pattern of the data)。supervised learning(有监督学习)又可以细分为两种:Regression(回归)和Classification(分类),这也是取决于我们的Y。如果Y是数值,比如房价啊,年龄啊,那么就是Regression(回归)问题,如果Y是类别,比如色盲或者非色盲,那么就是Classification(分类)问题。对于unsupervised learning(无监督学习)的例子,比如我们知道我们客户的一些特征想要给他们分分类。

今天,对于机器学习的入门篇,小编就向大家介绍到这里。想了解更多相关资讯,请多多关注小编的新文章哦!

更多相关文章

关于数据科学家(DS)的十万个为什么>

怎么写technical resume(简历)>

Informational Interview很重要!>

想了解更多资讯?

长按上方二维码关注我哦!

1.《机器学习是什么 火到半边天的机器学习到底是啥?》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《机器学习是什么 火到半边天的机器学习到底是啥?》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/jiaoyu/62179.html