当前位置:首页 > 娱乐星闻

归一 走向人工智能 —— 数据预处理之归一化

数据归一化的目的是将不同表示的数据归约为同一尺度,常见的尺度范围是[-1,1],[0,1]。对于神经网络和支持向量机(SVM),有必要在数据预处理中使用归一化。当然,对于一些模型来说,规范化不是必须的,比如决策树。

数据规范化方法:

1.线性标准化:

f(x) = (x - min) / (max - min)

其中min和max表示x所属区间的最小值和最大值。

特征:数据统一分类在1 ~ 0 ~ 1之间;

要求:目标值的上下限是清楚知道的。比如上图,我们假设目标值的最小值为0,最大值为1。

这种归一化方法是最常见的一种,可以用于大多数问题。例如,在图像识别中,图像的灰度值从0到255四舍五入到0到1。

二、Sigmodnormalization(Sigmodnormalization):

f(x) = 1 / (1 + exp(-ax+b))

假设a=0.1,b=5,图像为

当我们需要重点分析数据分布的中间地带,但对两端的数据不太敏感时,可以使用这种归一化方法。具体A和B根据问题调整,其中A影响上图蓝色曲线的陡度,B影响曲线的平移。

假设我们需要预测人的幸福感,影响因素有年龄、学历、收入等等。数据样本大多分布在年收入5w-40w,但也有0.5w的极低收入和1000w的极高收入,我们也发现在7w-15w范围内,人们的幸福感对收入水平非常敏感。当然,在一些简单的处理中,可以设置一个区间范围,比如[1w,100w],然后小于1w的视为1w,大于100w的视为100w。不过这个处理比较简单粗暴。为了不消除极端数据的影响,充分考虑中间敏感区间,可以使用Sigmod归一化方法,有效扩大中间数据的差异。

与这个想法相似的是反正切函数的归一化:

f(x) = atan(ax-b) / PI

其中PI为pi 3.14159...

特点:数据按“平均敏感度”分类在1-0之间;

要求:目标值的上下界不需要明确知道,对两端的数据值不敏感,对中间部分的数据值敏感。

三、Z分归一化:

f(x) = (x - q) / s

其中q为原始数据的均值x,s为原始数据的标准差。归一化数据符合正态分布,均值为0,标准差为1。

Z-score表示原始数据偏离均值的距离,距离测量的标准是标准方差。这种归一化方法要求原始数据的分布可以近似为高斯分布,否则归一化效果不好。Z分的数据分布如下图所示:

对于大量数据,68.26%将归一化为[-1,1],95.44%归一化为[-2,2],99%归一化为[-3,3]。

特点:根据数据值的分布,归一化分布概率。

要求:原始数据至少近似呈现正态分布。

1.《归一 走向人工智能 —— 数据预处理之归一化》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《归一 走向人工智能 —— 数据预处理之归一化》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/yule/1606841.html

上一篇

模拟养成手游 都是模拟养成类游戏,凭什么这款游戏能成为现象级?

下一篇

什么东西瘦肚子 吃什么,可以瘦肚子?

绝望之塔第四层 DNF:副本数据曝光,绝望之塔最强的3个BOSS,击杀玩家千万次!

  • 绝望之塔第四层 DNF:副本数据曝光,绝望之塔最强的3个BOSS,击杀玩家千万次!
  • 绝望之塔第四层 DNF:副本数据曝光,绝望之塔最强的3个BOSS,击杀玩家千万次!
  • 绝望之塔第四层 DNF:副本数据曝光,绝望之塔最强的3个BOSS,击杀玩家千万次!
大数据学习 什么是大数据,学习大数据需要什么基础?大数据学习路线和就业方向

大数据学习 什么是大数据,学习大数据需要什么基础?大数据学习路线和就业方向

首先,我们必须首先弄清楚什么是大数据 大数据又称海量数据,具有数据量大、来源广、种类多(日志、视频、音频)、PB级等特点。目前的框架是解决PB级数据。 专业地说:大数据,或者说海量数据,是指海量的、高增长的、多样化的信息资产,需要新的处理模式才能具有更强的决策、洞察和流程优化能力。 大数据...

厦门快速公交 厦门快速公交详细数据

  • 厦门快速公交 厦门快速公交详细数据
  • 厦门快速公交 厦门快速公交详细数据
  • 厦门快速公交 厦门快速公交详细数据

厦门brt公交 厦门快速公交详细数据

  • 厦门brt公交 厦门快速公交详细数据
  • 厦门brt公交 厦门快速公交详细数据
  • 厦门brt公交 厦门快速公交详细数据
消费者价格指数 中国CPI指数2018新数据:居民消费价格指数涨了2.1%

消费者价格指数 中国CPI指数2018新数据:居民消费价格指数涨了2.1%

中国国家统计局周四宣布,7月份消费者价格指数(CPI)同比上涨2.1%,高于路透社调查中1.9%的中值估计,为四个月来最高。其中,食品价格同比上涨0.5%,非食品价格同比上涨2.4%。  当月CPI环比上涨0.3%,路透社调查预估中值上涨0.2%;其中,食品价格环比上涨0.1%,非食品价格...

消费价格指数 中国CPI指数2018新数据:居民消费价格指数涨了2.1%

消费价格指数 中国CPI指数2018新数据:居民消费价格指数涨了2.1%

中国国家统计局周四宣布,7月份消费者价格指数(CPI)同比上涨2.1%,高于路透社调查中1.9%的中值估计,为四个月来最高。其中,食品价格同比上涨0.5%,非食品价格同比上涨2.4%。  当月CPI环比上涨0.3%,路透社调查预估中值上涨0.2%;其中,食品价格环比上涨0.1%,非食品价格...

消费物价指数 中国CPI指数2018新数据:居民消费价格指数涨了2.1%

消费物价指数 中国CPI指数2018新数据:居民消费价格指数涨了2.1%

中国国家统计局周四宣布,7月份消费者价格指数(CPI)同比上涨2.1%,高于路透社调查中1.9%的中值估计,为四个月来最高。其中,食品价格同比上涨0.5%,非食品价格同比上涨2.4%。  当月CPI环比上涨0.3%,路透社调查预估中值上涨0.2%;其中,食品价格环比上涨0.1%,非食品价格...

英超冠军历史表 一历史数据表明利物浦获得英超冠军几乎100%,除非出现奇迹

  • 英超冠军历史表 一历史数据表明利物浦获得英超冠军几乎100%,除非出现奇迹
  • 英超冠军历史表 一历史数据表明利物浦获得英超冠军几乎100%,除非出现奇迹
  • 英超冠军历史表 一历史数据表明利物浦获得英超冠军几乎100%,除非出现奇迹