一种经典的数据挖掘算法——朴素贝叶斯

什么是朴素贝叶斯

朴素贝叶斯方法是基于贝叶斯定理和特征条件独立假设的分类方法。

也是贝叶斯分类中最简单、最常用的分类方法。

朴素贝叶斯原理:

一般情况下,事件A在事件B条件下的概率和事件B在事件A条件下的概率是不同的;但两者之间是有确定关系的,贝叶斯规则就是这种关系的陈述。

大多数分类算法,决策树,KNN,逻辑回归,支持向量机等。是判别方法,而朴素贝叶斯是生成方法。

不仅如此,朴素贝叶斯直观,计算量也不大。它被广泛应用于许多领域。

朴素贝叶斯的优点

1多分类问题

分类效率稳定,复杂度不会大幅度增加。

2缺少数据处理

朴素贝叶斯算法可以处理缺失数据。在算法的建模和预测过程中,数据的属性被单独处理。因此,如果数据实例缺少属性值,在建模和计算它是否属于某种概率时将被忽略。

3数据更少

它在小规模数据上表现良好,可以处理多分类任务。此外,由于样本规模小,不会产生过拟合数据。如果训练数据不多,请尝试朴素贝叶斯算法。

朴素贝叶斯的常见应用场景

1文本分类/垃圾邮件过滤/情感识别

这是使用最广泛的地方。尽管分类器层出不穷,朴素贝叶斯在文本分类领域仍然占有一席之地。在文本数据中,分布独立性的假设基本成立。然而,朴素贝叶斯在垃圾邮件过滤和情感分析中通常可以取得良好的效果。

2多分类实时预测

对于文本相关的多分类实时预测,它应用广泛,简单高效。

3推荐系统

协同过滤关联度高,但泛化能力略弱。朴素贝叶斯和协同过滤可以增强推荐的覆盖面和效果。

朴素贝叶斯有明显的缺点,对输入数据的表达比较敏感。

有人提出了理论解释,并建立了朴素贝叶斯的效果与非朴素贝叶斯的效果可以等价的充要条件。

这个解释的核心是:一些独立的假设均匀分布在不同的分类中,所以对可能性的相对大小没有影响;即使不是这样,各独立假设产生的负面或正面效应也很有可能相互抵消,最终对结果影响不大。

上海数据分析:www.shcpda.com

1.《数据挖掘的算法 数据挖掘经典算法—朴素贝叶斯》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《数据挖掘的算法 数据挖掘经典算法—朴素贝叶斯》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/jiaoyu/1673429.html