Tf-idf,英文全称是Term Frequency-reverse Document Frequency,是文本挖掘领域的基础技术之一。Tf-idf是一种统计方法,用于评估一个文档的语料库中一个单词的重要性。一个单词的重要性会随着它在这个文档中出现的次数而增加,但也会随着它在语料库中的其他文档中出现的次数而减少。

假设一个语料库为D,语料库中的文档数为N=|D|,第j个文档用。还假设语料库中出现的所有单词的集合是。

词频的定义及其基本性质

直观来说,如果一个单词在文档中重复出现,该单词在文档中的重要性就会显著增加。在给定的文档中,术语频率是指语料库中的单词在文档中出现的频率。词频通常定义为:

其中,是指文件中单词出现的次数,分母是文件中所有单词出现的次数之和。

注意:如果文件中没有出现单词,则该单词在文件中的词频为零。

除了上述基本定义,词频还有其他形式:

二进制表示:,其中是指示函数。

计数意味着:

概率意味着:

对数表示:+

双重归一化K的意思是:+,其中,或者K可以直接取为0.5。

反向文件频率的定义和基本性质

除了词频,还有逆文档频率的概念,用来描述一个词的普遍性。一般来说,如果一个词出现在大多数甚至所有的文档中,比如一些常见的停止词,这个词的重要性就会降低,因为它在语料库中非常常见。因此,反向文件频率的定义通常是:

其中N=|D|是语料库中的文档总数,表示语料库中包含单词的文档数,即文档数。

注意:如果单词不在语料库中,分母就为零,所以一般用+号。

除了以上基本定义,还有几种常见的倒档频率计算方法:假设、

唯一性意味着:1

反向文件频率:

平滑反转文件频率:+

概率反向文件频率:

TF-IDF的定义和基本性质

然后,为了描述单词在文档中的重要性,tf-idf的定义可以写成:

一般来说,tf-idf倾向于过滤掉常用词,保留重要词。

下面:我们来看一个案例,看看tf-idf是如何计算的。

假设语料库中有两个文档,即文档1和文档2,出现的字数如下:

这张图可以直接计算出“这个”字在各种文档中的重要性:

,,,

所以可以获得。原因是两个文档中都出现了“this”这个词,而且是常用词。

,, ,

所以可以获得。原因是“示例”一词没有出现在第一个文档中,而是出现在第二个文档中。

矢量空模型

空之间的向量模型是将文件表示为向量的代数模型,利用向量之间的角度来比较文件之间的相似性。

假设语料库中所有单词的数量为t,jth文件为,查询为q,它们由向量表示如下:

每个维度对应一个对应的词。如果文件中没有出现该词,则向量中的对应位置为零。在这里,一个经典的方法是选择tf-idf权重,也就是说,jth文件的向量是按照以下规则选择的。

那么文件和查询q之间的相似性可以定义为:

分子指两个向量的内积,分母指两个向量的欧氏范数的乘积。

注意:在术语计数模型中,您可以简单地考虑单词出现的次数:。

相关文章推荐:

1.

2.

欢迎大家关注公共账户的数学生活

1.《idf TF-IDF简介》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《idf TF-IDF简介》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/1678077.html