Tf-idf,英文全称是Term Frequency-reverse Document Frequency,是文本挖掘领域的基础技术之一。Tf-idf是一种统计方法,用于评估一个文档的语料库中一个单词的重要性。一个单词的重要性会随着它在这个文档中出现的次数而增加,但也会随着它在语料库中的其他文档中出现的次数而减少。
假设一个语料库为D,语料库中的文档数为N=|D|,第j个文档用。还假设语料库中出现的所有单词的集合是。
词频的定义及其基本性质
直观来说,如果一个单词在文档中重复出现,该单词在文档中的重要性就会显著增加。在给定的文档中,术语频率是指语料库中的单词在文档中出现的频率。词频通常定义为:
其中,是指文件中单词出现的次数,分母是文件中所有单词出现的次数之和。
注意:如果文件中没有出现单词,则该单词在文件中的词频为零。
除了上述基本定义,词频还有其他形式:
二进制表示:,其中是指示函数。
计数意味着:
概率意味着:
对数表示:+
双重归一化K的意思是:+,其中,或者K可以直接取为0.5。
反向文件频率的定义和基本性质
除了词频,还有逆文档频率的概念,用来描述一个词的普遍性。一般来说,如果一个词出现在大多数甚至所有的文档中,比如一些常见的停止词,这个词的重要性就会降低,因为它在语料库中非常常见。因此,反向文件频率的定义通常是:
其中N=|D|是语料库中的文档总数,表示语料库中包含单词的文档数,即文档数。
注意:如果单词不在语料库中,分母就为零,所以一般用+号。
除了以上基本定义,还有几种常见的倒档频率计算方法:假设、
唯一性意味着:1
反向文件频率:
平滑反转文件频率:+
概率反向文件频率:
TF-IDF的定义和基本性质
然后,为了描述单词在文档中的重要性,tf-idf的定义可以写成:
一般来说,tf-idf倾向于过滤掉常用词,保留重要词。
下面:我们来看一个案例,看看tf-idf是如何计算的。
假设语料库中有两个文档,即文档1和文档2,出现的字数如下:
这张图可以直接计算出“这个”字在各种文档中的重要性:
,,,
所以可以获得。原因是两个文档中都出现了“this”这个词,而且是常用词。
,, ,
所以可以获得。原因是“示例”一词没有出现在第一个文档中,而是出现在第二个文档中。
矢量空模型
空之间的向量模型是将文件表示为向量的代数模型,利用向量之间的角度来比较文件之间的相似性。
假设语料库中所有单词的数量为t,jth文件为,查询为q,它们由向量表示如下:
每个维度对应一个对应的词。如果文件中没有出现该词,则向量中的对应位置为零。在这里,一个经典的方法是选择tf-idf权重,也就是说,jth文件的向量是按照以下规则选择的。
那么文件和查询q之间的相似性可以定义为:
分子指两个向量的内积,分母指两个向量的欧氏范数的乘积。
注意:在术语计数模型中,您可以简单地考虑单词出现的次数:。
相关文章推荐:
1.
2.
欢迎大家关注公共账户的数学生活
1.《idf TF-IDF简介》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《idf TF-IDF简介》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/1678077.html