idf TF-IDF简介

Tf-idf，英文全称是Term Frequency-reverse Document Frequency，是文本挖掘领域的基础技术之一。Tf-idf是一种统计方法，用于评估一个文档的语料库中一个单词的重要性。一个单词的重要性会随着它在这个文档中出现的次数而增加，但也会随着它在语料库中的其他文档中出现的次数而减少。

假设一个语料库为D，语料库中的文档数为N=|D|，第j个文档用。还假设语料库中出现的所有单词的集合是。

词频的定义及其基本性质

直观来说，如果一个单词在文档中重复出现，该单词在文档中的重要性就会显著增加。在给定的文档中，术语频率是指语料库中的单词在文档中出现的频率。词频通常定义为:

其中，是指文件中单词出现的次数，分母是文件中所有单词出现的次数之和。

注意:如果文件中没有出现单词，则该单词在文件中的词频为零。

除了上述基本定义，词频还有其他形式:

二进制表示:，其中是指示函数。

计数意味着:

概率意味着:

对数表示:+

双重归一化K的意思是:+，其中，或者K可以直接取为0.5。

反向文件频率的定义和基本性质

除了词频，还有逆文档频率的概念，用来描述一个词的普遍性。一般来说，如果一个词出现在大多数甚至所有的文档中，比如一些常见的停止词，这个词的重要性就会降低，因为它在语料库中非常常见。因此，反向文件频率的定义通常是:

其中N=|D|是语料库中的文档总数，表示语料库中包含单词的文档数，即文档数。

注意:如果单词不在语料库中，分母就为零，所以一般用+号。

除了以上基本定义，还有几种常见的倒档频率计算方法:假设、

唯一性意味着:1

反向文件频率:

平滑反转文件频率:+

概率反向文件频率:

TF-IDF的定义和基本性质

然后，为了描述单词在文档中的重要性，tf-idf的定义可以写成:

一般来说，tf-idf倾向于过滤掉常用词，保留重要词。

下面:我们来看一个案例，看看tf-idf是如何计算的。

假设语料库中有两个文档，即文档1和文档2，出现的字数如下:

这张图可以直接计算出“这个”字在各种文档中的重要性:

,,,

所以可以获得。原因是两个文档中都出现了“this”这个词，而且是常用词。

,, ,

所以可以获得。原因是“示例”一词没有出现在第一个文档中，而是出现在第二个文档中。

矢量空模型

空之间的向量模型是将文件表示为向量的代数模型，利用向量之间的角度来比较文件之间的相似性。

假设语料库中所有单词的数量为t，jth文件为，查询为q，它们由向量表示如下:

每个维度对应一个对应的词。如果文件中没有出现该词，则向量中的对应位置为零。在这里，一个经典的方法是选择tf-idf权重，也就是说，jth文件的向量是按照以下规则选择的。

那么文件和查询q之间的相似性可以定义为:

分子指两个向量的内积，分母指两个向量的欧氏范数的乘积。

注意:在术语计数模型中，您可以简单地考虑单词出现的次数:。

idf TF-IDF简介

它的的英文 “网红”当道，那它的英文表达你会说吗？

x20a 【模玩作品赏析】强大的细节！PG ZGMF-X20A 强袭自由高达