“TF-IDF”算法原理与网站SEO“TF-IDF”算法的运用

TF-IDF是Term Frequency-Inverse Document Frequency的缩写,简单翻译过来解释就是词频-逆文件频率的意思。
TFIDF是一种用于资讯检索与资讯探勘的常用加权算法,同时TF-IDF也是一种统计方法,常常被用以评估某个字或者词对于一个文件夹或一个内容库中的其中一个文件的重要程度。

“TF-IDF”算法原理与网站SEO“TF-IDF”算法的运用

TF-IDF公式:

TF-IDF=TF*IDF
TF=(指定词/所有词)
IDF=log(库中文档总数/包含指定词的文档总数)

TFIDF = (指定词/所有词)*log(库中文档总数/包含指定词的文档总数)

TFIDF = (20/1000)*log(250/62.3)
通过TF-IDF公式我们能够得到以下两个结论:

1、关键词(字)的权重值随着它在当前文件中出现的频率成正比增加;

2、关键词(字)的权重值随着它在内容库中出现的频率成反比下降。

结合SEO来看这个公式,我们能够了解到:
1、关键词密度越高,TF-IDF值就越高,文章的权重值也就越高(这也是早期SEO堆砌关键词轻松上排名的原因);
2、内容越稀缺,TF-IDF值就越高,文章的权重值也就越高;

举例:

以《SEO的发展历程》为例,假定该文长度为1000个词,”SEO”、”发展”、”历程”各出现20次,则这三个词的”词频”(TF)都为0.02。 然后,搜索Google发现,包含”的”字的网页共有250亿张(假定这就是中文网页总数),包含”SEO”的网页共有0.484亿张,包含”发展”的网页为62.3亿张,包含”历程”的网页为0.973亿张。则它们的逆文档频率(IDF)和TF-IDF的计算结果如下:

关键词【SEO】的TFIDF = (20/1000)*log(250/0.484),结果为0.0543;

关键词【发展】的TFIDF = (20/1000)*log(250/62.3),结果为0.0121;

关键词【历程】的TFIDF = (20/1000)*log(250/0.973)结果为0.0482;
SEO的TF-IDF值最高,因此在只选择一个关键词的情况下,SEO就是这篇文章的核心关键词;
信息检索时,对于每个文档,都可以分别计算一组搜索词(”SEO”、”发展”、”历程”)的TF-IDF,将它们相加,就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。

TF-IDF算法的优缺点

TF-IDF算法的优点是简单快速,结果比较符合实际情况。缺点是,单纯以”词频”衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。

本文部分内容来自网络,经由凌哥SEO整理发布,不代表凌哥SEO技术博客立场,如有侵权,请联系删除。

发表评论

登录后才能评论