什么是TF-IDF?应用是什么?如何使用TF-IDF进行SEO

什么是TF-IDF?应用是什么?如何使用TF-IDF进行SEO

2019-11-21

  百度的算法不断的更新,也不断的给各位的站长有很大的压力,而如今的TF-IDF也对网站内容进行了新的算法运用,那么 什么是TF-IDF?应用是什么?如何使用TF-IDF进行SEO呢,想必这些对于很多的新手来说是非常的困惑的。

  TF-IDF定义:

  TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效.

  TF-IDF由两个部分组成?

  ????TF就是词频,比如一个词在某个文章中出现的次数 IDF是逆文档频率"

  众所周知,如果一个词在某个文章中出现的次数比较多,说明这个词比较贴合这个文章的所想表达的意图,当然是在去除掉一些没用的词语的情况下,比如"的","和"之类的,

  然而要体现出文章的关键词的"关键"二字,只有TF是远远不够的,这时候IDF就需要计算出来以计算所谓关键词中真正的能被称为关键词的词语

  IDF是逆文档频率 是指量化的表示一个词在一些文档中出现的次数,试想在一堆文档中,一个词出现在少量的文档中,那些这个词就很可能是那些文档的关键词,所以结合TF和IDF就可以用来衡量得出各文档的关键词

  下面说一下算法的详解

  step1: 计算TF 由于每个文章的字数不一样,所以不能单纯的使用词语的出现频率进行衡量TF

  TF(a_word)?= a_word的出现次数/文章的全部词

  step2: 计算IDF

  IDF(b_word) =?log(文档总数/(b_word出现的文档数+1))

  这边+1是由于如果不巧某个词在所有文档都不出现就会出现分母是0的情况,所以为了应对这个情况,作出+1的细节要求

  step3:需要用TF和IDF的乘积来衡量一个词的重要性

  TF-IDF =TF*IDF

  TF-IDF的应用:

  TF表示词条在文档中出现的频率。

  IDF的主要含义是:如果包含词条的文档越少,IDF越大。

  TF值较大,同时IDF值也较大,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档,即核心关键词!

  TF-IDF对SEO的意义:

  1、如果你的网页标题和内容,通过TF-IDF计算到的核心关键字,正好是你想优化的词,那么,你的网页获得较好排名的机会就会大大增加。

  反之,如果你想优化的词并不是网页的真正核心关键字,那么,要获得好的排名,则需要更多的其它方面的努力。

  2、不同的词性他的含义和作用也完全不一样,那么搜索引擎如何借助词性来判断关键词的核心主题呢?

  3、 如果我们从大范围来讲,一个网页的主题包含的关键词不少,但是真正有价值的关键词其实就那么几个,并且这些有价值的词我们暂且称为核心关键词。从词性来看,多数这些有价值的词均为名词形态,如果不了解该词到底属于什么关键词词性可以通过语义分析系统去识别,也可以对照一下自己网站的关键词,核心词绝对是以名词为主。

  4、 一般来说,核心关键词定位多数都是名词+动词,或者名词+形容词,比如小明在奔跑,该标题对于用户来说,都知道核心关键词是小明,没了小明奔跑就没有任何价值了。但是对于搜索引擎来说肯定不理解,从上面我们所讲到的分词原理,可以了解到该词的核心关键词也是小明,因为小明是名词,奔跑是动词,也叫做名+动。当然定位核心关键词的首要条件是必须是词性的频次相等的情况下才会优先将名词定位核心关键词,比如漂亮_漂亮同义词_漂亮的含义,虽然该标题里面漂亮是形容词,并且也包含了其他名词,但是为何核心词是漂亮而不是其他名词,因为频次相同才会将名词定位核心词,频次不相同优先将频次最大的关键词定位核心关键词。

  TF-IDF分词算法总结:

  1、网页关键词通过标点符合进行分词处理,虽然这个板块大多数SEO人都知道操作,但是由于你符号用的越多,导致网页的分词越广,最终主题不集中。比如:SEO_SEO培训_SEO教程_SEO优化,这种就是分词大忌,看起来都是分了4个词,其实没有一个集中的,如果要最集中也就是SEO这个词了。

  2、网页内容不管是更新新闻还是更新产品都要围绕标题的核心词去做,当然并不是要你去堆砌关键词,搜索引擎是有分词算法的,即使你网页体现培训这个词,搜索引擎也一样认为是关联性非常强的,不一定非得把SEO培训完全体现。

  3、整个网页与标题要保持一定的词控分布,简单说就是可以借助百度指数的需求图谱来进行词的扩展,也算是满足了搜索引擎对于网页的一种相关性计算,这种相关性计算会直接计算网页质量打分在里面。虽然有很多垃圾网站页面没有任何相关性,百度一样给予很好的排名,但是仔细去看,这种操作排名非常难稳定,而往往相关性强的网页排名稳定性更高。

  7、TF-IDF算法的不足

  TF-IDF 采用文本逆频率 IDF 对 TF 值加权取权值大的作为关键词,但 IDF 的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以 TF-IDF 算法的精度并不是很高,尤其是当文本集已经分类的情况下。

  在本质上 IDF 是一种试图抑制噪音的加权,并且单纯地认为文本频率小的单词就越重要,文本频率大的单词就越无用。这对于大部分文本信息,并不是完全正确的。IDF 的简单结构并不能使提取的关键词, 十分有效地反映单词的重要程度和特征词的分布情 况,使其无法很好地完成对权值调整的功能。尤其是在同类语料库中,这一方法有很大弊端,往往一些同类文本的关键词被盖。

  TF-IDF算法实现简单快速,但是仍有许多不足之处:

  (1)没有考虑特征词的位置因素对文本的区分度,词条出现在文档的不同位置时,对区分度的贡献大小是不一样的。

  (2)按照传统TF-IDF,往往一些生僻词的IDF(反文档频率)会比较高、因此这些生僻词常会被误认为是文档关键词。

  (3)传统TF-IDF中的IDF部分只考虑了特征词与它出现的文本数之间的关系,而忽略了特征项在一个类别中不同的类别间的分布情况。

  (4)对于文档中出现次数较少的重要人名、地名信息提取效果不佳。

  什么是TF-IDF?应用是什么?如何使用TF-IDF进行SEO的介绍就到这里吧,其实很多的算法出现就是能让用户有更好的体验,也去处理一些作弊的网站(图片来自网络版权归原作者所有)