找回密码
 加入SEO研究中心

QQ登录

只需一步,快速开始

搜索
  • TA的每日心情
    难过
    昨天 19:43
  • 签到天数: 185 天

    [LV.7]常住居民III

    1210

    主题

    2972

    帖子

    265

    威望

    管理员

    管理员金笔作者论坛荣誉勋章官方SEO讲师安全认证爱心达人论坛元老

    TF-IDF算法原理解释资料

    446 2
    2019-5-8 15:17:53
    显示全部楼层
    TF-IDF算法原理解释资料

    概念

    TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。

    TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

    TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。



    TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF * IDF。

    在一份给定的文件里,词频 (term frequency, TF) 指某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母区别于IDF),以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)

    逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。**如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。**如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。

    某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。




    文本 整理于互联网,供学习参考之用


    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?加入SEO研究中心

    x
  • TA的每日心情
    难过
    昨天 19:43
  • 签到天数: 185 天

    [LV.7]常住居民III

    1210

    主题

    2972

    帖子

    265

    威望

    管理员

    管理员金笔作者论坛荣誉勋章官方SEO讲师安全认证爱心达人论坛元老

    2019-5-8 19:29:20
    显示全部楼层
    整理的 TF-IDF算法文档 以供学习参考


    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?加入SEO研究中心

    x
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    难过
    昨天 19:43
  • 签到天数: 185 天

    [LV.7]常住居民III

    1210

    主题

    2972

    帖子

    265

    威望

    管理员

    管理员金笔作者论坛荣誉勋章官方SEO讲师安全认证爱心达人论坛元老

    2019-5-10 19:15:23
    显示全部楼层
    顶起来哦,多看一看吧。顶起来哦,多看一看吧。
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 加入SEO研究中心