Skip to main content

Home/ 互联网之'我的阅读'/ Group items tagged 精算

Rss Feed Group items tagged

ocean wu

相关度计算与信噪比 - 0 views

  • 基于这样一个矩阵,我们就能够将一个词扩展成为一组词汇,因而也同时可以将文章所对应的向量扩展成一个更多词汇的集合。 这里的计算需要一个完整的相关度矩阵:M M(i,j) = {关键词i,j的相关度} 而两篇文章的相关度的计算,也由简单的 R= Sigma Vi*Vi 变为 R= Sigma Vi*M(i,j)*Vj 查询关键词和文章的相关度也由简单的 R(i)=TF(i)*IDF(i) 变为 R(i)=Sigma TF(j)*IDF(j)*M(i,j)
  • 假设一个文章集合 {C},总文章数目为N,其中含有单词A的文章总数为Na,含有单词B的文章总数是Nb,含有{A+B}的文章总数是 Nab,那么相关性这么计算 CorrAB= Nab/(Na+Nb-Nab)-(Na*Nb)/(N*N) 本计算中可能会得到负相关,如果考虑到Na,Nb都是小量,可以忽略,那么 CorrAB= Nab/(Na+Nb-Nab) 至此,要计算相关度之间的全部要素都获得了。 思考,那么到底 学校 和学生 之间的相关度是多少呢? 我们利用google来回答这个问题吧: 约有91,700,000项符合学校的查询结果 约有88,200,000项符合学生的查询结果 约有48,900,000项符合学生 学校的查询结果 Corr{学校,学生}=48,900,000/(91,700,000+88,200,000-48,900,000)=0.37 这个原理我以前应用在了计算【网页信噪比】上,和网页信噪比一起成为衡量一个网页的关键词的核心算法。 这也就是为什么6e的网页信噪比能够不依靠网页上现有的关键词而准确的判断网页的分类和相关度,是因为除了TF和IDF之外,我们能够从已有的文本集合里学到更多的“知识”。
  •  
    。这里介绍的做法是采用关键词相关性扩展的做法从而得到更加精确的相关度计算。
1 - 1 of 1
Showing 20 items per page