注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

anqiang专栏

不要问细节是怎么搞的,源码说明一切

 
 
 

日志

 
 

Hadoop计算文档的中每个词的TFIDF值  

2010-03-02 00:31:43|  分类: Hadoop & Mahout |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

做数据挖掘的最常见的就是要对文档向量化,而向量化表示中最常见的就是TFIDF了。那么对于海量数据我们该如何计算呢?本文讲解一下使用Hadoop计算TFIDF值的步骤,在其它地方也有不少这方面的介绍,本文仅供参考。

 

在本地进行TFIDF计算需要三步:

1.       统计数据集中独立词的个数,并统计它们的IDF;

2.       对每个文档统计每个独立词出现的次数TF

3.       用独立词的IDF与每个文档中独立词的TF进行交,得到每个文档中每个独立词的TFIDF

 

Hadoop上需要是四步MapReduce

1.       统计得到记录 DocID ItemID TF

2.       统计ItemID IDF

3.       上面两个结果进行相交得到,DocID ItemID TFIDF

4.       对第三步的结果进行合并得到 DocID ItemID1 TFIDF1 ItemID2 TFIDF2 …

 

当然这两种方法进行之前都要先对文档进行分词。
  评论这张
 
阅读(1836)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017