注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

anqiang专栏

不要问细节是怎么搞的,源码说明一切

 
 
 

日志

 
 

Mahout中分布式bayes实现  

2010-04-07 15:34:05|  分类: Hadoop & Mahout |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

Mahout中实现了不少分布式数据挖掘算法,协同推荐,分类聚类算法,协同推荐前段时间看了一下,大概明白了里面的原理,想来也不是高不可攀的东西。

这几天要回学校了,在公司也没有多少事情,所以就查看了一些bayes方面的代码,如果有时间的话,在看看聚类以及RandomForest算法的一些实现。

Mahout中的bayes实现分为三部分,

1.       样本构建; 通过org.apache.mahout.classifier.BayesFileFormatter来实现,它将一组文件转换成label\t term1 term2 term3 …这样的格式,供后面分类器构造和分类时使用; 代码分析在前几篇博文中提供了;

2.       训练; 通过org.apache.mahout.classifier.bayes.TrainClassifier实现,它会调用BayesDriver来构建的map reduce类,它们会生成Bayes中间的参数信息,供分类时使用;

3.       测试分类; 通过 org.apach.mahout.classifier.bayes.TestClassifier 实现,它分为串行执行和并行执行两种; 这部分分类前要先调用org.apache.mahout.classifier.bayes.datastore中的一个DataStore类型,由于笔者对于HBase不了解,所以会在后面介绍InMemoryBayesDatastore这个类,它会在分类前被初始化,初始化的对象中保存了在第二步得到的中间参数信息。

后面会逐步将与上面几步相关的代码注释贴出来,以备后用。

  评论这张
 
阅读(2624)| 评论(2)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017