注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

anqiang专栏

不要问细节是怎么搞的,源码说明一切

 
 
 

日志

 
 

Lucene源码分析开篇  

2009-11-30 10:11:04|  分类: Lucene |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

 

一直希望能够有机会将分析Lucene源码的东西整理出来,这样既能方便自己以后的查询,也能帮助初次接触Lucene的网友更快的熟悉源码。事实上,互联网上关于Lucene的介绍信息已经是非常丰富了,英语水平不错的网友可以借助Lucene的官方网站得到最全最新的技术信息。而对于看到英文就头大的朋友,看看中文方面的介绍和讲解应该更容易一些。网上很多热心的网友将Lucene源码的分析发布出来,无论是哪个版本都有很多的信息可以获取,起初我也是通过这个方式来学习Lucene的。

我的朋友Kolala++在今年暑假的时候也将他分析源码的结果放在博客上了,他主要分析的是2.4.0版本的,有兴趣的可以到他的博客上去逛逛。Kolala++是一个对待网友超级热情的人,对数据挖掘理论、WekaLuceneSVM理论都是比较熟悉,在很多方面我在他之下,有机会大家可以跟他讨论一番。

顺带说说现在Lucene社区的情况,Lucene现在已经发展成一个非常庞大的开源社区,贡献者很多,形成了一些子项目,其中Solr应该是业界用的比较的,它实现了分布式的搜索功能(其实我对这些技术细节不是很清楚)。Hadoop也是基于分布式的思想发展而来的,而起初的贡献者也是Lucene的发起者,现在Hadoop的社区也是比较红火了,PS:我在上个星期也搭了一个Hadoop的平台起来,没有想象中那么难,有机会写些东西放出来。

再说一下另外一个我比较感兴趣的一个项目,Mahout,它是基于MapReduce思想开发的分布式数据挖掘软件,也是由Lucene社区中几个对数据挖掘比较感兴趣的贡献者发起的,现在到了0.2.0版本,如果说hadoop是为一般的技术人员分析海量数据提供了一个工具的话,那么Mahout就是为数据挖掘工作者提供了一个能够在海量数据上进行工作的工具。这个开源软件希望能够引起数据挖掘研究者的注意(从社区的活跃程度来看,它还是比较有前景项目)。我在博客上开辟了Mahout的子栏目,以后会陆续写一些关于这个项目的文章。12月底的时候会回到学校了,相信在1月到2月之间我会有比较多的时间用于分析源码,复习功课,到那时候会有充裕的时间用于写博客。2月后会开始忙碌的找工作阶段,愿自己在那个时候好运。

  评论这张
 
阅读(889)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017