注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

anqiang专栏

不要问细节是怎么搞的,源码说明一切

 
 
 

日志

 
 

RapidMiner 学习五 (基于核方法的聚类算法)  

2009-06-15 22:16:11|  分类: RapidMiner |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

对于RapidMiner的研究,我们上次讲到了简单分类器的构建。今天我来讲讲在RapidMiner中简易聚类算法的使用。由于在weka部分我们已经讲过KMeans算法的东西,这次我就选择了weka中没有实现的基于核方法的聚类算法,即KernelKMeans (据我所知weka中没有实现这类算法,如果有的话,请告诉我一下)

说起基于核方法的聚类算法,我就想到了本科毕业设计实现的基于核方法的热点新闻发现系统,当时对于所谓的核方法一知半解就稀里糊涂做了一篇核心论文出来。现在在看看当初的论文,简直不堪入目。其实核方法是核方法最早是和SVM支持向量机一起发展起来的,支持向量机的核心就是核方法。这个核方法说起来很神秘,将低维空间的数据转化到高维空间。                                           RapidMiner 学习五 (基于核方法的聚类算法) - 笨笨 - anqiang专栏

对于样本Xi,它被通过函数RapidMiner 学习五 (基于核方法的聚类算法) - 笨笨 - anqiang专栏映射到高维空间后,我们就可以在高维空间求样本的内集即核函数。这个核函数用于替代在低维空间的距离公式(这是我的理解)。因此在低维空间用欧几里得距离(或者其它的距离公司)计算的公式可以在高维空间用核函数表示出来:RapidMiner 学习五 (基于核方法的聚类算法) - 笨笨 - anqiang专栏

这样聚类中,我们的目标函数就转换为求:

RapidMiner 学习五 (基于核方法的聚类算法) - 笨笨 - anqiang专栏

这个目标函数的最小值了。这些内容参考的是 《核聚类算法》 张莉、周伟达、焦李成,计算机学报,第25 6期。对此有迷惑的可以在网上下载这篇文章看看。其实挺通俗易懂的。

下午把核聚类算法的实现看了一遍,基本上是按照上面这个目标函数来求的最优解的。

把做实验的代码贴出来,供大家参考,回头有兴趣了在weka中实现一个。

package com.test;

 

import com.rapidminer.RapidMiner;

import com.rapidminer.example.set.SimpleExampleSet;

import com.rapidminer.operator.IOContainer;

import com.rapidminer.operator.IOObject;

import com.rapidminer.operator.Operator;

import com.rapidminer.operator.clustering.clusterer.KernelKMeans;

import com.rapidminer.operator.io.ExampleSource;

import com.rapidminer.tools.OperatorService;

 

/*

 * Date: 2009.6.15

 * by: Wang Yi

 * Email: wangyi19840906@yahoo.com.cn

 *

 */

 

public class Demo3 {

 

    /**

     * @param args

     */

    public static void main(String[] args) {

       // TODO Auto-generated method stub

       try{

           /*

            * rapidMiner初始化

            * 在它初始化之前,OperatorService是不可以用的

            */

           RapidMiner.init();

          

           /*

            * 通过OperatorService创建Operator对象

            * 可以同class名称和对象描述信息来创建

            */

           Operator exampleSource = OperatorService.createOperator(ExampleSource.class);

          

           /*

            * 为读取样本的Operator设置参数,这里是设置数据源的路径

            */

           exampleSource.setParameter("attributes", "E:/RMWorkspace/sample/data/iris.aml");

          

           /*

            * 将样本对象都读取到一个IOContainer

            */

           IOContainer container = exampleSource.apply(new IOContainer());

          

           /*

            * 获得一个分类器Operator对象 (KernelKMeans)

            */

           Operator learner = OperatorService.createOperator(KernelKMeans.class);

          

           /*

            * 设置聚类的最大类别数

            */

           learner.setParameter("k", "3");

          

           /*

            * 设置使用的核方法,这里选择的6是高斯核

            * 默认是0 点积核

            * 具体的核方法在 源码com.rapidminer.tools.math.kernels.Kernel中有,也可以看看API

            */

           learner.setParameter("kernel_type","6");

          

           learner.apply(container);

          

           IOObject[] io = container.getIOObjects();

          

           /*

            * 打印出结果,

            * 这个IOObject实际上是一个SimpleExampleSet对象

            */

           System.out.println("Result:"+ io.length);

          

           /*

            * 获得聚类的结果,并打印出来

            */

           SimpleExampleSet source = (SimpleExampleSet) io[0];

          

           int size = source.size();

          

           for(int i = 0; i < size; i++){

              System.out.println(" " + source.getExample(i));

           }         

       }catch(Exception e){

           e.printStackTrace();

       }

    }

 

}

  评论这张
 
阅读(1558)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017