知识流界面通过允许不将整个数据集一次性完全加载到内存中来达到处理大规模数据的目的,而真正的研究工作可能涉及到好几个数据集,计算量非常大,这就需要用实验者界面来解决了。实验者界面有两大特点:
1. 允许使用多种算法对多个数据集进行操作。2. 支持分布式计算。
打开实验者界面后在 Setup标签页 可以选择实验结果的输出方式,左下角和右下角分别是数据集和算法的加载窗口。Iteration Control 面板可以选择验证次数以及多个算法遍历多个数据集的先后顺序。
Run标签页可以选择开始挖掘。Analyse标签页可以查看输出结果。
Weka的分布式挖掘并不是像 hadoop那样在算法层面的分布式计算,而是通过把不同的数据集分配给不同的终端机的形式进行的。所以终端机的数量不能超过数据集的数量。因此在每一个终端机上进行的子实验都是独立的。最后所有终端机的计算结果都汇聚给同一个数据库。终端机之间的远程调用是通过RMI进行的。
下面给出几篇weka连接数据库的介绍文章:
还有一篇从 数据挖掘-实用机器学习技术 一书中截图的文档:
http://pan.baidu.com/s/1eQ5mpLS