马可波罗的梦乡

BlogJava 首页 新随笔 联系 聚合 管理
  4 Posts :: 50 Stories :: 2 Comments :: 0 Trackbacks

1、Weka中所有的学习算法都继承自weka.classifiers.Classifier。基本分类器十分简单,一个程序用于从训练数据创建分类器,另一个程序则通过未知数据来验证生成模型,或者为所有的类生成概率分布
2、数据串行化需要实现Serializable接口,可以把对象串行化到持久存储中,还没怎么用过,除了做Eclipse插件时修改过。存储时,还可以选择压缩存储。
3、把所有的数据放在Instance中。weka有Instance类,里面还有各种Attribute。有点像Lucene的Document类可以有多个Field一样。
4、ARFF是表达包含相互独立、没有次序关系数据实例数据集的一种标准方式。(在Weka中应该是大量使用这种数据格式)。ARFF文件只给出dataset,并没有说明需要通过哪些属性预测另外哪个属性。这说明,通过同一个文件,可以研究哪些属性可以较好地预测另外一个属性,也可以研究关联规则,或进行聚类操作
@data 表示要开始给出数据集的数据实例了
数据实例中,值通过逗号进行分隔。如果某个值是缺失的,则用一个问号表示
ARFF允许使用两种类型的数据,分别是名词和数值类型

5、
posted on 2009-10-16 13:41 梦回唐朝 阅读(177) 评论(0)  编辑  收藏 所属分类: weka

只有注册用户登录后才能发表评论。


网站导航: