最近的工作重点是Web Data Mining, 经过近一周的Paper学习后,对于Web日志的挖掘有了一些想法。下面就应该是尽快进行实践。
于是,今天利用晚上的时间,成功安装了Weka(version 3.4.12),对于Weka的安装,由于Weka是一个数据挖掘软件,当然需要和数据库进行连接,因此需要下载驱动,常用的及其支持的有:MySQL, HSQL Database, Mckoi SQL Database, RmiJdbc, 需要注意以下几点:
一.正常情况下,要在CLASSPATH添加上面下载的数据驱动jar包,但目前的问题是即使正确添加,也会提示“Trying to add JDBC driver: ***Driver - Error, not in CLASSPATH?”等类似的语句(我用的是Windows系统,Linux有待于做实验确认),所以建议直接在命令行输入路径信息,如:java –Xmx128m –classpath "hsqldb.jar;mysql-connector-java-5.15.bin.jar;RmiJdbc.jar;mkjdbc.jar;weka.jar" weka.gui.GUIChooser (注:我将这些数据驱动jia包放在了Weka安装目录下)
二.Weka(Version3.4.12)对于RmiJdbc,一定选择版本2.5(版本3.3,3.2,3.05我下载后添加依然提示Trying to add JDBC driver:RmiJdbc.RJDriver - Error, not in CLASSPATH?错误,1.0版本同样也不行);对于Weka(version 3.5.5) 对于RmiJdbc,一定选择版本3.05或2.5。
下面是对于Weka学习的一个日程安排,以做备忘:
1.下载和安装Weka (4.16-4.21)
2.按照参考ppt提供的例子跑通clustering算法,并且了解它的各项意义(4.21-4.30)
3.找个复杂的例子(下载数据集http://www.cs.waikato.ac.nz/ml/weka/index_datasets.html)跑通并解释其数据意义(5.1-5.6)
4.把一个Clustering算法改写成Hadoop代码运行在服务器上(5.6-5.20)