1、把零散的信息集成到数据仓库中,对决策有巨大的好处。
2、数据清理应该是一个繁琐的过程。即使是数据仓库,也不可能包含所有的数据,如果没有解决问题的全部数据,就需要到外部获取数据,并对这些数据进行清理,同时把这些数据集成到数据仓库中去。
3、经常需要对数据进行规格化操作,如使某个属性的值在0-1区间。规格化操作的方法很多,如除以发现的最大数,或求统计均值,方差等。
4、通过使用距离函数,名词值也可以转成成数字。如两个名字相同,则值为0,两个名字不同,则值为1。
5、有时数据本身具备一些源自自身的映射关系,如电话号码前的区号,邮编。学号前几位数字可能代表该学生的入学时间等。
6、现实生活中遇到的大部分数据集,都会包含缺失值,即missing value。
7、数据有缺失是很正常的情形。如医学实验,如果动物在实验完成之前就死掉了,有些数据就不能采集到了。数据缺失并不一定使用问号表示,也可以用超出正常值的一些特定值来表示,如使用负数和零等。即使同样是缺失值,也可以有多种原因,可以使用不同的负值表示。。。
8、