作者:Flyingis
数据挖掘是一个由数据库、人工智能、数理统计和可视化等多学科与技术交叉、渗透、融合形成的交叉学科。地理空间数据挖掘(Geospatial Data Mining)是数据挖掘的一个研究分支,即从地理空间数据库中挖掘时空系统中潜在的、有价值的信息、规律和知识的过程,包括空间模式与特征、空间与非空间数据之间的概要关系等。数据挖掘可以用来模拟事物的一种变化方式,通过一些先验的知识或样本来判断事物未来的发展状况或某种状态。地理空间数据挖掘则可以作为一种可用的科学方法来解决一些地学相关的问题,对地学状况的变化作出分析和预测,这些分析很多都是基于对空间分析的基础上的,因此地理空间数据挖掘的根本是事物的空间特性,例如方位、距离、拓扑关系等等。
数据挖掘需要通过访问正确、完整和集成的数据库才能进行深层次的分析,挖掘出有用的信息,而这些正确的、完整的数据信息则是由数据立方体所提供的,其联机分析功能OLAP为数据挖掘提供了一个良好的操作平台。
地理空间数据挖掘典型方法主要有以下几种:
1. 地理空间统计方法
地理空间统计是指分析地理空间数据的统计方法,主要是利用了空间中邻近的要素通常比相距较远的要素具有较高的相似性这一原理。该模型可以分为三类:地统计、格网空间模型和空间点分步形态。
2. 地理空间聚类方法
地理空间数据聚类是按照某种距离度量准则,在大型、多维数据集中标识出聚类或稠密分布的区域,从而发现数据集的整体空间分步模式。该方法主要分为四类:分割法、层次法、基于密度的方法及基于网格的方法。
3. 地理空间关联分析
地理空间关联分析利用空间关联规则提取算法发现空间数据库中空间目标间的关联程度,从而进行空间数据关联分析的知识发现研究,其核心内容是挖掘空间关联规则。
4. 地理空间分类与预测分析
地理空间分类与预测是根据已知的分类模型把数据库中的数据映射到给定类别中,进行数据趋势预测分析的方法。人工神经网络可以作为该方法的典型技术应用于实际研究中。
5. 异常值分析
顾名思义,异常值分析即将数据库中与通常的行为或数据模型不一致的数据提取出来的分析方法。通过这种方法可以提取出数据库中的异常信息或噪声数据,有时也会导致隐藏的重要数据丢失。异常值分析方法主要有三种:基于统计的异常值分析、基于距离的异常值探测、基于偏差的异常值探测。
使用地理空间数据挖掘方法进行数据分析、信息提取时,Mathlab是一个非常好的辅助工具,很多函数库和可视化界面可以方便的使用,也可以很好的判断算法是否达到了应用要求,同时还可以作为其他语言实现数据挖掘方法的一种对比参考。
参考资料:
GIS空间分析原理与方法