无为

无为则可为,无为则至深!

  BlogJava :: 首页 :: 联系 :: 聚合  :: 管理
  190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

许多根据数据开发模型的方法都是从生物系统的学习能力,特别是从人的学习能力中得到的:是以数据驱动的方式来处理环境未知的统计属性,人并不具有天生的学习能力,而是通过与环境之间的数据驱动相互作用学到的。

   从数据样本中学习的问题可以描述为古典哲学的普通推理概念,每个预测学习过程都包括两个主要阶段:

1、   从已知样本集中学习或估计系统中的未知的相关性(归纳)

2、   用估计出的相关性来预测系统对于将来的输入值的新的输出(演绎)

 

归纳学习和模型估计的过程可用不同的学习方法来描述,学习方法是一种估计系统在可用数据集中的输入和输出之间的未知映射的算法,即从已知样本中进行估计,一旦精确地估计出它们的相关性,就可以用于预测已知输入值的情况下系统将做的输出。

 

一、机器学习

机器学习作为人工智能和统计学的结合物,已被证明是一个富有成效的研究领域,产生了许多不同问题和这些问题解决方案的算法,所有算法都是搜索n维空间数据集,以找出一个合适的概括结果。机器学习的一个基本任务是归纳机器学习,它从样本集中获得概括结果,用不同的技术和模型来定型。

普通学习方案组成部分:

1)        输出发生器:随机输入向量X发生器

2)        系统:对一个输入向量X返回输出Y

3)        学习机器:根据观测到的样本,估计未知的系统映射

归纳学习机试图从特定的、真正的事实,即我们所说的训练数据集中形成一般化的东西,这种归纳被定型为与系统行为相接近的函数集的形式,它的解决方法除了需要数据外,还需要先验知识。所有的归纳学习方法都使用关于所选的那类学习机的近似函数的先验知识。

 

二、统计学习

统计学习原理(SLT)是目前最好的用于有限样本归纳学习的形式化理论。也被称为Vapnik-Chervonenkis(VC)理论,严格地定义了所有归纳学习的相关概念,并为大多数归纳学习结果提供数据依据。其他学习方法如人工神经网络、贝叶斯推理、决策规则等更多地面向工程,重点在于实践实现,不需要强大的理论依据。

归纳学习的目标是在一类使用可用数据的近似函数中估计未知的相关性。最佳估计与最小期望风险函数相对应,包括数据的一般分布。分布未知,仅有的可用信息是有限的训练样本。因此,唯一可行的是用一个近似函数来替换未知的真实风险函数,这个近似函数叫经验风险,可用根据可用数据集将其计算出来,这种方法叫经验风险最小化(ERM)

ERM归纳原则是针对相对大型的数据集,当数据集较小时,必须修正ERM原则,结构风险最小化(SRM)的归纳原则提出了正式的机制来从有限的和小型的数据集中选择具有最优复杂度的模型。

已知数据集最优模型评估步骤:

1)        选择结构的一个元素,使之有最佳复杂度

2)        根据所选的结构元素中定义的近似函数集来估计模型

   SRM优化策略:

1)        梯度下降法

2)        迭代法

3)        贪心优化

 优化策略存在的问题:

1)        初始条件灵敏度

2)        停止规则的灵敏度(局部最小)

3)        多局部最小灵敏度

 

三、学习方法类型

1、有指导学习

有指导学习用于从已知的输入输出样本中估计未知的相关性,分类和回归是这类归纳学习方法的共同任务,有指导学习存在一位老师-匹配函数或其他的一些模型估计的外部方法。

2、无指导学习

   只将有输入值的样本提供给学习系统,学习过程中没有输出的概念,无指导学习去掉了老师,并要求学习者自己建立并估计模型。

 

四、学习任务

2、分类

3、   回归

4、   聚类

5、   概括

6、   相关性建模

7、   异常检测



凡是有该标志的文章,都是该blog博主Caoer(草儿)原创,凡是索引、收藏
、转载请注明来处和原文作者。非常感谢。

posted on 2006-05-25 21:21 草儿 阅读(152) 评论(0)  编辑  收藏 所属分类: BI and DM

只有注册用户登录后才能发表评论。


网站导航: