机器学习流程-入门 - fantasy-java

机器学习流程-入门

机器学习最常见用途：预测和分类

机器学习常见分为两种：

1：有监督学习 --> 根据已经分类好的原始数据，训练生成模型，通过模型再去预测未知的数据进行分类，数学含义通俗解释就是：我知道Y轴是什么，通过原始数据集(y=f(x)函数也可以是其它函数) 进行训练生成模型后，代入X来求得Y轴数据。
2：无监督学习 --> 并无分类好的原始数据，需要学习并提取分类，再进行训练生成模型

入门只看有监督学习

流程：
1：获取原始数据集
2：对每行数据的标签即分类进行离散化或者数值化，也就是转换成连续型数字或者0/1、true/false等离散化值，这里可能存在多类别问题即0，1，2，3，4，5.....多个类别
3：提取特征值并离散化或者数值化
4：根据类别对数据集进行有效划分，这个划分又有多种方式，按照信息熵变化来划分(就是数据集变化前后的百分比，值越大表示混淆度越高)、按照比例进行有效划分（这里是针对多类别划分）即按照每种类别提取数据集再进行划分训练集和测试集，最终合并起来，
这个时候数据分类划分的比例就和原始数据比例是一样的了。后面附上代码
5：根据业务(即是预测数值型还是预测离散型即类别)，选取合适算法模型线性回归、逻辑回归、KNN(k-邻近算法)、随机森林、神经网络等等。线性回归算法适合数值型预测、KNN、随机森林、ID3、C4.5等算法适合分类也即离散型
6：通过第4步的数据划分和第3步的特征提取，调用模型来进行训练、测试、预测，正确率越高，该模型越优
7：对模型进行性能评估，提取模型参数
8：调用matplotlib等图库，对模型参数进行可视化处理，以及特征值的权重大小展示
9：调用模型，对新的数据集进行预测分类，即可完成实际业务问题

整个流程结束

posted on 2017-08-01 11:47 朔望魔刃阅读(296) 评论(0) 编辑收藏所属分类: python

常用链接

留言簿

随笔分类

随笔档案

文章分类

文章档案

收藏夹

娱乐博客

牛博

搜索

最新评论

阅读排行榜

评论排行榜


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: 机器学习之K-邻近算法机器学习流程-入门 eclipse+pyDev+Django