机器学习最常见用途:预测和分类
机器学习常见分为两种:
1:有监督学习 --> 根据已经分类好的原始数据,训练生成模型,通过模型再去预测未知的数据进行分类, 数学含义通俗解释就是:我知道Y轴是什么,通过原始数据集(y=f(x)函数也可以是其它函数) 进行训练生成模型后,代入X来求得Y轴数据。
2:无监督学习 --> 并无分类好的原始数据,需要学习并提取分类,再进行训练生成模型
入门只看有监督学习
流程:
1:获取原始数据集
2:对每行数据的标签即分类进行离散化或者数值化,也就是转换成连续型数字或者0/1、true/false等离散化值,这里可能存在多类别问题即0,1,2,3,4,5.....多个类别
3:提取特征值并离散化或者数值化
4:根据类别对数据集进行有效划分,这个划分又有多种方式,按照信息熵变化来划分(就是数据集变化前后的百分比,值越大表示混淆度越高)、按照比例进行有效划分(这里是针对多类别划分)即按照每种类别提取数据集再进行划分训练集和测试集,最终合并起来,
这个时候数据分类划分的比例就和原始数据比例是一样的了。后面附上代码
5:根据业务(即是预测数值型还是预测离散型即类别),选取合适算法模型线性回归、逻辑回归、KNN(k-邻近算法)、随机森林、神经网络等等。 线性回归算法适合数值型预测、KNN、随机森林、ID3、C4.5等算法适合分类也即离散型
6:通过第4步的数据划分和第3步的特征提取,调用模型来进行训练、测试、预测,正确率越高,该模型越优
7:对模型进行性能评估,提取模型参数
8:调用matplotlib等图库,对模型参数进行可视化处理,以及特征值的权重大小展示
9:调用模型,对新的数据集进行预测分类,即可完成实际业务问题
整个流程结束
posted on 2017-08-01 11:47
朔望魔刃 阅读(294)
评论(0) 编辑 收藏 所属分类:
python