订阅
纠错
加入自媒体

机器学习:开启智能创新之门

2017-10-23 09:59
来源: e-works

    (六)机器学习过程举例说明

所谓机器学习过程,是指观察有n个样本数据组成的集合,并根据这些数据来预测未知数据的性质,那么在给定数据集(所谓大数据)和具体问题的前提下,一般解决问题的步骤可以概括如下:

1.数据抽象

将数据集和具体问题抽象成数学语言,以恰当的数学符号表示。这样做自然是为了方便表述和求解问题,而且也更加直观。

2.设定性能度量指标

机器学习是产生模型的算法,一般来说模型都有误差。如果模型学的太好,把训练样本自身的一些特点当成所有潜在样本具有的一般性质,这种情况称为过拟合,这样的模型在面对新样本时就会出现较大误差,专业表述就是导致模型的泛化性能下降。与之相对的是欠拟合,模型对样本的一般性质都没学好,这种情况一般比较好解决,扩充数据集或者调整模型皆可。

3.数据预处理

之所以要做数据预处理,是因为提供的数据集往往很少是可以直接拿来用的。例如:如果样本的属性太多,一般有两种方法: 降维和特征选择。特征选择比较好理解,就是选择有用相关的属性,或者用另外一种表达方式:选择样本中有用、跟问题相关的特征。

4.选定模型

在数据集完美的情况下,接下来就是根据具体问题选定恰当的模型了。一种方式是根据有没有标记样本考虑。如果是有标记样本,可以考虑有监督学习,反之则是无监督学习,兼而有之就看半监督学习是否派的上用场。

5.训练及优化

选定了模型,如何训练和优化也是一个重要问题。如果要评估训练集和验证集的划分效果,常用的有留出法、交叉验证法、自助法、模型调参等如果模型计算时间太长,可以考虑剪枝如果是过拟合,则可通过引入正则化项来抑制(补偿原理)如果单个模型效果不佳,可以集成多个学习器通过一定策略结合,取长补短(集成学习)

6.机器学习举例分析

在机器学习领域特征比模型(学习算法)更重要。举个例子,如果我们的特征选得很好,可能我们用简单的规则就能判断出最终的结果,甚至不需要模型。比如,要判断一个人是男还是女,假设由计算机来完成这个任务,首先采集到各种数据(特征:姓名、身高、头发长度,籍贯、是否吸烟等等。因为根据统计我们知道男人一般比女人高,头发比女人短,并且会吸烟;所以这些特征都有一定的区分度,但是总有反例存在。我们用最好的算法可能准确率也达不到100%。然后再进行特征提取,提出对目标有意义的特征,删除无关的(籍贯),然后进行预处理,对特征提取结果的再加工,目的是增强特征的表示能力,防止模型(分类器)过于复杂和学习困难。接下来就是训练数据,这里我们通过监督学习或无监督的方法来拟合分类器模型。学习器通过分析数据的规律尝试拟合出这些数据和学习目标间的函数,使得定义在训练集上的总体误差尽可能的小,从而利用学得的函数来预测未知数据的学习方法预测出结果,最后对结果进行评价和改进。

机器学习:开启智能创新之门

图23 机器学习过程举例说明

<上一页  1  2  3  4  5  6  7  8  9  下一页>  余下全文
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    人工智能 猎头职位 更多
    扫码关注公众号
    OFweek人工智能网
    获取更多精彩内容
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号