2020十种常用机器学习算法总结

2021-02-02 11:17

来源： OFweek人工智能网

在人工智能发展中，离不开三个关键词：算法、大数据、计算能力。

算法作为人工智能的核心内容之一，直接影响系统的准确度，算法的优劣不仅影响了人工智能的发展，同时也决定了人工智能未来走向。

而在这一过程中，哪些算法影响了人工智能产业的发展？跟随OFweek维科网编辑一起来看看吧。

1．线性回归

线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛。其表达形式为y ＝ w＇x＋e，e为误差服从均值为0的正态分布。

回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。

线性回归是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。这是因为线性依赖于其未知参数的模型比非线性依赖于其未知参数的模型更容易拟合，而且产生的估计的统计特性也更容易确定。

线性回归模型经常用最小二乘逼近来拟合，但他们也可能用别的方法来拟合，比如用最小化“拟合缺陷”在一些其他规范里（比如最小绝对误差回归），或者在桥回归中最小化最小二乘损失函数的惩罚．相反，最小二乘逼近可以用来拟合那些非线性的模型．因此，尽管“最小二乘法”和“线性模型”是紧密相连的，但他们是不能划等号的。

2．逻辑回归

logistic回归又称logistic回归分析，是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域。例如，探讨引发疾病的危险因素，并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例，选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌，值为“是”或“否”，自变量就可以包括很多了，如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的，也可以是分类的。然后通过logistic回归分析，可以得到自变量的权重，从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。

logistic回归是一种广义线性回归（generalized linear model），因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同，都具有 w‘x＋b，其中w和b是待求参数，其区别在于他们的因变量不同，多重线性回归直接将w‘x＋b作为因变量，即y ＝w‘x＋b，而logistic回归则通过函数L将w‘x＋b对应一个隐状态p，p ＝L（w‘x＋b），然后根据p 与1－p的大小决定因变量的值。如果L是logistic函数，就是logistic回归，如果L是多项式函数就是多项式回归。

logistic回归的因变量可以是二分类的，也可以是多分类的，但是二分类的更为常用，也更加容易解释，多类可以使用softmax方法进行处理。实际中最为常用的就是二分类的logistic回归。

3．决策树

决策树（Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy ＝系统的凌乱程度，使用算法ID3， C4．5和C5．0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。

决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。

分类树（决策树）是一种十分常用的分类方法。它是一种监督学习，所谓监督学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。

4．支持向量机

支持向量机（Support Vector Machine， SVM）是一类按监督学习（supervised learning）方式对数据进行二元分类的广义线性分类器（generalized linear classifier），其决策边界是对学习样本求解的最大边距超平面（maximum－margin hyperplane）。

SVM使用铰链损失函数（hinge loss）计算经验风险（empirical risk）并在求解系统中加入了正则化项以优化结构风险（structural risk），是一个具有稀疏性和稳健性的分类器。SVM可以通过核方法（kernel method）进行非线性分类，是常见的核学习（kernel learning）方法之一。

SVM被提出于1964年，在二十世纪90年代后得到快速发展并衍生出一系列改进和扩展算法，在人像识别、文本分类等模式识别（pattern recognition）问题中有得到应用。

5．朴素贝叶斯

朴素贝叶斯分类是一种十分简单的分类算法：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

朴素贝叶斯分类分为三个阶段，1．根据具体情况确定特征属性，并对每个特征属性进行适当划分，形成训练样本集合2．计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计3．使用分类器对待分类项进行分类。

6．K近邻

K紧邻算法的核心是未标记样本的类别，计算待标记样本和数据集中每个样本的距离，取距离最近的k个样本。待标记的样本所属类别就由这k个距离最近的样本投票产生，给定其测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于这k个“邻居”的信息来进行预测。

K紧邻算法准确性高，对异常值和噪声有较高的容忍度，但计算量较大，对内存的需求也较大。该算法主要应用于文本分类、模式识别、图像及空间分类。

7．聚类算法

聚类算法是机器学习中涉及对数据进行分组的一种算法。在给定的数据集中，我们可以通过聚类算法将其分成一些不同的组。应用中科利用聚类分析，通过将数据分组可以比较清晰的获取到数据信息。该算法让数据变得有意义，但存在结果难以解读，针对不寻常的数据组，结果可能无用。

在商业领域中，聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来，并且概括出每一类消费者的消费模式或者说习惯。

8．随机森林

随机森林是一种有监督学习算法，基于决策树为学习器的集成学习算法。随机森林非常简单，易于实现，计算开销也很小，但是它在分类和回归上表现出非常惊人的性能，因此，随机森林被誉为“代表集成学习技术水平的方法”。

随机森林拥有广泛的应用前景，从市场营销到医疗保健保险，既可以用来做市场营销模拟的建模，统计客户来源，保留和流失，也可用来预测疾病的风险和病患者的易感性。

9．降维算法

降维法（method of reduction dimensions）是一类优选方法，用低维的概念去类比高维的概念．将高维的图形转化为低维的图形的方法。纵横对折法、等高线法、平行线法等都是降维法。

降维法是把一个多因素问题转化成一个较少因素（降低问题的维数）问题，而且较容易进行合理安排，找到最优点或近似最优点，以期达到满意的试验结果的方法。主要类型有纵横对折法、等高线法和平行线法。

10．AdaBoost

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器（弱分类器），然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。

Boosting，也称为增强学习或提升法，是一种重要的集成学习技术，能够将预测精度仅比随机猜度略高的弱学习器增强为预测精度高的强学习器，这在直接构造强学习器非常困难的情况下，为学习算法的设计提供了一种有效的新思路和新方法。作为一种元算法框架，Boosting几乎可以应用于所有目前流行的机器学习算法以进一步加强原算法的预测精度，应用十分广泛，产生了极大的影响。而AdaBoost正是其中最成功的代表，被评为数据挖掘十大算法之一。

在AdaBoost提出至今的十几年间，机器学习领域的诸多知名学者不断投入到算法相关理论的研究中去，扎实的理论为AdaBoost算法的成功应用打下了坚实的基础。AdaBoost的成功不仅仅在于它是一种有效的学习算法，还在于1）它让Boosting从最初的猜想变成一种真正具有实用价值的算法；2）算法采用的一些技巧，如：打破原有样本分布，也为其他统计学习算法的设计带来了重要的启示；3）相关理论研究成果极大地促进了集成学习的发展。

对adaBoost算法的研究以及应用大多集中于分类问题，同时也出现了一些在回归问题上的应用。就其应用adaBoost系列主要解决了：两类问题、多类单标签问题、多类多标签问题、大类单标签问题、回归问题。它用全部的训练样本进行学习。

小结

算法是计算机科学领域最重要的基石之一，当下需要处理的信息量是呈指数级的增长，每人每天都会创造出大量数据，无论是三维图形、海量数据处理、机器学习、语音识别，都需要极大的计算量，在AI时代越来越多的挑战需要靠卓越的算法来解决。