算法工程师是伴随着人工智能火起来的一个领域。听着名字似乎门槛很高。但是，得益于Python生态下的包共享机制，机器模型构建的过程其实已经变得非常简单了，很多听起来牛逼的算法，其实根本不需要自己实现，甚至都不需要知道这些算法的具体原理。

你只需要两步就能构建起自己的机器学习模型：

明确你需要解决的问题是什么类型，以及知道解决该类型问题所对应的算法。

从skicit-learn中调用相应的算法构建模型即可。是的！在机器学习领域，如果你只是抱着体验机器学习的心态，实现起来就是这么简单。

第一步很好解决

常见的问题类型只有三种： 分类、回归、聚类 。而明确具体问题对应的类型也很简单。比如，如果你需要通过输入数据得到一个类别变量，那就是分类问题。分成两类就是二分类问题，分成两类以上就是多分类问题。常见的有：判别一个邮件是否是垃圾邮件、根据图片分辩图片里的是猫还是狗等等。

如果你需要通过输入数据得到一个具体的连续数值，那就是回归问题。比如：预测某个区域的房价等。

常用的分类和回归算法算法有：SVM (支持向量机) 、xgboost、, KNN、LR算法、SGD (随机梯度下降算法)、Bayes (贝叶斯估计)以及随机森林等。这些算法大多都既可以解分类问题，又可以解回归问题。

如果你的数据集并没有对应的属性标签，你要做的，是发掘这组样本在空间的分布, 比如分析哪些样本靠的更近，哪些样本之间离得很远, 这就是属于聚类问题。常用的聚类算法有k-means算法。

在本文中，我们主要解决第二步： 通过skicit-learn构建模型 。告诉你你一套让你简单到想笑的通用模型构建模板。只要scikit-learn实现的算法，都可以通过这种方式快速调用。牢记这三个万能模板，你就能轻松构建起自己的机器学习模型。

预备工作

在介绍万能模板之前，为了能够更深刻地理解这三个模板，我们加载一个Iris（鸢尾花）数据集来作为应用万能模板的小例子，Iris数据集在前边的文章中已经提到过多次了，这里不再赘述。它是一个典型的 多分类问题 。加载步骤如下：

1、加载数据集

因为原始的数据集中包含很多空值，而且类别特征用英文名表示各个花的名字，也需要我们转换成数字。

在scikit-learn下的datasets子包里，也自带了一个Iris数据集，这个数据集和原始数据集的区别就是scikit-learn已经帮我们提前 处理好了空值 等问题，可以直接输入模型用来训练。所以为了方便起见，我们直接使用scikit-learn的数据集。加载方法如下：

cfrom sklearn.datasets import load_iris
data = load_iris()
x = data.data
y = data.target

x值如下，可以看到scikit-learn把数据集经过去除空值处理放在了array里，所以x是一个（150,4）的数组，保存了150个数据的4个特征：

array([[5.1, 3.5, 1.4, 0.2], [4.9, 3. , 1.4, 0.2], [4.7, 3.2, 1.3, 0.2], [4.6, 3.1, 1.5, 0.2], [5. , 3.6, 1.4, 0.2], [5.4, 3.9, 1.7, 0.4], [4.6, 3.4, 1.4, 0.3], [5. , 3.4, 1.5, 0.2], [4.4, 2.9, 1.4, 0.2], [4.9, 3.1, 1.5, 0.1], [5.4, 3.7, 1.5, 0.2], [4.8, 3.4, 1.6, 0.2], [4.8, 3. , 1.4, 0.1], [4.3, 3. , 1.1, 0.1], …………

y值如下，共有150行，其中0、1、2分别代表三类花：

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

2、数据集拆分

数据集拆分是为了验证模型在训练集和测试集是否过拟合，使用train_test_split的目的是保证从数据集中均匀拆分出测试集。这里，简单把10%的数据集拿出来用作测试集。

from sklearn.model_selection import train_test_split
train_x,test_x,train_y,test_y = train_test_split(x,y,test_size=0.1,random_state=0)

模板V1.0版

不同的算法只是改变了名字，以及模型的参数不同而已。

有了这个万能模板，接下来就是简单的复制粘贴改名字了：

而且在scikit-learn中，每个包的位置都是有规律的，比如：随机森林就是在集成学习文件夹下。

模板1.0应用案例

1、构建SVM分类模型

通过查阅资料，我们知道svm算法在scikit-learn.svm.SVC下，所以：

算法位置填入：svm

算法名填入：SVC()

模型名自己起，这里我们就叫svm_model

套用模板得到程序如下：

svm分类器

from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

svm_model = SVC()

svm_model.fit(train_x,train_y)

pred1 = svm_model.predict(train_x)
accuracy1 = accuracy_score(train_y,pred1)
print('在训练集上的精确度: %.4f'%accuracy1)

pred2 = svm_model.predict(test_x)
accuracy2 = accuracy_score(test_y,pred2)
print('在测试集上的精确度: %.4f'%accuracy2)

输出：

在训练集上的精确度: 0.9810
在测试集上的精确度: 0.9778

2、构建LR分类模型

同理，找到LR算法在

sklearn.linear_model.LogisticRegression下，所以：

算法位置填入：linear_model

算法名填入：LogisticRegression

模型名叫做：lr_model

程序如下：

套用模板得到程序如下：

LogisticRegression分类器

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score #评分函数用精确度评估

lr_model = LogisticRegression()

lr_model.fit(train_x,train_y)

pred1 = lr_model.predict(train_x)
accuracy1 = accuracy_score(train_y,pred1)
print('在训练集上的精确度: %.4f'%accuracy1)

pred2 = lr_model.predict(test_x)
accuracy2 = accuracy_score(test_y,pred2)
print('在测试集上的精确度: %.4f'%accuracy2)

输出：

在训练集上的精确度: 0.9429

在测试集上的精确度: 0.8889

3、构建随机森林分类模型

随机森林算法在

sklearn.ensemble.RandomForestClassifier 下，好了，现在你应该可以自己写了，这个作为本文的一个小测试，欢迎在评论区写下你的答案。

Scikit-Learn 的建模学习

svm分类器

LogisticRegression分类器

评论 (0)