在前面的机器学习案例中,我们使用了sklearn,我们发现用sklearn来做机器学习模型会非常简单,那么,本节课对sklearn做一个介绍。
sklearn是什么
sklearn全称为scikit-learn,是一个基于Python语言的机器学习工具,sklearn对常用的机器学习方法进行了封装,例如,分类、回归、聚类、降维、模型评估、数据预处理等,我们只需调用对应的接口即可。
在sklearn的官网上,写着以下四点介绍:
- 一个简单高效的数据挖掘和数据分析工具
- 构建在 NumPy ,SciPy 和 matplotlib 上
- 可供大家在各种环境中重复使用
- 开源,可商业使用 – BSD许可证
sklearn官网:https://scikit-learn.org/stable/
如何安装sklearn
Windows下,安装sklearn非常简单,命令行窗口中输入命令:
pip install scikit-learn
当然,可以使用国内镜像源安装:
pip install scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple
sklearn中常用接口
对于机器学习整个流程中涉及到的常用操作,sklearn中几乎都有现成的接口可以直接调用,下面分类介绍一下。
常见数据集导入
#鸢尾花数据集
from sklearn.datasets import load_iris
#乳腺癌数据集
from sklearn.datasets import load_breast_cancer
#波士顿房价数据集
from sklearn.datasets import load_boston
更多数据集请参考sklearn官网:https://scikit-learn.org/stable/modules/classes.html?highlight=dataset#module-sklearn.datasets
数据预处理相关
#拆分数据集
from sklearn.model_selection import train_test_split
#数据缩放
from sklearn.preprocessing import MinMaxScaler
常用的机器学习模型导入
#KNN模型
from sklearn.neighbors import KNeighborsClassifier
#决策树
from sklearn.tree import DecisionTreeClassifier
#支持向量机
from sklearn.svm import SVC
#随机森林
from sklearn.ensemble import RandomForestClassifier
建模相关
#拟合训练集
knn.fit(X_train,y_train)
#预测
y_pred=knn.predict(X_test)
模型评估
#求精度
knn.score(X_test,y_test)
#绘制混淆矩阵
from sklearn.metrics import confusion_matrix
#绘制ROC曲线
from sklearn.metrics import roc_curve,roc_auc_score
怎么样,sklearn很强大吧,使用sklearn可以让我们轻松地运用机器学习解决各种实际问题。