sklearn介绍及常用接口

在前面的机器学习案例中,我们使用了sklearn,我们发现用sklearn来做机器学习模型会非常简单,那么,本节课对sklearn做一个介绍。

sklearn是什么

sklearn全称为scikit-learn,是一个基于Python语言的机器学习工具,sklearn对常用的机器学习方法进行了封装,例如,分类、回归、聚类、降维、模型评估、数据预处理等,我们只需调用对应的接口即可。


在sklearn的官网上,写着以下四点介绍:

  • 一个简单高效的数据挖掘和数据分析工具
  • 构建在 NumPy ,SciPy 和 matplotlib 上
  • 可供大家在各种环境中重复使用
  • 开源,可商业使用 – BSD许可证

sklearn官网:https://scikit-learn.org/stable/

如何安装sklearn

Windows下,安装sklearn非常简单,命令行窗口中输入命令:

pip install scikit-learn

当然,可以使用国内镜像源安装:

pip install scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple

sklearn中常用接口

对于机器学习整个流程中涉及到的常用操作,sklearn中几乎都有现成的接口可以直接调用,下面分类介绍一下。

常见数据集导入

#鸢尾花数据集
from sklearn.datasets import load_iris
#乳腺癌数据集
from sklearn.datasets import load_breast_cancer
#波士顿房价数据集
from sklearn.datasets import load_boston

更多数据集请参考sklearn官网:https://scikit-learn.org/stable/modules/classes.html?highlight=dataset#module-sklearn.datasets

数据预处理相关

#拆分数据集
from sklearn.model_selection import train_test_split
#数据缩放
from sklearn.preprocessing import MinMaxScaler

常用的机器学习模型导入

#KNN模型
from sklearn.neighbors import KNeighborsClassifier
#决策树
from sklearn.tree import DecisionTreeClassifier
#支持向量机
from sklearn.svm import SVC
#随机森林
from sklearn.ensemble import RandomForestClassifier

建模相关

#拟合训练集
knn.fit(X_train,y_train)
#预测
y_pred=knn.predict(X_test)

模型评估

#求精度
knn.score(X_test,y_test)
#绘制混淆矩阵
from sklearn.metrics import confusion_matrix
#绘制ROC曲线
from sklearn.metrics import roc_curve,roc_auc_score

怎么样,sklearn很强大吧,使用sklearn可以让我们轻松地运用机器学习解决各种实际问题。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注