第 1 章 机器学习与sklearn

本章将通过介绍sklearn(scikit-learn)为读者展现机器学习能解决的问题和解决这些问题的合理方案。sklearn是基于Python语言的机器学习工具,建立在NumPy、SciPy和Matplotlib三大工具包之上。在使用sklearn的过程中,建议阅读一下它的源代码,这样能够加深对算法的理解,提升编程水准。

sklearn提供了分类、回归、聚类和降维4个类别的经典模型。对于如何根据数据和任务来选择合适的方法,sklearn官网提供了一张经典的思维导图,如图1-1所示,其中的思路如下。

  • 如果数据量小于50,一般是无法使用sklearn的机器学习算法建模的,因为机器学习需要借助统计数据才能完成。
  • 如果数据有类别标签,请使用分类模型。
  • 如果数据需要预测精确值,请使用回归模型。
  • 如果想查看数据分布情况,可以考虑使用降维算法。
  • 如果数据没有类别标签,可以使用聚类算法。

图 1-1 sklearn算法选择指导图