Spark MLlib是Spark的机器学习(Machine Learning)库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。 本类实验主要侧重用Spark进行数据挖掘的基本方法。本类实验包括:回归模型、分类模型、交叉验证和超参数调优和管道。通过本类实验,学生可以掌握用Spark进行数据挖掘的常用方法和流程。