spark 机器学习:利用jupyter工作来讲解算法原理并运行相关例子
基于spark的机器学习项目,采用的工具是jupyter是为例方便代码运行和过程的描述。
Spark机器学习库有两套API,ml和mllib,其中Spark.ml使用的数据类型是DataFrame,而spark.mllib使用的是RDD,目前spark会一直保留基于RDD的mllib 但是不会再新增新的功能 (等spark.ml可以覆盖大部分的特性,spark.mllib 将会被废弃)