Linzhouzhi SparkML Save

spark 机器学习:利用jupyter工作来讲解算法原理并运行相关例子

Project README

SparkML

 基于spark的机器学习项目,采用的工具是jupyter是为例方便代码运行和过程的描述。

目录介绍

  • data/ --机器学习调用的数据
  • example/ --项目中使用的例子源码
  • 数学基础/ --包含了机器学习使用到的数学知识
  • 矩阵与向量/ --机器学习使用的数据类型
  • spark_kernel安装.md -- jupyter 安装 Spark 的支持,方便算法描述和解释
  • xxxxx/ --其它目录看名称基本可以理解

Spark MLlib 介绍

Spark机器学习库有两套API,ml和mllib,其中Spark.ml使用的数据类型是DataFrame,而spark.mllib使用的是RDD,目前spark会一直保留基于RDD的mllib 但是不会再新增新的功能 (等spark.ml可以覆盖大部分的特性,spark.mllib 将会被废弃)

Open Source Agenda is not affiliated with "Linzhouzhi SparkML" Project. README Source: linzhouzhi/SparkML
Stars
102
Open Issues
0
Last Commit
7 years ago
Repository

Open Source Agenda Badge

Open Source Agenda Rating