Spark Stemming Save

Spark MLlib wrapper for the Snowball framework

Project README

Spark Stemming

Snowball is a small string processing language designed for creating stemming algorithms for use in Information Retrieval. This package allows to use it as a part of Spark ML Pipeline API.

Linking

Link against this library using SBT:

libraryDependencies += "com.github.master" %% "spark-stemming" % "0.2.1"

Using Maven:

<dependency>
    <groupId>com.github.master</groupId>
    <artifactId>spark-stemming_2.10</artifactId>
    <version>0.2.0</version>
</dependency>

Or include it when starting the Spark shell:

$ bin/spark-shell --packages com.github.master:spark-stemming_2.10:0.2.1

Features

Currently implemented algorithms:

Arabic
English
English (Porter)
Romance stemmers:
- French
- Spanish
- Portuguese
- Italian
- Romanian
Germanic stemmers:
- German
- Dutch
Scandinavian stemmers:
- Swedish
- Norwegian (Bokmål)
- Danish
Russian
Finnish
Greek

More details are on the Snowball stemming algorithms page.

Usage

Stemmer Transformer can be used directly or as a part of ML Pipeline. In particular, it is nicely combined with Tokenizer.

import org.apache.spark.mllib.feature.Stemmer

val data = sqlContext
  .createDataFrame(Seq(("мама", 1), ("мыла", 2), ("раму", 3)))
  .toDF("word", "id")

val stemmed = new Stemmer()
  .setInputCol("word")
  .setOutputCol("stemmed")
  .setLanguage("Russian")
  .transform(data)

stemmed.show

Open Source Agenda is not affiliated with "Spark Stemming" Project. README Source: master/spark-stemming

Stars

Open Issues

Last Commit

5 years ago

Repository

master/spark-stemming

License

BSD 2-clause

Open Source Agenda Badge

<a href="https://www.opensourceagenda.com/projects/spark-stemming"><img src="https://www.opensourceagenda.com/projects/spark-stemming/reviews/badge.svg" alt="Open Source Agenda"></a>

Submit Review Review Your Favorite Project

Submit Resource Articles, Courses, Videos

Submit Article Submit a post to our blog

From the blog

Dec 11, 2022

How to Choose Which Programming Language to Learn First?

From the blog

Dec 11, 2022