Mama Katu DM Corpus Save

The corpus of Japanese spam messages of invitation Mama Katu.

Project README

ママ活DMコーパス

ダウンロード

Mama_katu_DM_corpus.txt

概要

ママ活の勧誘DMを集めてコーパスにしたものです

仕様

  • 文字コードはUTF-8、改行コードはLFです
  • 一行に一つのママ活DMのテキストです
  • 改行は「__br__」という記号に変換しています
  • 送り先ユーザー名は「__to_user__」という記号に変換しています
  • 送り元ユーザー名は「__from_user__」という記号に変換しています
  • URLは「https://example.com」に変更しています

追加方法

  1. in_conv.txtに追加するママ活DMの内容を書き書き(一度に一つずつしか追加できません)
  2. python3 conv.pyを実行
  3. Mama_katu_DM_corpus.txtに追加されている

※conv.pyは「__to_user__」と「__from_user__」に置き換える匿名化にはまだ対応できていません。手動で置換をおこなってください

注釈

本リポジトリはママ活を推奨するものではありません。
また、ママ活そのものについて論じるものではありません。

本リポジトリはLICENSEに従い、無保証・無責任です。
基本的にスパムを原文ママで載せているため、不適切な表現が含まれる場合があります。

Open Source Agenda is not affiliated with "Mama Katu DM Corpus" Project. README Source: PenguinCabinet/mama-katu-DM-corpus
Stars
42
Open Issues
0
Last Commit
10 months ago
License
MIT

Open Source Agenda Badge

Open Source Agenda Rating