Korpora Versions Save

Korean corpus repository

0.2.0

3 years ago

What's new? (0.1.1 -> 0.2.0)

  • 모두의 말뭉치 (신문, 문어, 구어, 메신저, 웹, 형태 분석, 개체명 분석) loader #103
  • AIHub 번역 말뭉치 loader #136
  • korean_parallel_koen_news 말뭉치 추가 #93
  • kowikitext 말뭉치 추가 #96
  • open subtitles 2018 말뭉치 추가 #133
  • CLI fetch #108
  • CLI 언어모델 학습데이터 생성 #65

0.2.0rc1 에서 특별한 버그는 발견되지 않아 그대로 0.2.0 으로 배포합니다.

0.2.0rc1

3 years ago
  • 모두의 말뭉치 (신문, 문어, 구어, 메신저, 웹, 형태 분석, 개체명 분석) loader #103
  • AIHub 번역 말뭉치 loader #136
  • korean_parallel_koen_news 말뭉치 추가 #93
  • kowikitext 말뭉치 추가 #96
  • open subtitles 2018 말뭉치 추가 #133
  • CLI fetch #108
  • CLI 언어모델 학습데이터 생성 #65

0.1.1

3 years ago
  • namuwikitext 의 local directory path 내 typo 를 교정하였습니다.
    • Korpora==0.1.1 의 namuwikitext corpus 의 버전은 0.1 이며 Korpora==0.2.0 에서 namuwikitext 0.2 를 배포할 예정입니다.
  • namuwikitext 와 kcbert corpus 를 로딩할 때 train 데이터의 개수를 재한할 수 있습니다.
    • 텍스트 파일의 앞 n 개의 줄만 로딩할 수 있습니다.

0.1.0

3 years ago

Korpora는 (1) 다양한 말뭉치들을 손쉽게 다운로드하고 (2) 데이터를 파이썬 콘솔에 읽어들이는 기능을 제공합니다. 말뭉치들을 공유해 주신 분들께 감사드리며 Korpora 0.1.0rc가 현재 제공하는 데이터 목록은 다음과 같습니다.

corpus_name description link
korean_chatbot_data 챗봇 트레이닝용 문답 페어 https://github.com/songys/Chatbot_data
kcbert KcBERT 모델 학습용 댓글 데이터 https://github.com/Beomi/KcBERT
korean_hate_speech 한국어 혐오 데이터셋 https://github.com/kocohub/korean-hate-speech
korean_petitions 청와대 국민 청원 https://github.com/lovit/petitions_archive
kornli Korean NLI https://github.com/kakaobrain/KorNLUDatasets
korsts Korean STS https://github.com/kakaobrain/KorNLUDatasets
namuwikitext 나무위키 텍스트 https://github.com/lovit/namuwikitext
naver_changwon_ner 네이버 x 창원대 개체명 인식 데이터셋 https://github.com/naver/nlp-challenge/tree/master/missions/ner
nsmc NAVER Sentiment Movie Corpus https://github.com/e9t/nsmc
question_pair 한국어 질문쌍 데이터셋 https://github.com/songys/Question_pair