Korean corpus repository
Korpora는 (1) 다양한 말뭉치들을 손쉽게 다운로드하고 (2) 데이터를 파이썬 콘솔에 읽어들이는 기능을 제공합니다. 말뭉치들을 공유해 주신 분들께 감사드리며 Korpora 0.1.0rc가 현재 제공하는 데이터 목록은 다음과 같습니다.
corpus_name | description | link |
---|---|---|
korean_chatbot_data | 챗봇 트레이닝용 문답 페어 | https://github.com/songys/Chatbot_data |
kcbert | KcBERT 모델 학습용 댓글 데이터 | https://github.com/Beomi/KcBERT |
korean_hate_speech | 한국어 혐오 데이터셋 | https://github.com/kocohub/korean-hate-speech |
korean_petitions | 청와대 국민 청원 | https://github.com/lovit/petitions_archive |
kornli | Korean NLI | https://github.com/kakaobrain/KorNLUDatasets |
korsts | Korean STS | https://github.com/kakaobrain/KorNLUDatasets |
namuwikitext | 나무위키 텍스트 | https://github.com/lovit/namuwikitext |
naver_changwon_ner | 네이버 x 창원대 개체명 인식 데이터셋 | https://github.com/naver/nlp-challenge/tree/master/missions/ner |
nsmc | NAVER Sentiment Movie Corpus | https://github.com/e9t/nsmc |
question_pair | 한국어 질문쌍 데이터셋 | https://github.com/songys/Question_pair |