Bab2min Kiwi Versions Save

Kiwi(지능형 한국어 형태소 분석기)

v0.17.1

1 month ago

신기능

  • 연철에 대한 오타 교정 추가 (#159)

버그 수정

  • 문장 분리 오류 수정 (#160)

v0.17.0

2 months ago

신기능

  • AutoJoiner에서 결합 후 형태소들의 위치 정보를 반환하도록 개선
  • 공백이 포함된 형태소를 등록할 수 있도록 사전 기능 확장
  • 공백 문자 정규화 기능 추가(U+00A0을 비롯한 다양한 유니코드 공백 문자가 공백 문자로 제대로 처리됨)
  • 약 25만 종의 어휘가 포함된 기본 다어절 고유 명사 사전(multi.dict)이 추가됨. 다어절 사전 로딩 유무를 선택할 수 있도록 BuildOption::loadMultiDict 열거형 추가
  • IOException, FormatException가 추가되어 Kiwi가 좀 더 명확한 예외를 선택하여 던지도록 수정

버그 수정

  • 공백 없이 긴 텍스트를 입력했을때 속도가 느려지거나 크래시가 발생하는 버그 수정
  • 일련번호(W_SERIAL) 추출 시 종종 마지막에 공백 문자가 포함되던 버그 수정

v0.16.1

3 months ago
  • -다.로 끝나는 문장의 어미들이 SB태그로 과도하게 잘못 분석되던 오류 수정
  • KiwiJava에서 topN 인자가 제대로 반영되지 않던 버그 수정

v0.16.0

8 months ago

기능 추가/개선

  • 부분적으로 분석된 텍스트 처리를 위한 PretokenizedSpan 기능 구현 & Kiwi::analyzepretokenized 인자 추가
  • 사용자 정의로 쓸 수 있는 user0~4 태그 추가
  • 순서 있는 글머리를 위한 sb 태그 추가
  • Java용 바인딩인 KiwiJava 제공 (실험적)

버그 수정

  • 다양한 문장 분리 오류 수정

Full Changelog: https://github.com/bab2min/Kiwi/compare/v0.15.2...v0.16.0

v0.15.2

10 months ago

기능 개선

  • Joiner::add에서 결합시 띄어쓰기 포함 유무를 선택할 수 있는 옵션 인자 추가

버그 수정

  • 매우 긴 텍스트를 분석할 때 시작 지점이 잘못 나오는 버그 수정
  • U+10000 이상의 문자가 여러 개 포함된 텍스트를 SwTokenizer로 encode할때 offset이 누락되는 버그 수정

v0.15.1

1 year ago
  • SwTokenizer 기능 중 미완성이었던 기능들의 구현 완료
  • SwTokenizer, UnigramSwTrainer의 각종 버그 수정

v0.15.0

1 year ago

기능 추가/개선

  • 둘 이상의 형태소로 더 잘게 분리될 수 있는 형태소를 추가 분리하는 옵션인 splitComplex 도입
  • 부사파생접사를 위한 XSM 태그 추가 및 이에 해당하는 형태소 -이, -히, -로, -스레 추가
  • 조사/어미에 덧붙는 받침을 위한 Z_CODA 태그 추가 및 조사/어미에서 자동으로 Z_CODA를 분절해내는 기능 추가
  • 형태 분석 및 언어 모델 탐색 속도 최적화
  • 옛한글 문자를 특수 기호로 분리하지 않고 일반 한글과 동일하게 처리하도록 개선
  • 형태소 분석 기반의 Subword Tokenizer 구현 (현재 실험적으로 지원 중)
  • 문장 분리 성능 개선
    • 2010. 01. 01. 와 같이 공백이 포함된 serial 패턴 처리 보강
    • Dr., Mr. 와 같이 약자 표현의 .이 마침표로 처리되지 않도록 보강
    • '-음'으로 문장이 끝나는 경우를 판별하기 위해 음/EF 형태소 추가 및 모델 보강

버그 수정

  • 한 문장 내에서 사전에 미등재된 형태가 256개 이상 등장할 때 형태소 분석 결과가 잘못 나오는 문제 해결
  • bab2min/kiwipiepy#111
  • 이모지 등 U+10000 이상의 유니코드 문자를 모두 한자로 분류하던 버그 수정

v0.14.1

1 year ago

버그 수정 및 개선

  • 특정 텍스트에 대해 형태소 분할 없이 전체 결과를 그대로 반환하는 오류 해결 (#114)
  • EF 뒤에 보조용언이 따라오는 경우 문장을 분리하지 않도록 개선 (bab2min/kiwipiepy#96)

새로운 기능

  • SBG 모델 학습 편의를 위한 HSDataset 추가
  • macOS에서 컴파일 시 CMakeLists에서 CPU 아키텍처를 설정하는 옵션 추가

v0.14.0

1 year ago

기능 개선

  • 이르다(일렀다, 이르렀다)의 모호성 해소 (#54)
  • 연속된 숫자열을 처리하는 W_SERIAL 태그 추가 (#14)
  • 따옴표, 괄호의 태그를 여는 태그(SSO)와 닫는 태그(SSC)로 세분화 (#104)
  • 문장 분리 시 인용문으로 안긴 문장을 인식하도록 수정(bab2min/kiwipiepy#84)
  • 랬/댔/잖 의 분석 정확도 개선
  • #110
  • 내장 오타 사전 typo.dict 추가. 내장 오타 사전의 로드 유무를 설정하는 옵션 BuildOption::loadTypoDict 추가

버그 수정

  • #107
  • bab2min/kiwipiepy#90
  • Joiner의 결합 정확도 개선 (bab2min/kiwipiepy#91)
  • UTF16 Surrogate 영역의 문자열이 종종 잘못 쪼개져서 UnicodeError를 발생시키는 오류 수정
  • bab2min/kiwipiepy#92
  • KiwiBuilder::addRule 함수에서 일부 이형태가 누락되는 버그 수정 (bab2min/kiwipiepy#94)

v0.13.1

1 year ago

버그 수정

  • AutoJoiner에 특정 문자열을 입력 시 크래시가 발생하는 버그 수정