Kiwi(지능형 한국어 형태소 분석기)
AutoJoiner
에서 결합 후 형태소들의 위치 정보를 반환하도록 개선multi.dict
)이 추가됨. 다어절 사전 로딩 유무를 선택할 수 있도록 BuildOption::loadMultiDict
열거형 추가IOException
, FormatException
가 추가되어 Kiwi
가 좀 더 명확한 예외를 선택하여 던지도록 수정W_SERIAL
) 추출 시 종종 마지막에 공백 문자가 포함되던 버그 수정-다.
로 끝나는 문장의 어미들이 SB태그로 과도하게 잘못 분석되던 오류 수정Kiwi::analyze
에 pretokenized
인자 추가user0~4
태그 추가sb
태그 추가Full Changelog: https://github.com/bab2min/Kiwi/compare/v0.15.2...v0.16.0
SwTokenizer
기능 중 미완성이었던 기능들의 구현 완료SwTokenizer
, UnigramSwTrainer
의 각종 버그 수정splitComplex
도입XSM
태그 추가 및 이에 해당하는 형태소 -이
, -히
, -로
, -스레
추가Z_CODA
태그 추가 및 조사/어미에서 자동으로 Z_CODA를 분절해내는 기능 추가2010. 01. 01.
와 같이 공백이 포함된 serial 패턴 처리 보강Dr., Mr.
와 같이 약자 표현의 .
이 마침표로 처리되지 않도록 보강음/EF
형태소 추가 및 모델 보강랬/댔/잖
의 분석 정확도 개선typo.dict
추가. 내장 오타 사전의 로드 유무를 설정하는 옵션 BuildOption::loadTypoDict
추가KiwiBuilder::addRule
함수에서 일부 이형태가 누락되는 버그 수정 (bab2min/kiwipiepy#94)