Releases: bab2min/kiwipiepy
Releases · bab2min/kiwipiepy
0.13.1
0.13.0
- Kiwi 0.13.0의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.13.0 )이 반영되었습니다.
- 형태소 분석 시 간단한 오타 교정을 수행하는 기능 추가
- SkipBigram 언어 모델 추가.
Kiwi(model_type='sbg')
로 사용 가능 - 분석 결과에서 개별 형태소의 오타 교정 비용을 반환하는
Token.typo_cost
필드, 오타 교정 전 형태를 반환하는Token.raw_form
필드 추가
- 각종 버그가 수정되었습니다.
- 배포 판에서
stopwords.txt
파일이 누락되었던 버그 수정
- 배포 판에서
0.12.0
- Kiwi 0.12.0의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.12.0 )이 반영되었습니다.
- 형태소에 불규칙 활용 여부를 반영하는
Token.regularity
필드 추가 - 분석 결과에서 개별 형태소의 언어 모델 점수를 반영하는
Token.score
필드 추가 - 동사 '걷다'와 '묻다'의 모호성 해소 기능 추가
- 형태소 결합 기능을 수행하는
Kiwi.join
메소드 추가
- 형태소에 불규칙 활용 여부를 반영하는
- 각종 버그가 수정되었습니다.
- 특정 상황에서 소수점 패턴이 숫자 - 마침표 - 숫자로 오분석되는 버그
- 문장 분리 시 종결어미 - 조사로 이어지는 한 문장이 두 문장으로 분리되는 버그
있소
,잇따라
,하셔
등의 표현이 제대로 분석되지 않는 버그
- 언어 모델의 정확도가 추가 개선되었습니다.
0.11.2
- Kiwi 0.11.2의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.11.2 )이 반영되었습니다.
- 특수 문자가 섞인 텍스트 중 일부가 잘못 분석되는 버그가 수정되었습니다.
- 특정한 패턴의 텍스트를 입력할 경우 분석 결과가 빈 값으로 나오는 버그가 수정되었습니다.
- 받침 정규화 기능(normalizeCoda)이 모든 받침에 대해 적용되었습니다.
Kiwi.tokenizer
에echo
인자가 추가되었습니다.
0.11.1
- Kiwi 0.11.1의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.11.1 )이 반영되었습니다.
- Windows 환경에서 한글이나 기타 유니코드를 포함한 경로에 위치한 모델을 읽지 못하는 버그가 수정되었습니다.
- 이제 소수점, 자리 구분 쉼표가 섞인 숫자도 SN 품사태그로 제대로 분석됩니다.
Kiwi.space_tolerance
,Kiwi.space_penalty
프로퍼티가 추가되었습니다.
- 여러 줄의 텍스트를 결합할 때 공백을 적절히 삽입해주는 메소드인
Kiwi.glue
, 띄어쓰기 교정을 실시하는 메소드인Kiwi.space
가 추가되었습니다.
0.11.0
- Kiwi 0.11.0의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.11.0 )이 반영되었습니다.
- 이용자 사전을 관리하는 메소드
Kiwi.add_pre_analyzed_word
,Kiwi.add_rule
,Kiwi.add_re_rule
가 추가되었습니다. - 분석 시 접두사/접미사 및 동/형용사 파생접미사의 분리여부를 선택할 수 있는 옵션
Match.JOIN_NOUN_PREFIX
,Match.JOIN_NOUN_SUFFIX
,Match.JOIN_VERB_SUFFIX
,Match.JOIN_ADJ_SUFFIX
가 추가되었습니다. - 결합된 형태소
Token
의start
,end
,length
가 부정확한 버그를 수정했습니다. (#15) - 이제 형태소 결합 규칙이 Kiwi 모델 내로 통합되어
Kiwi.add_user_word
로 추가된 동/형용사의 활용형도 정상적으로 분석이 됩니다. - 언어 모델의 압축 알고리즘을 개선하여 초기 로딩 속도를 높였습니다.
- SIMD 최적화가 개선되었습니다.
- 언어 모델 및 기본 사전을 업데이트하여 전반적인 정확도를 높였습니다.
- 문장 분리 기능의 정확도가 향상되었습니다.
- 이용자 사전을 관리하는 메소드
0.10.3
변경사항
- Kiwi 0.10.3의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.10.3 )이 반영되었습니다.
Token
에sent_position
,line_number
프로퍼티가 추가되었습니다.Kiwi.split_into_sents
메소드가 추가되었습니다.- SIMD 최적화가 강화되었습니다.
- pip를 통해 소스코드 설치가 잘 작동하지 않던 문제가 해결되었습니다.
Kiwi.tokenize
메소드에 stopwords 인자가 추가되었습니다.kiwipiepy.utils.Stopwords
에 불용 태그 기능이 추가되었습니다.
0.10.2
변경사항
- Kiwi 0.10.2의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.10.2 )이 반영되었습니다.
Token
에word_position
프로퍼티가 추가되었습니다.Kiwi.analyze
에normalize_coda
인자가 추가되었습니다.
Kiwi.tokenize
메소드가 추가되었습니다.analyze
메소드와는 다르게 바로 분서결과인Token
의list
를 반환하므로 더 간편하게 사용할 수 있습니다.- 불용어 관리 기능을 제공하는
kiwipiepy.utils.Stopwords
클래스가 추가되었습니다. (@HyejuSeon) - Python 3.10에 대한 지원이 추가되었습니다.
기여자
- @HyejuSeon
좋은 기능 기여해주셔서 고맙습니다!
0.10.1
0.10.0
- API를 Python에 걸맞게 개편하였습니다. 일부 불편한 메소드들은 사용법이 변경되거나 삭제되었습니다. 이에 대해서는
0.10.0 버전 변경사항
단락을 확인해주세요. prepare
없이analyze
를 호출할 때 크래시가 발생하던 문제를 수정했습니다.- Linux 환경에서
extract_words
를 호출할 때 크래시가 발생하던 문제를 수정했습니다. - Linux 환경에서
Options.INTEGRATE_ALLOMORPH
를 사용시 크래시가 발생하던 문제를 수정했습니다. - 이제 형태소 분석 결과가
tuple
이 아니라Token
타입으로 반환됩니다. - 형태소 분석 모델 포맷이 최적화되어 파일 크기가 약 20% 작아졌습니다.