Replies: 2 comments
-
안녕하세요 @aajik ~ 대신에 Kiwi에서는 분석 결과를 다시 묶어주는 옵션이 있는데 이를 사용해보시면 어떨까 싶습니다. >>> from kiwipiepy import Kiwi, Match
>>> kiwi = Kiwi()
# Match.JOIN_NOUN_PREFIX는 명사의 접두사를 결합해줍니다.
# 유사하게 접미사를 결합해주는 Match.JOIN_NOUN_SUFFIX 옵션도 있습니다.
>>> kiwi.tokenize("미성년자 해외여행 신청 방법은 어떻게 되나요?", normalize_coda=True, match_options=Match.ALL | Match.JOIN_NOUN_PREFIX)
[Token(form='미성년자', tag='NNG', start=0, len=4),
Token(form='해외여행', tag='NNG', start=5, len=4),
Token(form='신청', tag='NNG', start=10, len=2),
Token(form='방법', tag='NNG', start=13, len=2),
Token(form='은', tag='JX', start=15, len=1),
Token(form='어떻', tag='VA-I', start=17, len=2),
Token(form='게', tag='EC', start=19, len=1),
Token(form='되', tag='VV', start=21, len=1),
Token(form='나요', tag='EF', start=22, len=2),
Token(form='?', tag='SF', start=24, len=1)]
>>> kiwi.tokenize("자녀도 같이 해야하는데, 자녀가 미성년자에요 어떻게 하나요?", normalize_coda=True, match_options=Match.ALL | Match.JOIN_NOUN_PREFIX)
[Token(form='자녀', tag='NNG', start=0, len=2),
Token(form='도', tag='JX', start=2, len=1),
Token(form='같이', tag='MAG', start=4, len=2),
Token(form='하', tag='VV', start=7, len=1),
Token(form='어야', tag='EC', start=7, len=2),
Token(form='하', tag='VX', start=9, len=1),
Token(form='는데', tag='EC', start=10, len=2),
Token(form=',', tag='SP', start=12, len=1),
Token(form='자녀', tag='NNG', start=14, len=2),
Token(form='가', tag='JKS', start=16, len=1),
Token(form='미성년자', tag='NNG', start=18, len=4),
Token(form='이', tag='VCP', start=22, len=0),
Token(form='에요', tag='EF', start=22, len=2),
Token(form='어떻', tag='VA-I', start=25, len=2),
Token(form='게', tag='EC', start=27, len=1),
Token(form='하', tag='VV', start=29, len=1),
Token(form='나요', tag='EF', start=30, len=2),
Token(form='?', tag='SF', start=32, len=1)] |
Beta Was this translation helpful? Give feedback.
0 replies
-
고맙습니다. 잘 해결 되었습니다. |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
안녕하세요.
Python 3.10.12, Kiwi.version:0.17.1을 사용하고 있습니다.
문장 예시)
위 두 문장을 아래와 같이 형태소 분석을하면
2)번 문장은 미성년자를 잘 분리해주고 있습니다.
tokens = kiwi.tokenize("미성년자 해외여행 신청 방법은 어떻게 되나요?", normalize_coda=True)
[Token(form='미성년자', tag='NNG', .....]
1)번 문장 미성년자를 분리하지 못하고 있습니다.
tokens = kiwi.tokenize("자녀도 같이 해야하는데, 자녀가 미성년자에요 어떻게 하나요?", normalize_coda=True)
[Token(form='자녀',.., Token(form='미', tag='XPN', start=18, len=1), Token(form='성년자', tag='NNG']
위 1)번을 "미성년자"로 분리가 안되는 문제가 있습니다. 해결 방법이 있을까요.
감사합니다.
cf :
text = "자녀도 같이 해야하는데, 자녀가 미성년자에요 어떻게 하나요" # N 미 성년자
text = "자녀도 같이 해야하는데, 자녀 미성년자에요 어떻게 하나요" # OK 미성년자
text = "자녀도 같이 해야하는데, 자녀은 미성년자에요 어떻게 하나요" # OK 미성년자
text = "자녀도 같이 해야하는데, 자녀는 미성년자에요 어떻게 하나요" # OK 미성년자
text = "자녀도 같이 해야하는데, 자녀이 미성년자에요 어떻게 하나요" # OK 미성년자
text = "자녀도 같이 해야하는데, 자녀도 미성년자에요 어떻게 하나요." # OK 미성년자
Beta Was this translation helpful? Give feedback.
All reactions