-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathPosTagger.py
28 lines (21 loc) · 946 Bytes
/
PosTagger.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
# POS(Part Of Speech) tagging
# 토큰 별 품사 정보를 알아낸다.
from nltk import sent_tokenize, word_tokenize, pos_tag
def run(rawText):
retVal = ""
rawTokenListList = []
posTaggedTokenListList = []
# 텍스트를 문장 단위로 분할한다.
sentenceList = sent_tokenize(rawText)
for sentence in sentenceList:
# 각 문장을 토큰화 한다.
rawTokenList = word_tokenize(sentence)
rawTokenListList.append(rawTokenList)
# 각 토큰에 품사 태그를 붙인다.
posTaggedTokenList = pos_tag(rawTokenList)
posTaggedTokenListList.append(posTaggedTokenList)
for posTaggedToken in posTaggedTokenList:
retVal += (posTaggedToken[0] + "<span class='bgAmbigousBlue'>❰")
retVal += (posTaggedToken[1] + "❱</span> ")
retVal += "\r\n"
return retVal, sentenceList, rawTokenListList, posTaggedTokenListList