

KoNPLy 라이브러리 중 Okt 형태소 분석기를 사용

문자의 문서를 대상으로 각 클래스의 pos 메소드를 실행하는데 소요되는 시간.
→ **Okt**는 성능과 정확도 면에서 일반적으로 우수하다. 특히 속도가 빠르면서도 정확한 형태소 분석을 제공한다.
성능 비교
“아버지가방에들어가신다”
| Hannanum | Kkma | Komoran | Mecab | Okt |
|---|---|---|---|---|
| 아버지가방에들어가 / N | 아버지 / NNG | 아버지가방에들어가신다 / NNP | 아버지 / NNG | 아버지 / Noun |
| 이 / J | 가방 / NNG | 가 / JKS | 가방 / Noun | |
| 시ㄴ다 / E | 에 / JKM | 방 / NNG | 에 / Josa | |
| 들어가 / VV | 에 / JKB | 들어가신 / Verb | ||
| 시 / EPH | 들어가 / VV | 다 / Eomi | ||
| ㄴ다 / EFN | 신다 / EP+EC |
→ 형태소를 가장 잘 구분한 분석기는 Mecab이고 Mecab을 제외하면 Okt랑 kkma가 비슷한 성능을 보인다.
Okt 사용 결과

단어의 빈도와 역 문서 빈도를 사용하여 문서 단어 행렬 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법
tf(d,t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수
df(t) : 특정 단어 t가 등장한 문서의 수.