Untitled

Untitled

목차

  1. Okt 형태소 분석기
  2. 텍스트 전처리
  1. 모델링
  1. 활용방안

OKT 형태소 분석기

KoNPLy 라이브러리 중 Okt 형태소 분석기를 사용

  1. 실행시간 비교

문자의 문서를 대상으로 각 클래스의  메소드를 실행하는데 소요되는 시간.

문자의 문서를 대상으로 각 클래스의 pos 메소드를 실행하는데 소요되는 시간.

→ **Okt**는 성능과 정확도 면에서 일반적으로 우수하다. 특히 속도가 빠르면서도 정확한 형태소 분석을 제공한다.

  1. 성능 비교

    “아버지가방에들어가신다”

    Hannanum Kkma Komoran Mecab Okt
    아버지가방에들어가 / N 아버지 / NNG 아버지가방에들어가신다 / NNP 아버지 / NNG 아버지 / Noun
    이 / J 가방 / NNG 가 / JKS 가방 / Noun
    시ㄴ다 / E 에 / JKM 방 / NNG 에 / Josa
    들어가 / VV 에 / JKB 들어가신 / Verb
    시 / EPH 들어가 / VV 다 / Eomi
    ㄴ다 / EFN 신다 / EP+EC

    → 형태소를 가장 잘 구분한 분석기는 Mecab이고 Mecab을 제외하면 Okt랑 kkma가 비슷한 성능을 보인다.

  2. Okt 사용 결과

    Untitled

텍스트 전처리

1. TF-IDF (Term Frequency-Inverse Document Frequency)

단어의 빈도와 역 문서 빈도를 사용하여 문서 단어 행렬 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법

tf(d,t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수

df(t) : 특정 단어 t가 등장한 문서의 수.