영화리뷰1조

Untitled

OKT 형태소 분석기

KoNPLy 라이브러리 중 Okt 형태소 분석기를 사용

문자의 문서를 대상으로 각 클래스의 메소드를 실행하는데 소요되는 시간.

문자의 문서를 대상으로 각 클래스의 pos 메소드를 실행하는데 소요되는 시간.

→ **Okt**는 성능과 정확도 면에서 일반적으로 우수하다. 특히 속도가 빠르면서도 정확한 형태소 분석을 제공한다.

성능 비교

“아버지가방에들어가신다”

Hannanum	Kkma	Komoran	Mecab	Okt
아버지가방에들어가 / N	아버지 / NNG	아버지가방에들어가신다 / NNP	아버지 / NNG	아버지 / Noun
이 / J	가방 / NNG		가 / JKS	가방 / Noun
시ㄴ다 / E	에 / JKM		방 / NNG	에 / Josa
	들어가 / VV		에 / JKB	들어가신 / Verb
	시 / EPH		들어가 / VV	다 / Eomi
	ㄴ다 / EFN		신다 / EP+EC

→ 형태소를 가장 잘 구분한 분석기는 Mecab이고 Mecab을 제외하면 Okt랑 kkma가 비슷한 성능을 보인다.

단어의 빈도와 역 문서 빈도를 사용하여 문서 단어 행렬 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법

tf(d,t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수

df(t) : 특정 단어 t가 등장한 문서의 수.