1.도입

이전에는 텍스트 분류와 감성 분석을 연습했습니다. 이번에는 문서에서 숨어 있는 주제를 찾아내는 토픽 모델링을 공부하려고 합니다. 

 

사람은 함축적으로 요약하는 반면에 머신러닝 기법을 사용하면 함축적인 중심단어를 추출합니다.

 

토픽 모델링에는 latent semantic analysis LSA와 latent dirichlet allocation LDA가 있는데 여기서는 후자의 방법을 사용합니다.

 

2. 실습

20newsgroup에서 8개의 주제를 가진 문서만을 꺼내서 sklearn LDA를 통해서 토픽 모델링을 해보겠습니다. 이때 반드시 count vectorizer을 사용해야합니다. 

 

 

 

countvectorizer을 통해 7682개 문서와 단어 1000개로 이루어진 것을 확인했습니다.

lda를 사용해서 components_를 확인해보면 문서마다 단어의 정보가 수치로 주어져있습니다. 그 value가 크면 해당 문서의 중심단어라고 볼 수 있습니다. 그래서 그 value를 큰 순서로 상위 15개로 끊어서 중심단어로 살펴보았습니다. 생각보다 정확도가 많이 떨어집니다..

+ Recent posts