머신러닝
어휘 빈도- 문서 역빈도 분석
pastime
2021. 2. 19. 22:18
728x90
특정 어휘의 빈도수가 높다고 해서 텍스트의 주제를 잘 드러내는 핵심어라고 보기 어렵다
언어 빈도수를 정렬하였을 경우 (불용어를 제거한 후) 흔히 등장하는 어휘의 중요성은 낮게 평가,
특정 문서에서만 집중적으로 등장하는 어휘의 중요성을 집중하는 계산법이다.
eg) 스마트폰 관련 기사에서 스마트폰이 많이 나온다고 좋은 기사라고 할 수 없다.
특정 기사에서 성능에 관한 단어가 많이 나오면 성능에 관한 기사라고 추측할 수 있다.
from sklearn.feature_extraction.text import Tfid/Vectonzer
galexy_tf idv=Tfid/Vectorizer()_fit(galexy_top_nouns)
galexy_tfidv_transform(galexy_posts)_toarray()
pd.DataFrame(galexy_tfidv.transform(galexy_posts).toarray())
728x90