image 썸네일형 리스트형 Pure Textual Features /scikit-learn/countvectorize Pure Textual Features Scikit-Learn 의 문서 전처리 기능 SciKit-Learn에서 CountVectorizer() 의 방식, 이는 문서 집합에서 단어 토큰을 생성하고 각 단어의 수를 세어 BOW 인코딩한 벡터를 만든다. 문법이나 글의 순서가 엉망이여도 이는 이러한 문제를 뛰어넘는 강력한 기능이다. >>> from sklearn.feature_extraction.text import CountVectorizer >>> corpus = [ ... "Authman ran faster than Harry because he is an athlete.", ... "Authman and Harry ran faster and faster.", ... ] >>> bow = CountVect.. 더보기 이전 1 다음