본문 바로가기

싸이킷런3

Label Encoding, One-Hot Encoding / Scikit-learn 레이블 인코딩, 원핫인코딩 Label Encoding from sklearn.preprocessing import LabelEncoder le = LabelEncoder() # 데이터에서 특징 찾기(범주의 수 le.fit(label) #데이터 변환 label_encoded_label = le.transfrom(label) 다시 원래대로 바꿀 수 있는 inverse_transform도 있따. One-hot Encoding from sklearn.preprocessing import OneHotEncoder ohe = OneHotEncdoer() # 특징 찾고 데이터 변환 one_fit_transform(label) # 특징 찾기 ohe.fit(data) # 데이터 변환 one_hot_encoded = ohe.transform(data) 2020. 7. 19.
[데이터 청년 캠퍼스] 경남대학교 빅리더 AI 아카데미 - Day 12 오전 머신러닝시간입니다. 선형회귀의 뒷부분을 배웠는데요, Scikit-learn의 데이터(아이리스, boston 집값)를 회귀분석하고 시각화해보았습니다. random_state = x #(랜덤 seed를 지정해서 똑같은 무작위성을 갖게 합니다.) from sklearn.linear_model import Linear Regression model = LinearRegression(fit_intercept=True) model.fit(X,y) model.coef_ # 회귀계수 model.intercept_ # y절편 - 사이킷런의 지표평가 기준은 높은 지표값일 수록 좋은 모델이라 MSE값에 -1을 곱해서 반환하므로 반환 값에 -1을 다시 곱해야 원래의 양의 값인 MSE값이 됨 - 여기에 sqrt를 해서 R.. 2020. 7. 18.
[데이터 청년 캠퍼스] 경남대학교 빅리더 AI 아카데미 - Day 11 오전 - 자연어처리(NLP) 용어 DTM: 문서 행렬 (Documnet Term Matrirx) tf: 현재 문서에 출현한 단어의 빈도(횟수) (Term Frequency) idf : 역문서 빈도, 전제 문서의 수를 해당 단어가 나오는 문서수로 나눈 것(Inverse Document Frequency) td-idf : 단어빈도 * 역문서 빈도 문서행렬은 문서에 나타나는 어휘를 모아 one-hot 인코딩으로 표현한 벡터다. 모든 어휘들이 columns가 되는데 columns에서 저빈도 어휘들은 빼고 고빈도 어휘들로 채운다. 고빈도 어휘들 중에서도 불용어(을/를, 은/는 ....)는 제외한다. 이때 빈도는 tf나 tf-idf가 될 수 있다. tf가 단순히 출현 횟수만을 카운트한다. if-idf는 특정 문서들.. 2020. 7. 17.