전체 글220 [데이터 청년 캠퍼스] 경남대학교 빅리더 AI 아카데미 - Day 12 오전 머신러닝시간입니다. 선형회귀의 뒷부분을 배웠는데요, Scikit-learn의 데이터(아이리스, boston 집값)를 회귀분석하고 시각화해보았습니다. random_state = x #(랜덤 seed를 지정해서 똑같은 무작위성을 갖게 합니다.) from sklearn.linear_model import Linear Regression model = LinearRegression(fit_intercept=True) model.fit(X,y) model.coef_ # 회귀계수 model.intercept_ # y절편 - 사이킷런의 지표평가 기준은 높은 지표값일 수록 좋은 모델이라 MSE값에 -1을 곱해서 반환하므로 반환 값에 -1을 다시 곱해야 원래의 양의 값인 MSE값이 됨 - 여기에 sqrt를 해서 R.. 2020. 7. 18. [데이터 청년 캠퍼스] 경남대학교 빅리더 AI 아카데미 - Day 11 오전 - 자연어처리(NLP) 용어 DTM: 문서 행렬 (Documnet Term Matrirx) tf: 현재 문서에 출현한 단어의 빈도(횟수) (Term Frequency) idf : 역문서 빈도, 전제 문서의 수를 해당 단어가 나오는 문서수로 나눈 것(Inverse Document Frequency) td-idf : 단어빈도 * 역문서 빈도 문서행렬은 문서에 나타나는 어휘를 모아 one-hot 인코딩으로 표현한 벡터다. 모든 어휘들이 columns가 되는데 columns에서 저빈도 어휘들은 빼고 고빈도 어휘들로 채운다. 고빈도 어휘들 중에서도 불용어(을/를, 은/는 ....)는 제외한다. 이때 빈도는 tf나 tf-idf가 될 수 있다. tf가 단순히 출현 횟수만을 카운트한다. if-idf는 특정 문서들.. 2020. 7. 17. [데이터 청년 캠퍼스] 경남대학교 빅리더 AI 아카데미 - Day 10 오전 머신러닝 시간이었습니다. 예측 모델 성능평가에 대해 배웠습니다. - Holdout - K-fold cross validation - Stratified sampling - Bootstrap ----------------- -Confusuin Matrix - Accuracy - Precision - Recall - F-Measure - ROC Curve - RMSE 등의 개념을 배웠습니다. 오후 오늘은 형태소 분석 후 빈도분석, 감성분석을 하는 시간이었습니다. 하지만 많이 졸아서 자습이 많이 필요합니다. 죄송하지만 어제 공부를 안 해서 여기서 마치겠습니다. 나중에 추가하겠습니다. 2020. 7. 16. [데이터 청년 캠퍼스] 경남대학교 빅리더 AI 아카데미 - Day 9 오전 오늘은 자연어처리의 이론 부분을 배웠습니다. 국어 수업에 가까워서 많이 졸렸습니다. 솔직히 조금 졸았습니다. 이론 부분은 잘 기억 안 나지만, 실습은 레이블링 된 네이버 영화후기를 형태소 분석하는 실습을 했습니다. 로컬 환경에서 하는 것도 정신이 없는데, 콜랩환경에서 코드 쓸 생각에 정신이 나갈 것만 같습니다. 돈 많이 벌어서 리눅스로 쓸 노트북 하나 사보고 싶네요. 연습도 할 겸. 기억에 남는 것은 대부분 자연어 처리가 영어를 기준으로 되어있지만 한국어는 굴절어라서 힘들다. 그래서 이것을 영어처럼 잘 바꿔줄 수만 있다면 자연어 처리의 방법론을 적용시킬 수 있다는 교수님의 말씀입니다. 오늘은 복습도 예습도 제대로 못 했네요. 오후 오후에는 머신러닝 첫 수업을 들었습니다. 현직에 계시던 분이 교육을 .. 2020. 7. 15. 이전 1 ··· 46 47 48 49 50 51 52 ··· 55 다음