본문 바로가기

경남대16

[데이터 청년 캠퍼스] 경남대학교 빅리더 AI 아카데미 - Day 12 오전 머신러닝시간입니다. 선형회귀의 뒷부분을 배웠는데요, Scikit-learn의 데이터(아이리스, boston 집값)를 회귀분석하고 시각화해보았습니다. random_state = x #(랜덤 seed를 지정해서 똑같은 무작위성을 갖게 합니다.) from sklearn.linear_model import Linear Regression model = LinearRegression(fit_intercept=True) model.fit(X,y) model.coef_ # 회귀계수 model.intercept_ # y절편 - 사이킷런의 지표평가 기준은 높은 지표값일 수록 좋은 모델이라 MSE값에 -1을 곱해서 반환하므로 반환 값에 -1을 다시 곱해야 원래의 양의 값인 MSE값이 됨 - 여기에 sqrt를 해서 R.. 2020. 7. 18.
[데이터 청년 캠퍼스] 경남대학교 빅리더 AI 아카데미 - Day 11 오전 - 자연어처리(NLP) 용어 DTM: 문서 행렬 (Documnet Term Matrirx) tf: 현재 문서에 출현한 단어의 빈도(횟수) (Term Frequency) idf : 역문서 빈도, 전제 문서의 수를 해당 단어가 나오는 문서수로 나눈 것(Inverse Document Frequency) td-idf : 단어빈도 * 역문서 빈도 문서행렬은 문서에 나타나는 어휘를 모아 one-hot 인코딩으로 표현한 벡터다. 모든 어휘들이 columns가 되는데 columns에서 저빈도 어휘들은 빼고 고빈도 어휘들로 채운다. 고빈도 어휘들 중에서도 불용어(을/를, 은/는 ....)는 제외한다. 이때 빈도는 tf나 tf-idf가 될 수 있다. tf가 단순히 출현 횟수만을 카운트한다. if-idf는 특정 문서들.. 2020. 7. 17.
[데이터 청년 캠퍼스] 경남대학교 빅리더 AI 아카데미 - Day 9 오전 오늘은 자연어처리의 이론 부분을 배웠습니다. 국어 수업에 가까워서 많이 졸렸습니다. 솔직히 조금 졸았습니다. 이론 부분은 잘 기억 안 나지만, 실습은 레이블링 된 네이버 영화후기를 형태소 분석하는 실습을 했습니다. 로컬 환경에서 하는 것도 정신이 없는데, 콜랩환경에서 코드 쓸 생각에 정신이 나갈 것만 같습니다. 돈 많이 벌어서 리눅스로 쓸 노트북 하나 사보고 싶네요. 연습도 할 겸. 기억에 남는 것은 대부분 자연어 처리가 영어를 기준으로 되어있지만 한국어는 굴절어라서 힘들다. 그래서 이것을 영어처럼 잘 바꿔줄 수만 있다면 자연어 처리의 방법론을 적용시킬 수 있다는 교수님의 말씀입니다. 오늘은 복습도 예습도 제대로 못 했네요. 오후 오후에는 머신러닝 첫 수업을 들었습니다. 현직에 계시던 분이 교육을 .. 2020. 7. 15.
[데이터 청년 캠퍼스] 경남대학교 빅리더 AI 아카데미 - Day 8 오전 프로젝트 설명회를 들었습니다. 기억나는 건 드론으로 지도를 그리고 GIS를 활용해서 이것저것 하는 거,,,, 오후 점심먹고 무슨 전파랑 전파전파랑 안테나 들으니까 졸려서 정신 나갔습니다. 기대하던 한국관광공사 프로젝트 설명회는 썩 만족스럽진 않았습니다... 질문을 하면 '뭐 이런 질문을 하나' 이런 느낌이었습니다. 저녁먹고 팀을 짰는데 저희 팀은 모두 비전공자에 파이썬을 잘 못 다루더라구요. 제가 그냥 당당하게 조장한다고 했습니다. 같은 주제를 하는 다른 팀은 팀원 절반 정도가 머신러닝 경험자더라구요. 하지만 오히려 좋습니다. 애니메이션 에서 주인공이 야구부도 없는 학교에서 야구부를 만들고 동료들과 고군분투하던 모습이 떠올랐습니다. 역시 저는 상대랑 맞붙어서 경쟁할 때가 제일 즐겁습니다. 1:1인데.. 2020. 7. 14.