본문 바로가기

코딩코딩/Kaggle 분석5

복붙창고 결측값 확인 # 모든 칼럼에 대해 하나라도 null값이 있으면 True, 없으면 False train.isnull().any().any() 2021. 4. 4.
[Dacon] 대출 상점 총 매출 예측 경진대회 1등 솔루션 분석 1등 솔루션 (Yongjip님) 1등 수상자이신 Yongjip님께서는 경제학을 전공하고 빅데이터 관련 프로젝트들을 하다가 미국 버지니아에 있는 테크회사에서 data analyst로 일하시다가 귀국해 쿠팡의 business analyst로 근무를 하고 있으시다고 한다. 아무래도 경제학이라는 백그라운드 덕분에 시계열 예측 문제에서 지식을 발휘하여 1등을 할 수 있던 것 같다. (그렇다고 내 전공이 호텔머시기라고 쉴드치는 것 아님) 목표 이번 포스팅에서는 1등 솔루션을 분석하면서 시계열 문제에서 자주 쓰이는 ARIMA모델, 다운샘플링에 대해 가볍게나마 이해해보자. EDA, 전처리 Negative transaction elimination 매출량인 amount 칼럼에 가끔 음수가 있어, 하루 매출 자체가 음수가.. 2021. 3. 25.
[Dacon] 병원 개/폐업문제 1등 솔루션 분석 1등 솔루션 분석 Model 1: id만 제외한 모델 regrssion모델로 0.1을 임계값으로 하여 0을 만들어내고 제출 → interest, profit, employee가 중요해 보이는 것으로 판단 Model2: (interest, profit, employee) + (sido, bedCount)를 추가한 모델 이번엔 모델 1에서 중요해보이는 피쳐 3가지에 시도, 침대 수를 추가함 임계값도 0.3으로 키움 → 중요해보이는 피쳐 10가지 추출 interest 1 interest 2 bedCount employee2 sido surplus profit2 noi1 sgg instkind Model3: model2에서 중요해보이는 10가지 피쳐 임계값 0.1로 조정 Model4: 병원 크기(규모)를 활용 .. 2021. 3. 12.
Sejong Kaggle Challengers 2기 시작 지원배경 에브리타임에서 캐글스터디 2기를 모집한다는 글을 보고, 하루정도 망설이다 신청했습니다. 지원서를 받는 메일주소가 교내 AI 관련해서 유명하신 교수님이신 것을 알고 있었기 때문에, 스터디에 들어간다면 발전할 것이라는 확신은 있었지만 아무래도 뭔가 변화를 시도하는 것은 늘 망설여지기 마련입니다. 그 외에도 다음과 같은 이유들이 있었기에 저에게 있어서 좋은 side effect가 있을 것이라 생각했습니다. 동아리에서 Andrew Ng 교수님의 Machine Learning 강의 스터디를 한다. 수학적인 베이스가 부족하다. 머신러닝을 너무 겉핥기 식으로 공부했다. 동아리에서 이제 A반을 비전, 자연어 등으로 여러가지 반으로 나눠서 운영한다고는 했지만 개인적으로 생각해봤을 때 아직 딥러닝으로 나아가기에는.. 2021. 3. 3.