728x90
전처리
- train은 괜찮았지만, test 셋의 employee1,2가 자료형이 달라 str로 바꾼 후 replace를 적용했어야 됐음
- EDA를 하면서 침대 정보나 병원 정보가 잘못 입력된 값이 있었다고 한다.
사용한 기법
앙상블
- Random Forest
- GradientBoostingClassifer
- XGBoost
- 0.5를 임계값으로 하는 custom loss fuction을 사용했음
Finally, 3개의 모델의 평균값을 구해 0.7을 임계값으로 두고 0,1 분류
정리
- 모델의 값을 모두 합치는 간단한 앙상블 기법을 사용했지만 2등을 차지하였다.
ensemble['OC'] = (ensemble['ens'] > 0.7).astype('int')
- 못보던 문법
- " >는 부등호를 의미하는데 0.7과 비교하여 논리값인 True나 False가 나올테니 이것을 int로 바꿔준다
728x90
댓글