728x90
1등 솔루션 분석
Model 1: id만 제외한 모델
- regrssion모델로 0.1을 임계값으로 하여 0을 만들어내고 제출
→ interest, profit, employee가 중요해 보이는 것으로 판단
Model2: (interest, profit, employee) + (sido, bedCount)를 추가한 모델
- 이번엔 모델 1에서 중요해보이는 피쳐 3가지에 시도, 침대 수를 추가함
- 임계값도 0.3으로 키움
→ 중요해보이는 피쳐 10가지 추출
- interest 1
- interest 2
- bedCount
- employee2
- sido
- surplus
- profit2
- noi1
- sgg
- instkind
Model3: model2에서 중요해보이는 10가지 피쳐
- 임계값 0.1로 조정
Model4: 병원 크기(규모)를 활용
- instkind
- sido, sgg
- employee1, 2
- bedCount
Model5: 작년의 재무 정보 활용(비유동부채, 이익잉여금)
- 비유동부채(NCLiabilities2) : 만기가 1년 이후에 도래하는 것
- 이익잉여금(surplus2): 기업의 영업활동이나 재무활동의 결과 축적된 이익으로 사내에 유보된 부분
Model6: feature를 고려하지 않고 결측치나 0 값만 사용
Model7: 매출 수익률(ROS) = 순이익(profit) / 순매출(revenue)
- 매출 수익률이라는 새로운 feature 생성
- instkind
- sido, sgg
- ROS2016
- ROSSUM (2016년의 수익률 - 2017년의 수익률)
- 증가했다면 -
- 감소했다면 +
Model8: profit, debt, employee의 변화량(파생변수) 만들기
- 2016년 - 2017년
- profit3: profit2 - profit1
- debt3: debt2 - debt1
- employee3: employee2 - employee1
Model9: 위치정보(sido, sgg), 병원종류(instkind), bedCount, profit3, interest3
- sido, sgg
- instkind
- bedCount
- profit3
- interest3
정리
- 2016년, 2017년의 정보를 두 칼럼으로 나눠주는 것 보다 둘의 차이를 구한 칼럼 하나가 더 낫다.
- sido, ssg를 그대로 사용했다. 나였으면 두 칼럼을 하나로 만들거나 했을 것 같은데 같이 쓰는 게 나을 수 있다는 생각을 했다.
- 모델의 경량화( 58개의 칼럼 중 6개만 사용)
사용한 feature 변화
빨간색: 기존 칼럼 중 체크할만한 칼럼
노란색: 기존 칼럼들을 이용해서 만든 파생변수
728x90
'코딩코딩 > Kaggle 분석' 카테고리의 다른 글
복붙창고 (0) | 2021.04.04 |
---|---|
[Dacon] 대출 상점 총 매출 예측 경진대회 1등 솔루션 분석 (1) | 2021.03.25 |
Sejong Kaggle Challengers 2기 시작 (0) | 2021.03.03 |
교내 캐글 경진 대회 (0) | 2020.10.12 |
댓글