본문 바로가기
코딩코딩/Kaggle 분석

[Dacon] 병원 개/폐업문제 1등 솔루션 분석

by g0n1 2021. 3. 12.
728x90

1등 솔루션 분석

Model 1: id만 제외한 모델

  • regrssion모델로 0.1을 임계값으로 하여 0을 만들어내고 제출

→ interest, profit, employee가 중요해 보이는 것으로 판단

Model2: (interest, profit, employee) + (sido, bedCount)를 추가한 모델

  • 이번엔 모델 1에서 중요해보이는 피쳐 3가지에 시도, 침대 수를 추가함
  • 임계값도 0.3으로 키움

    → 중요해보이는 피쳐 10가지 추출

    • interest 1
    • interest 2
    • bedCount
    • employee2
    • sido
    • surplus
    • profit2
    • noi1
    • sgg
    • instkind

Model3: model2에서 중요해보이는 10가지 피쳐

  • 임계값 0.1로 조정

Model4: 병원 크기(규모)를 활용

  • instkind
  • sido, sgg
  • employee1, 2
  • bedCount

Model5: 작년의 재무 정보 활용(비유동부채, 이익잉여금)

  • 비유동부채(NCLiabilities2) : 만기가 1년 이후에 도래하는 것
  • 이익잉여금(surplus2): 기업의 영업활동이나 재무활동의 결과 축적된 이익으로 사내에 유보된 부분

Model6: feature를 고려하지 않고 결측치나 0 값만 사용

Model7: 매출 수익률(ROS) = 순이익(profit) / 순매출(revenue)

  • 매출 수익률이라는 새로운 feature 생성
  • instkind
  • sido, sgg
  • ROS2016
  • ROSSUM (2016년의 수익률 - 2017년의 수익률)
    • 증가했다면 -
    • 감소했다면 +

Model8: profit, debt, employee의 변화량(파생변수) 만들기

  • 2016년 - 2017년
  • profit3: profit2 - profit1
  • debt3: debt2 - debt1
  • employee3: employee2 - employee1

Model9: 위치정보(sido, sgg), 병원종류(instkind), bedCount, profit3, interest3

  • sido, sgg
  • instkind
  • bedCount
  • profit3
  • interest3

정리

  • 2016년, 2017년의 정보를 두 칼럼으로 나눠주는 것 보다 둘의 차이를 구한 칼럼 하나가 더 낫다.
  • sido, ssg를 그대로 사용했다. 나였으면 두 칼럼을 하나로 만들거나 했을 것 같은데 같이 쓰는 게 나을 수 있다는 생각을 했다.
  • 모델의 경량화( 58개의 칼럼 중 6개만 사용)

 

사용한 feature 변화

빨간색: 기존 칼럼 중 체크할만한 칼럼

노란색: 기존 칼럼들을 이용해서 만든 파생변수

728x90

댓글