본문 바로가기

전체 글220

공부할 것 보호되어 있는 글 입니다. 2021. 3. 21.
[pandas]판다스 df.info()를 했는데 non-null counts가 안 보여요 train.info() 해결방법 train.info(verbose=True, null_counts=True) # verbose는 안 넣어도 된다. verbose 파라미터는 안 넣어줘도 된다. stackoverflow.com/questions/43427564/display-all-informations-with-data-info-in-python Display all informations with data.info() in Python I would display all informations of my data frame which contains more than 100 columns with .info() from panda but it won't : data_train.info() RangeIn... 2021. 3. 17.
[Dacon] 병원 개/폐업문제 2등 솔루션 분석 전처리 train은 괜찮았지만, test 셋의 employee1,2가 자료형이 달라 str로 바꾼 후 replace를 적용했어야 됐음 EDA를 하면서 침대 정보나 병원 정보가 잘못 입력된 값이 있었다고 한다. 사용한 기법 앙상블 Random Forest GradientBoostingClassifer XGBoost 0.5를 임계값으로 하는 custom loss fuction을 사용했음 Finally, 3개의 모델의 평균값을 구해 0.7을 임계값으로 두고 0,1 분류 정리 모델의 값을 모두 합치는 간단한 앙상블 기법을 사용했지만 2등을 차지하였다. ensemble['OC'] = (ensemble['ens'] > 0.7).astype('int') 못보던 문법 " >는 부등호를 의미하는데 0.7과 비교하여 논리.. 2021. 3. 12.
[Dacon] 병원 개/폐업문제 1등 솔루션 분석 1등 솔루션 분석 Model 1: id만 제외한 모델 regrssion모델로 0.1을 임계값으로 하여 0을 만들어내고 제출 → interest, profit, employee가 중요해 보이는 것으로 판단 Model2: (interest, profit, employee) + (sido, bedCount)를 추가한 모델 이번엔 모델 1에서 중요해보이는 피쳐 3가지에 시도, 침대 수를 추가함 임계값도 0.3으로 키움 → 중요해보이는 피쳐 10가지 추출 interest 1 interest 2 bedCount employee2 sido surplus profit2 noi1 sgg instkind Model3: model2에서 중요해보이는 10가지 피쳐 임계값 0.1로 조정 Model4: 병원 크기(규모)를 활용 .. 2021. 3. 12.