전세가의 영향을 줄 수 있는 feature들을 모았으니 본격적으로 전세가에 대한 전처리를 했다.
그런데 전세 데이터를 수집하면서 생각보다 데이터가 충분하지 않아 고민이 생겼다.
그래서 전월세전환율에 따라 보증금, 월세가 바뀌었던 것이 떠올라 월세 데이터도 함께 활용하기로 했다.
(이사하면서 고생했던게 이렇게 빛을 보는구나..😇)
📌 전월세 전환율
# 동별 전환율
df_guchange['지역'] = df_guchange['지역'].str.split(' ').str[1]
df_guchange.set_index('지역', inplace=True)
df_guchange=df_guchange.iloc[13:38]
df_guchange = df_guchange[['2023-04']]
df_guchange.rename(columns={'2023-04':'구별 전월세전환율'}, inplace=True)
# 4대 은행 전환율
df_guchange['신한'] = 4.37
df_guchange['국민'] = 4.58
df_guchange['우리'] = 4.66
df_guchange['하나'] = 4.37
# 법정 전환율
df_guchange['법정금리'] = 5.5
# 평균 전환율
df_guchange['평균금리'] = df_guchange.mean(axis='columns')
df_guchange=df_guchange[['평균금리']]
전월세 전환율은 4대은행, 동별, 법적 전환율이 각각 달라 이를 평균치를 내서 전환하기로 하였다.
📌 연식 결측치 처리
연식 결측치가 제법 많아 이를 어떻게 처리해야 할지 고민이 생겼다.
1. 동별, 구별 평균치로 대체
2. 결측치는 그대로 둔 상태로 동별, 구별 평균 컬럼 추가
이 2가지 방법에 대한 조언을 구하였고 둘다 머신러닝을 돌려본 후 정확도를 보고 정하기로~
평균, 중앙값, 최빈값 이런 값으로 대체할 생각만 했는데 컬럼을 추가하는 방법을 이때 처음 생각했던 것 같다.
📌 최종 데이터
동별 비교를 위해서 최종적으로 전세가가 아닌 평당전세가를 계산해주었고 예측했다.
또, 서울 모든 법정동의 전세가를 구할 수 없었고 시민이 살고 있지 않은 법정동도 있는 것을 확인하였다.
그래서 자치구를 활용하여 전세가 결측치를 대체하는 방법도 생각했지만 전체적인 데이터에 영향을 줄 것 같아 전세가 결측치는 drop 시켰다.
'Project > 전세가 예측' 카테고리의 다른 글
[Project] 서울 전세가 예측(시각화) (0) | 2024.04.01 |
---|---|
[Project] 서울 전세가 예측(모델링) (0) | 2024.03.31 |
[Project] 서울 전세가 예측(인코딩) (0) | 2024.03.30 |
[Project] 서울 전세가 예측(데이터 수집 및 전처리)(1) (0) | 2024.03.27 |