Project/전세가 예측 5

[Project] 서울 전세가 예측(모델링)

모델을 선정하기 전 여러가지 회귀모델들을 비교해보았다.  📌 모델선정from sklearn.linear_model import LinearRegression, ElasticNet, Lasso, Ridgefrom sklearn.tree import DecisionTreeRegressorfrom sklearn.ensemble import RandomForestRegressorimport xgboost as xgbimport lightgbm as lgbreg = LinearRegression(n_jobs=-1)ridge = Ridge(alpha=0.8, random_state=1)lasso = Lasso(alpha = 0.01, random_state=1)Enet = ElasticNet(alpha=0.03..

[Project] 서울 전세가 예측(인코딩)

모델링에 들어가기 앞서 object 데이터에 대해 인코딩 처리를 해주어야 한다. 📌 인코딩info를 찍어보면 object값이 자치구명, 건물명, 건물용도가 있는데건물명은 브랜드아파트들을 구분하기 위해 살리고 싶었으나 데이터 결측치가 많은 관계로 drop 시켰다. (아쉬운 부분..) 인코딩 방법 중에 대표적으로 onehot, label 인코딩 방법이 있다.이 중 label 인코딩을 할 경우 해당 컬럼의 데이터가 순서나 랭크가 없음에도 불구하고 인코딩을 함으로써 데이터가 왜곡될 수 있다.(분류모델도 그런가 싶어 질문을 하니 결정트리 같은 경우에는 영향이 크게 안간다는 답변을 들을 수 있었다.)또, onehot 인코딩은 카테고리 종류가 많을 경우 컬럼이 과하게 많아질 수 있으므로 범주화하는 방법도 고려할 수..

[Project] 서울 전세가 예측(데이터 수집 및 전처리)(2)

전세가의 영향을 줄 수 있는 feature들을 모았으니 본격적으로 전세가에 대한 전처리를 했다.그런데 전세 데이터를 수집하면서 생각보다 데이터가 충분하지 않아 고민이 생겼다.그래서 전월세전환율에 따라 보증금, 월세가 바뀌었던 것이 떠올라 월세 데이터도 함께 활용하기로 했다.(이사하면서 고생했던게 이렇게 빛을 보는구나..😇) 📌 전월세 전환율# 동별 전환율df_guchange['지역'] = df_guchange['지역'].str.split(' ').str[1]df_guchange.set_index('지역', inplace=True)df_guchange=df_guchange.iloc[13:38]df_guchange = df_guchange[['2023-04']]df_guchange.rename(colum..

[Project] 서울 전세가 예측(데이터 수집 및 전처리)(1)

세미프로젝트 주제를 전세가 예측으로 정하면서 어떤 데이터를 활용할지에 대해 먼저 고민했다.전세가에 영향을 주는 교육, 교통, 인프라 등이 자연스럽게 떠올랐고 얼마나 근처에 있는지 보다는 주변에 얼마나 많은지에 초점을 두기로 했다.또한 법정동별, 도로명별 중 전세가의 기준점도 필요했는데 우리 팀은 법정동별 평균 전세가를 예측하기로 하였다. 📌 스타벅스 크롤링# 스타벅스 크롤링# 크롬드라이버 실행driver = webdriver.Chrome()#크롬 드라이버에 url 주소 넣고 실행driver.get('https://www.starbucks.co.kr/store/store_map.do?disp=locale')# 페이지가 완전히 로딩되도록 3초동안 기다림time.sleep(3)# 스타벅스 서울 클릭starb..