Data Load
- 8692๊ฐ์ ๋ฐ์ดํฐ
- ID : ์ํ ๋ณ ๊ณ ์ ID
- ๋ถ๋์ฐ ๊ด๋ จ ์ ๋ณด
- ํด๋น ๊ฑด๋ฌผ์ด ์์นํ ์๋์ ๊ฒฝ๋(๋จ, ์ง๋ api๋ฅผ ์ด์ฉํ์ฌ ์ถ๊ฐ์ ๋ณด๋ฅผ ํ์ฉํ ์ ์์)
- target: monthlyRent(us_dollar) : 1๋ฌ๋ฌ๋ฅผ ๋จ์๋ก ํ๋ ์์ธ ๊ฐ๊ฒฉ
๊ธฐ๋ณธ์ ์ธ EDA
โถ๏ธ ์ง์ ๋ณ์์ ์์ ๋ณ์ ํ์ธ
# ์ง์ ๋ณ์
qual_df = total_df[['propertyType', 'suburbName']]
# ์์ ๋ณ์
quan_df = total_df.drop(columns = ['propertyType', 'suburbName'])
โถ๏ธ ๊ฒฐ์ธก์น, ํ๊ณผ ์ปฌ๋ผ ๊ตฌ์ฑ, ๋ฐ์ดํฐํ์ / ํต๊ณ๋ ํ์ธ
โถ๏ธ ์๊ฐํ
1) ์์ ๋ณ์ ๋ถํฌ ํ์ธ : ํ์คํ ๊ทธ๋จ
quan_df.hist(bins = 100, figsize = (18, 18))
plt.show()
2) ์ง์ ๋ณ์ ๋ถํฌ ํ์ธ : countplot
- ์ง์ ๋ณ์๋ ์์นํ๊ฐ ๋์ง ์์ผ๋ฉด ํ์คํ ๊ทธ๋จ์ผ๋ก ๋ํ๋ผ ์ ์๋ค
- ๊ทธ๋ฌ๋ ๋จ์ ์์นํ๊ฐ ์ง์ ๋ณ์์ ํน์ฑ์ ์ ์ ํ๊ฒ ๋ฐ์ํ์ง ๋ชปํ ๋๊ฐ ๋ง์ผ๋ฏ๋ก,
- ์ง์ ๋ณ์๋ ๊ด์ธก๊ฐ์ ๋น๋๋ฅผ ๋ํ๋ด๋ countplot์ ์ฃผ๋ก ์ด์ฉํ๋ค
fig, axes = plt.subplots(2, 1, figsize = (20, 15))
sns.countplot(x = qual_df['propertyType'],ax = axes[0])
sns.countplot(x = qual_df['suburbName'], ax = axes[1])
plt.show()
3) ์ด์์น ํ์ธ : box plot
# ์ผ๋ถ ์ฝ๋
fig, axes = plt.subplots(3, 3, figsize = (15, 15))
sns.boxplot(y = quan_df['bedrooms'], ax = axes[0][0])
sns.boxplot(y = quan_df['latitude'], ax=axes[0][1])
sns.boxplot(y = quan_df['longitude'], ax=axes[0][2])
plt.show()
4) ์๊ด๊ด๊ณ ํ์ธ : heatmap
plt.figure(figsize = (15, 15))
sns.heatmap(total_df.corr(), annot = True, fmt = '.1f', linewidth = 1, cmap = 'Blues')
plt.show()
728x90
'Machine Learning > Case Study ๐ฉ๐ปโ๐ป' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๐ฆ ๊ฒ ๋์ด ์์ธก(2)] Baseline Modeling(Gradient Boosting) (0) | 2023.09.24 |
---|---|
[๐ฆ ๊ฒ ๋์ด ์์ธก(1)] ๋ฐ์ดํฐ ํ์ & EDA (0) | 2023.09.24 |
[์ค๊ณ ์ฐจ ๊ฐ๊ฒฉ ์์ธก(2)] EDA (0) | 2023.09.17 |
[์ค๊ณ ์ฐจ ๊ฐ๊ฒฉ ์์ธก(1)] pandas_profiling ์ ์ด์ฉํ ํผ์ณ ์์ฝ ํ์ธ (0) | 2023.09.17 |
[ํด์ธ ๋ถ๋์ฐ ์์ธ ์์ธก(2)] One-Hot Encoding & Ridge Regression (0) | 2023.09.15 |