๐ ์ ์ฒ๋ฆฌ ์๋ฃ๋ ๋ฐ์ดํฐ
- ์๊ถ๋ณ๋ก ํธ์์ ๋งค์ถ์ ์ํฅ์ ๋ฏธ์น ์์ธ๊ณผ ๊ด๋ จ๋ ๋ฐ์ดํฐ๋ฅผ ์ฐพ๊ณ , ์ด๋ฅผ ์ฐ๋/๋ถ๊ธฐ/์๊ถ์ฝ๋(์๊ถ)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ์ฒ๋ฆฌ์ ๋ฐ์ดํฐ ํตํฉ์ ๋ง์ณค๋ค.
- ์ถ๊ฐ๋ก, ์๊ถ ๋ฐ์ดํฐ์๋ ์๊ถ ๋ฐฐํ์ง ๋ฐ์ดํฐ์ ์ํํธ ๋ฐ์ดํฐ ์ถ๊ฐํ์ฌ ๋ณํฉํ๋ค.(๋ฐฐํ์ง ๋ฐ์ดํฐ๋ ๊ณจ๋ชฉ์๊ถ๋ง ํด๋น)
- ๊ณจ๋ชฉ์๊ถ(์๊ถ+์๊ถ๋ฐฐํ์ง ๋ฐ์ดํฐ) ๋ก ์๊ด๋ถ์ ์งํ์, ์๊ถ๋ฐฐํ์ง ๋ฐ์ดํฐ ์ค ์ํํธ ๋ฐ์ดํฐ์์ 0.6~0.7 ์ ๋์ ์๊ด๊ด๊ณ ํ์ธํ๊ธฐ ๋๋ฌธ์ด๋ค.
๐ ์ธ์ฝ๋ฉ ์๋ฃ๋ ๋ฐ์ดํฐ
- ๋ถ๊ธฐ/์๊ฐ๋๋ณ ์ธ์ฝ๋ฉ ์๋ฃ : ์ํซ ์ธ์ฝ๋ฉ
- ํ์๋ณ์๋ baseline Model ์ด ๋์จ ํ ์ถ๊ฐํ๊ธฐ๋ก ๊ฒฐ์
๐ง ์ด์ ์ด๋ป๊ฒ ํด์ผํ ๊น?
๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ํตํฉํ๊ณ ๋์ ๋ ์๋ฌธ์,
- ์ด ๋ณ์๋ค์ ์ด๋ค ๊ตฌ์กฐ๋ก ์กฐํฉํด์ผ ์๊ถ/์๊ฐ๋๋ณ ํธ์์ ๋งค์ถ์ก์ ์์ธกํ ์ ์์ ๊ฒ์ธ๊ฐ์ด๋ค.
- ๋ํ, ์ปฌ๋ผ๋ง๋ค ๋ํ๋ด๋ ๊ฐ์ ๊ธฐ์ค์ด๋ ์๋ฏธ๊ฐ ๋ฌ๋ผ์ ์ด๋ฅผ ํ๋์ฉ ์๋ด์ผํ๋๊ฑด๊ฐ ํ๋ ์๋ฌธ๋ ๋ค์๋ค.
- ์กฐ์ธ์ ๊ตฌํ ๊ฒฐ๊ณผ, ๋ณ์ ๋ณ๊ฒฝ์ด๋ ์ญ์ ์์ด ์ผ๋จ ๋ชจ๋ธ๋ง์ ๋ค์ํ๊ฒ ์๋ํด๋ณด๋ฉฐ ์ต์ ์ ๋ชจ๋ธ์ ์ฐพ์๋ณด๊ธฐ๋ก ํ๋ค.
โถ๏ธ Lesson Learned
- ๋ชจ๋ธ๋ง ์, ๋ชจ๋ธ์ด ์ฌ๋ฌ๊ฐ ๋์ค๋๊ฒ ์ข๋ค
- ํ๋์ ๋ชจ๋ธ์ ์ผ๊ด์ฑ ์๊ฒ ์ ์ฉํ๋ ๊ฒ์ด ์ด๋ ค์ ๐ ๋ถ๋ฅ ๋ฐ ๋ฒ์ฃผ๋ฅผ ๋ถ๋ฆฌํ์ฌ ๊ตฌ๋ถ, ๋ชจ๋ธ๋ง ์งํํด์ผํจ
- ๋ถ๋ฆฌ ๋ชจ๋ธ๋ง์ด ์ ํ๋๊ฐ ๋์์ง
- ๋ฌํํ๊ฒ ๋ชจ๋ธ์ ์ก์์ ํ
์คํธํ๋ฉฐ ๋ชจ๋ธ ์ฑ๋ฅ ๊ฐ์ ํ ๊ฒ
- ๋ชจ๋ธ๋ ๋๋ฌด ๋ค์ํ ๊ฒ์ ์ฌ์ฉํ๊ธฐ ๋ณด๋ค LightGBM ๋ฑ ํ๋๋ง ์ ์ ํ์ฌ ์ขํ๋๊ฐ๋ ๊ฒ์ ์ถ์ฒ!
โถ๏ธ Status Review
[ ์๊ถํ ] ๐๏ธ
- ๊ฒฐ์ธก์น ์ฒ๋ฆฌ
- ์ด์ : ์ํํธ ๋ฐ์ดํฐ, ์ง๊ฐ์์ค ๋ฐ์ดํฐ์์ ๊ฒฐ์ธก์น ๋ฐ์
- ํด๊ฒฐ : ๊ฐ๋ณ ๊ฒฐ์ธก์น๋ฅผ ํ์ธ ํ ๊ฐ๊ฐ ๋ค๋ฅด๊ฒ ์ฒ๋ฆฌ
- ์ ์ฒด ๊ธฐ๊ฐ ๋ฐ์ดํฐ๊ฐ ๊ฒฐ์ธก์น์ธ ๊ฒฝ์ฐ => 0 ์ผ๋ก ์ฒ๋ฆฌ
- ์ ์ฒด ๊ธฐ๊ฐ ๋ฐ์ดํฐ ์ค์ ์กด์ฌํ๋ ๊ฒฝ์ฐ => ํด๋น ๊ฐ์ผ๋ก ๋์ฒด
- ์๊ถ ๋ถ๋ฅ
- ๋ฐฉ๋ฒ : K-Means-Clustering
- ์ฌ๋ฌ ๊ฐ์ค์ ํตํ ๋ณ์ ์ค์
- 2๊ฐ์ง ๋ณ์์ ๋ํด ๋ฐ๋ณต๋ฌธ ์ค์ ํ ๋ถํฌํ์
- ๊ฒฐ๊ณผ : ์ ์ํ๊ฒ grouping์ด ๋๋ ๋ณ์๋ฅผ ์ฐพ์ ์ ์์์
- ๋ฐ๋ผ์ ๊ธฐ์กด ์๊ถ๋ถ๋ฅ์์ ์ง์ ํ ๋ถ๋ฅ(๊ณจ๋ชฉ์๊ถ/๋ฐ๋ฌ์๊ถ)์ ํ์ฉํ์ฌ ์๊ถ๋ณ๋ก ๋ค๋ฅธ ๋ณ์ ์ค์ ๊ฒฐ์
- ๋ฐฉ๋ฒ : K-Means-Clustering
[ ๋์ค๊ตํตํ ] ๐
- geopandas๋ฅผ ์ด์ฉ, ์๊ถ ์์ญ ๋ด ์กด์ฌํ๋ ์งํ์ฒ ์ ๊ฐ์์ ์ข ๋ฅ, ๋ฒ์ค์ ๋ฅ์ฅ์ ๊ฐ์์ ์ข ๋ฅ๋ฅผ ๋์ถ
- ์๊ถ ์ค๊ฐ ์ขํ ๊ธฐ์ค ๋ฐ๊ฒฝ vs ์๊ถ ์์ญ์ ํฌํจ ๋ ๊ธฐ์ค ์ค์์ “์๊ถ ์์ญ์ ํฌํจ” ๊ธฐ์ค์ผ๋ก ์ฌ์ฉ
- ๊ธฐ์กด ์ ํ์ฐ๊ตฌ๋ค์ ๊ฐ ํธ์์ ์ ํฌ๋ง๋ค์ ์๊ถ๋ถ์์ ์ค์ํ์์ผ๋, ์ฐ๋ฆฌ ํ๋ก์ ํธ์์ ํ๋ณดํ ๋ฐ์ดํฐ๋ก๋ ์์ ๊ฐ์ ์ฐ๊ตฌ๊ฐ ๋ถ๊ฐ๋ฅ
- ๋ํ, ํํ ์๊ถ๋ถ์์๋น์ค๋ ๋ฐ๊ฒฝ์ผ๋ก ์ ํ ์๊ถ ์์ญ์์ =>> ํ์ฌ์ ๋ค๊ฐํ ๋ชจ์์ผ๋ก ๊ธฐ์ค์ ๋ฐ๊พธ์์.
๊ทธ ์ทจ์ง๊ฐ ์์์ ์ดํดํ๊ณ ๊ธฐ์กด์ ์๊ถ๋ถ์์๋น์ค์ ์๊ถ(ํด๋ฆฌ๊ณค ๋ฐ์ดํฐ)์ ์ด์ฉํ์ฌ ํด๋น ์๊ถ์ ๊ธฐ์ค์ผ๋ก ์ฌ์ฉํ๊ธฐ๋ก ๊ฒฐ์
- ์ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ์ค์ผ๋ก (์ฐ๋, ๋ถ๊ธฐ, ์๊ถ ๊ธฐ์ค) ์๊ฐ๋๋ณ ์ด ์งํ์ฒ ์นํ์ฐจ ์น๊ฐ์์ ์ด ๋ฒ์ค์ ๋ฅ์ฅ ์น๊ฐ ์๋ฅผ ๋์ถ
- ๊ฒฐ๊ณผ๋ฌผ์ ์๊ถ ๋ฐ์ดํฐ์ ๊ฒฐํฉ
โถ๏ธ To do
[ Baseline Modeing Code ์์ฑ์ ์ํ ]
- LightGBM, RandomSearchCV ํ๋ผ๋ฏธํฐ ์คํฐ๋
- ์ฐธ๊ณ ) ๊ฒฐ์ ํธ๋ฆฌ ๋ชจ๋ธ ๊ธฐ๋ฐ์ ํ์ดํผํ๋ผ๋ฏธํฐ
- ํ๊ฐ์งํ ์ข
๋ฅ์ ํน์ง ์คํฐ๋
- neg_MSE, MSE, RMSE ๋ฑ..
728x90