Machine Learning/Case Study ๐ฉ๐ป๐ป
[๊ณต๋ชจ์ ์์์ ์คํฐ๋] ์ผํ์ฉํ ์ฐ๋ ๊ธฐ ๊ฐ์๋ฅผ ์ํ,๋คํ์ฉ๊ธฐ ๋น์ฆ๋์ค ๋ชจ๋ธ ๊ฐ๋ฐ (์์ธ์ ๋น ๋ฐ์ดํฐ ์บ ํผ์ค)
ISLA!
2023. 10. 5. 17:35
๋ณธ ํฌ์คํ ์ ๊ณต๋ชจ์ ์ฐ์์๋ค์ ์คํฐ๋ํ๊ณ ์ฃผ์ ๋ด์ฉ์ ์์ฝํ๊ธฐ ์ํด ์์ฑํ์ต๋๋ค.
(์ถํ์์ ํ๋ฆ๋๋ก ์์ฑ)
์ถ์ฒ
์์ธ์ ๋น ๋ฐ์ดํฐ ์บ ํผ์ค : 2021 ๊ณต๋ชจ์ ์ต์ฐ์์ (https://bigdata.seoul.go.kr/noti/selectNoti.do?r_id=P260&bbs_seq=499&ac_type=A1&sch_type=&sch_text=%EB%8B%A4%ED%9A%8C%EC%9A%A9%EA%B8%B0¤tPage=1)
๋ฌธ์ ์ ์์ ๋ชฉํ ์ ์
- ๋ชฉ์ ๋ฐ ๋ฌธ์ ์ ์
- ์ฃผ์ ๋ฅผ ์ ์ ํ๊ฒ ๋ ๋ฐฐ๊ฒฝ : ์ ์ด ์ฃผ์ (๋์)์ ์ ์ ํ์๋์ง ์์ธ์ ํํฉ ์๋ฃ์ ํจ๊ป ์ ์
- ์ฃผ์ ์ ๋ํ ๋ท๋ฐ์นจ ์ค๋ช : ํ์ค์ ์ผ๋ก ํด๋น ์ฃผ์ ๊ฐ ์ด๋ค ๋ฐฉ์์ผ๋ก ๋ค๋ฃจ์ด์ง๊ณ ์๊ณ , ์ด๋ค ๋ฌธ์ ๊ฐ ๋จ์์๋์ง
- ์ฌ๋ก ํ์ธ : ์ ์ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์ฌ๋ก๋ฅผ ๊ฒํ
- ๋ฐ์ดํฐ EDA ๊ธฐ๋ฐ, ์งํ ์ ์
- ๋น์ฆ๋์ค ๋ชจ๋ธ ์ ์
- (ํด๋น ์ฌ๋ก์์๋ ๋ ํนํ๊ฒ BM์ ์ ์ํจ)
- ์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋น์ฆ๋์ค ๋ชจ๋ธ ์์ด๋์ด๋ฅผ ์์ฝ
- ์ ์ฌํ ๋น์ฆ๋์ค ์ฌ๋ก ๊ฒํ
- ์ต์ข
๋ชฉํ ์ ์
- ์ด๋ ํ ๋ถ์์ ํตํด ๋ฌด์์ ๋์ถํ์ฌ ์ด๋ค ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํ๋์ง ์ ์
- ์์๋๋ ๊ธ์ ์ ์ธ ํจ๊ณผ๋ ๊ฐ์ด ์ ์
์งํ ์ค์ ๊ณผ EDA
ํด๋น ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ํ์ํ ๋ฐ์ดํฐ๋ฅผ ์ ์
์ค์ํ ๋ฐ์ดํฐ๋ 'ํ์ ๋' ๋จ์ ์ฐ๋ ๊ธฐ ๋ฐฐ์ถ๋(ํํ๋ผ์คํฑ ๋ฐฐ์ถ๋์ ๋์ฒด) ๋ฐ์ดํฐ
๊ทธ๋ฐ๋ฐ ์ํ๋ ๋ฐ์ดํฐ๊ฐ ์๋ ๊ฒฝ์ฐ, ๋ค์คํ๊ท๋ฅผ ํตํด ํด๋น ๋ฐ์ดํฐ๋ฅผ ๋์ถํ ์ ์ด ์ธ์์ ์
- ํํ๋ผ์คํฑ ๋ฐฐ์ถ๋ ๋ฐ์ดํฐ๊ฐ ์์
โก ์ ์ฒด ํ๊ธฐ๋ฌผ ๋ฐฐ์ถ๋ ์ค ํํ๋ผ์คํฑ ๋น์ค์ด 12~18% ๋ก ์ผ์ ํ์ฌ, ์ ์ฒด ํ๊ธฐ๋ฌผ ๋ฐฐ์ถ๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๊ธฐ๋ก ํจ ๐ฉ - ํ์ ๋๋ณ ์ฐ๋ ๊ธฐ ๋ฐฐ์ถ๋ ๋ฐ์ดํฐ๊ฐ ์์ โก ์์น๊ตฌ๋ณ ์ฐ๋ ๊ธฐ ๋ฐฐ์ถ๋ ๋ฐ์ดํฐ๋ ์กด์ฌํจ.
โก ํ์ ๋ ๋จ์ ๋ฐ์ดํฐ์ ์์น๊ตฌ ๋จ์ ์ฐ๋ ๊ธฐ ๋ฐฐ์ถ๋ ๋ฐ์ดํฐ์ ๋ค์คํ๊ท๋ฅผ ํตํด, ํ์ ๋ ๋จ์ ์ฐ๋ ๊ธฐ ๋ฐฐ์ถ๋ ์ฐ์ ํ๊ธฐ๋ก ํจ ๐ฉ
ํ์ ๋ ๋จ์ ๋ฐ์ดํฐ ์์ง
- ์ฐ๋ ๊ธฐ ๋ฐฐ์ถ๋๊ณผ ์๊ด์ฑ์ด ์๋ ํ์ ๋ ๋จ์ ๋ฐ์ดํฐ๋ฅผ ์์ง
- ์๋ฅผ ๋ค์ด, ์ผ๋ฐ์์์ ์ ๋ณด, ๊ณต์์ง๊ฐ, 1์ธ ๊ฐ๊ตฌ์, ์ธ๊ตฌ์(์ฐ๋ น๋ณ, ์ฑ๋ณ) ๋ฑ์ด ์์
- ์ผํ์ฉํ(์ฐ๋ ๊ธฐ) ๋ฐฐ์ถ๋๊ณผ์ ์๊ด๊ณ์๋ฅผ ํ์ โก ํผ์ด์จ ์๊ด๊ณ์๊ฐ 0.5 ์ด์์ธ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถ ๐ฉ
ํ์ ๋ ๋จ์ ๋ฐ์ดํฐ ๋ถ์
์งํ ํํฐ๋ง
- 1์ธ ๊ฐ๊ตฌ์๋ ์ธ๊ตฌ ์์ ๋์ ์๊ด์ฑ(๋ค์ค๊ณต์ ์ฑ ๋ฌธ์ )๋ก ์งํ์์ ์ ์ธ
- ๊ทผ๊ฑฐ๋ฅผ ๊ตฌ์ฒดํ
- ํ์ ๊ตฌ์ญ ๋ณ ์ฐ๋ ๊ธฐ ๋ฐฐ์ถ๋๊ณผ 1์ธ๊ฐ๊ตฌ ๋น์จ์ด ํ๊ท ์ ์ ์๋ฏธํ ์ฐจ์ด๊ฐ ์๋ณด์
- 1~2์ธ ๊ฐ๊ตฌ์ 3์ธ ์ด์ ๊ฐ๊ตฌ์ ์ธ์ ์ ํ๋ ์ ์ฌํจ
- ๊ทธ๋ฌ๋, 1์ธ ๊ฐ๊ตฌ๋ฅผ ์ฐ๋ น๋๋ณ๋ก ๋๋์ด ์ผํ์ฉํ ๋ฐฐ์ถ๋๊ณผ ๊ด๊ณ๋ฅผ ์๊ฐํํ์ฌ ์ฐ๋ น๋๋ณ ์ฐจ์ด๊ฐ ์์์ ํ์ธ
โก ํด๋น ์ธ์ฌ์ดํธ๋ฅผ ๋น์ฆ๋์ค ์ ์ฑ ์๋ฆฝ ์ ์ ๋ ํ์ฉํ ์ ์์
์ต์ข ์งํ ์ ์
- ์ต์ข ์ ์ ๋ ํ์ ๋ ๋ณ ์ผํ์ฉํ ๋ฐฐ์ถ๋ ์์ธก ์งํ์ ํํธ๋งต ํ์ธ
- ์ต์ข
์งํ๋ฅผ ์ ์
โก ์ธ๊ตฌ์์ ์ฃผ์ ์ธ๊ตฌ ๋น์จ์ ๋์ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์
์ต์ข ์งํ ์๊ฐํ
- ์งํ๋ค์ ์ง์ญ๋ณ ํน์ฑ ํ์ธํ์ฌ, ํน์ฑ & ์์น๊ตฌ๋ณ ์ฐ๋ ๊ธฐ ๋ฐฐ์ถ๋์ ์๊ฐํ
- ํด์ : ์งํ๋ณ๋ก ๋๋ ทํ ์๊ด๊ด๊ณ๋ฅผ ๊ฐ์ง์ง๋ ์์ผ๋ฉฐ, ๊ตฌ ๋ณ๋ก ํน์ฑ์ด ๋ค๋ฅด๊ฒ ๋ํ๋จ
- ๊ฒฐ๊ณผ : ํด๋น ์งํ๋ฅผ ๋ฐํ์ผ๋ก ํด๋ฌ์คํฐ๋ง ์งํ
K-means Clustering
- ์ง์ญ๋ณ ์ฐ๋ ๊ธฐ ๋ฐฐ์ถ๋ ์ ํ์ ์์๋ณด๊ธฐ ์ํ ํด๋ฌ์คํฐ๋ง
- ํด๋ฌ์คํฐ๋ง ์ ์ MinMaxScaling ์งํ
- ์๋ณด์ฐ ํฌ์ธํธ๋ฅผ ์๊ฐํํ์ฌ, ๊ธฐ์ธ๊ธฐ๋ฅผ ํ์ธํ์ฌ k ๊ฐ ์ ์
๊ฒฐ๊ณผ ์๊ฐํ
- ํด๋ฌ์คํฐ๋ณ๋ก ์์ ์ฐ๋ ๊ธฐ ๋ฐฐ์ถ๋ ํ๊ท ์ ๋ณด๋ฉด 2๋ฒ์ด ๊ฐ์ฅ ๋์ ๋ฐฐ์ถ๋์ ๋ณด์
- ํด๋ฌ์คํฐ๋ณ ํน์ฑ์ ํ์ (์๊ฐํ)
Multiple Regression (๋ค์คํ๊ท๋ถ์)
- ๊ตฌ๋ณ ๋ฐ์ดํฐ ๋ก๋ถํฐ ๋ ๋ณ ๋ฐ์ดํฐ์ ์ถ์ ์น ์ฐ์ถ์ ์ํด ๋ค์คํ๊ท๋ถ์ ์ํ
- ์ด๋, ๋ค์ค๊ณต์ ์ฑ ์ ๊ฑฐ๊ฐ ์ค์ํ์ฌ ๊ณต์์ง๊ฐ ๋ณ์๋ฅผ ์ ๊ฑฐํ๊ณ
- ๋๋ค ์๋น ์์ ๋ ๋ณ 2544์ธ๊ตฌ์ ๋ ๊ฐ์ ์งํ๋ฅผ ์ฐ๊ธฐ๋ก ํจ
๋ค์คํ๊ท ๋ถ์ ๊ฒฐ๊ณผ ํ์ฉ 1 : ์์ธ์ ํ์ ๋ ๋ณ ์ฐ๋ ๊ธฐ ๋ฐฐ์ถ๋ ๋ถํฌ
- ์ ์ฒด์ ์ธ ๋ถํฌ๋ฅผ ํ์ธํ๊ณ , ์์ 10๊ฐ / ํ์ 10๊ฐ์ ํ์ ๋ ์ฐ๋ ๊ธฐ ๋ฐฐ์ถ๋๋ ๊ตฌํด๋ด
๋ค์คํ๊ท ๋ถ์ ๊ฒฐ๊ณผ ํ์ฉ 2 : ํด๋ฌ์คํฐ๋ณ ์ฐ๋ ๊ธฐ ๋ฐฐ์ถ๋์ด ๋ง์ ํ์ ๋ ๋์ถ
- 4๊ฐ ํด๋ฌ์คํฐ๋ณ๋ก ์ฐ๋ ๊ธฐ ๋ฐฐ์ถ๋ ์์ธก, ํ์
- ๊ทธ ์ค, ์ฃผ์ ํ์ ๋์ ํน์ฑ์ ๋ถ์
- ์ต์ข ์ ์ผ๋ก ์ฐ๋ ๊ธฐ ๋ฐฐ์ถ๋์ด ๊ฐ์ฅ ๋ง์ ์ง์ญ ์ ์ : ๋งํฌ๊ตฌ ์๊ต๋(ํด๋ฌ์คํฐ 2) =>>> ์ ์ง ์ ์ ์๋ฃ
728x90