๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
Machine Learning/Case Study ๐Ÿ‘ฉ๐Ÿป‍๐Ÿ’ป

[๊ณต๋ชจ์ „ ์ˆ˜์ƒ์ž‘ ์Šคํ„ฐ๋””] ์ผํšŒ์šฉํ’ˆ ์“ฐ๋ ˆ๊ธฐ ๊ฐ์†Œ๋ฅผ ์œ„ํ•œ,๋‹คํšŒ์šฉ๊ธฐ ๋น„์ฆˆ๋‹ˆ์Šค ๋ชจ๋ธ ๊ฐœ๋ฐœ (์„œ์šธ์‹œ ๋น…๋ฐ์ดํ„ฐ ์บ ํผ์Šค)

by ISLA! 2023. 10. 5.

๋ณธ ํฌ์ŠคํŒ…์€ ๊ณต๋ชจ์ „ ์šฐ์ˆ˜์ž‘๋“ค์„ ์Šคํ„ฐ๋””ํ•˜๊ณ  ์ฃผ์š” ๋‚ด์šฉ์„ ์š”์•ฝํ•˜๊ธฐ ์œ„ํ•ด ์ž‘์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

(์ถœํ’ˆ์ž‘์˜ ํ๋ฆ„๋Œ€๋กœ ์ž‘์„ฑ)

์ถœ์ฒ˜

์„œ์šธ์‹œ ๋น…๋ฐ์ดํ„ฐ ์บ ํผ์Šค : 2021 ๊ณต๋ชจ์ „ ์ตœ์šฐ์ˆ˜์ž‘ (https://bigdata.seoul.go.kr/noti/selectNoti.do?r_id=P260&bbs_seq=499&ac_type=A1&sch_type=&sch_text=%EB%8B%A4%ED%9A%8C%EC%9A%A9%EA%B8%B0&currentPage=1)

 


๋ฌธ์ œ ์ •์˜์™€ ๋ชฉํ‘œ ์ œ์‹œ

  • ๋ชฉ์  ๋ฐ ๋ฌธ์ œ ์ •์˜ 
    • ์ฃผ์ œ๋ฅผ ์„ ์ •ํ•˜๊ฒŒ ๋œ ๋ฐฐ๊ฒฝ : ์™œ ์ด ์ฃผ์ œ(๋Œ€์ƒ)์„ ์„ ์ •ํ•˜์˜€๋Š”์ง€ ์„œ์šธ์‹œ ํ˜„ํ™ฉ ์ž๋ฃŒ์™€ ํ•จ๊ป˜ ์ œ์‹œ
    • ์ฃผ์ œ์— ๋Œ€ํ•œ ๋’ท๋ฐ›์นจ ์„ค๋ช… : ํ˜„์‹ค์ ์œผ๋กœ ํ•ด๋‹น ์ฃผ์ œ๊ฐ€ ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ๋‹ค๋ฃจ์–ด์ง€๊ณ  ์žˆ๊ณ , ์–ด๋–ค ๋ฌธ์ œ๊ฐ€ ๋‚จ์•„์žˆ๋Š”์ง€
    • ์‚ฌ๋ก€ ํ™•์ธ : ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ๋ก€๋ฅผ ๊ฒ€ํ† 
    • ๋ฐ์ดํ„ฐ EDA ๊ธฐ๋ฐ˜, ์ง€ํ‘œ ์„ ์ •
  • ๋น„์ฆˆ๋‹ˆ์Šค ๋ชจ๋ธ ์ œ์‹œ
    • (ํ•ด๋‹น ์‚ฌ๋ก€์—์„œ๋Š” ๋…ํŠนํ•˜๊ฒŒ BM์„ ์ œ์‹œํ•จ) 
    • ์œ„์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ๋น„์ฆˆ๋‹ˆ์Šค ๋ชจ๋ธ ์•„์ด๋””์–ด๋ฅผ ์š”์•ฝ
    • ์œ ์‚ฌํ•œ ๋น„์ฆˆ๋‹ˆ์Šค ์‚ฌ๋ก€ ๊ฒ€ํ† 
  • ์ตœ์ข… ๋ชฉํ‘œ ์ œ์‹œ
    • ์–ด๋– ํ•œ ๋ถ„์„์„ ํ†ตํ•ด ๋ฌด์—‡์„ ๋„์ถœํ•˜์—ฌ ์–ด๋–ค ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•˜๋Š”์ง€ ์ œ์‹œ
    • ์˜ˆ์ƒ๋˜๋Š” ๊ธ์ •์ ์ธ ํšจ๊ณผ๋„ ๊ฐ™์ด ์ œ์‹œ

 

์ง€ํ‘œ ์„ค์ •๊ณผ EDA

ํ•ด๋‹น ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์„ ์ • 

์ค‘์š”ํ•œ ๋ฐ์ดํ„ฐ๋Š” 'ํ–‰์ •๋™' ๋‹จ์œ„ ์“ฐ๋ ˆ๊ธฐ ๋ฐฐ์ถœ๋Ÿ‰(ํํ”Œ๋ผ์Šคํ‹ฑ ๋ฐฐ์ถœ๋Ÿ‰์„ ๋Œ€์ฒด) ๋ฐ์ดํ„ฐ

๊ทธ๋Ÿฐ๋ฐ ์›ํ•˜๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์—†๋Š” ๊ฒฝ์šฐ, ๋‹ค์ค‘ํšŒ๊ท€๋ฅผ ํ†ตํ•ด ํ•ด๋‹น ๋ฐ์ดํ„ฐ๋ฅผ ๋„์ถœํ•œ ์ ์ด ์ธ์ƒ์ ์ž„ 

  • ํํ”Œ๋ผ์Šคํ‹ฑ ๋ฐฐ์ถœ๋Ÿ‰ ๋ฐ์ดํ„ฐ๊ฐ€ ์—†์Œ
    โžก ์ „์ฒด ํ๊ธฐ๋ฌผ ๋ฐฐ์ถœ๋Ÿ‰ ์ค‘ ํํ”Œ๋ผ์Šคํ‹ฑ ๋น„์ค‘์ด 12~18% ๋กœ ์ผ์ •ํ•˜์—ฌ, ์ „์ฒด ํ๊ธฐ๋ฌผ ๋ฐฐ์ถœ๋Ÿ‰ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜๊ธฐ๋กœ ํ•จ ๐Ÿšฉ
  • ํ–‰์ •๋™๋ณ„ ์“ฐ๋ ˆ๊ธฐ ๋ฐฐ์ถœ๋Ÿ‰ ๋ฐ์ดํ„ฐ๊ฐ€ ์—†์Œ โžก ์ž์น˜๊ตฌ๋ณ„ ์“ฐ๋ ˆ๊ธฐ ๋ฐฐ์ถœ๋Ÿ‰ ๋ฐ์ดํ„ฐ๋Š” ์กด์žฌํ•จ. 
     โžก ํ–‰์ •๋™ ๋‹จ์œ„ ๋ฐ์ดํ„ฐ์™€ ์ž์น˜๊ตฌ ๋‹จ์œ„ ์“ฐ๋ ˆ๊ธฐ ๋ฐฐ์ถœ๋Ÿ‰ ๋ฐ์ดํ„ฐ์˜ ๋‹ค์ค‘ํšŒ๊ท€๋ฅผ ํ†ตํ•ด, ํ–‰์ •๋™ ๋‹จ์œ„ ์“ฐ๋ ˆ๊ธฐ ๋ฐฐ์ถœ๋Ÿ‰ ์‚ฐ์ •ํ•˜๊ธฐ๋กœ ํ•จ ๐Ÿšฉ

 

ํ–‰์ •๋™ ๋‹จ์œ„ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘

  • ์“ฐ๋ ˆ๊ธฐ ๋ฐฐ์ถœ๋Ÿ‰๊ณผ ์ƒ๊ด€์„ฑ์ด ์žˆ๋Š” ํ–‰์ •๋™ ๋‹จ์œ„ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘
  • ์˜ˆ๋ฅผ ๋“ค์–ด, ์ผ๋ฐ˜์Œ์‹์  ์ •๋ณด, ๊ณต์‹œ์ง€๊ฐ€, 1์ธ ๊ฐ€๊ตฌ์ˆ˜, ์ธ๊ตฌ์ˆ˜(์—ฐ๋ น๋ณ„, ์„ฑ๋ณ„) ๋“ฑ์ด ์žˆ์Œ
  • ์ผํšŒ์šฉํ’ˆ(์“ฐ๋ ˆ๊ธฐ) ๋ฐฐ์ถœ๋Ÿ‰๊ณผ์˜ ์ƒ๊ด€๊ณ„์ˆ˜๋ฅผ ํŒŒ์•… โžก ํ”ผ์–ด์Šจ ์ƒ๊ด€๊ณ„์ˆ˜๊ฐ€ 0.5 ์ด์ƒ์ธ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”์ถœ ๐Ÿšฉ

 

ํ–‰์ •๋™ ๋‹จ์œ„ ๋ฐ์ดํ„ฐ ๋ถ„์„

์ง€ํ‘œ ํ•„ํ„ฐ๋ง

  • 1์ธ ๊ฐ€๊ตฌ์ˆ˜๋Š” ์ธ๊ตฌ ์ˆ˜์™€ ๋†’์€ ์ƒ๊ด€์„ฑ(๋‹ค์ค‘๊ณต์„ ์„ฑ ๋ฌธ์ œ)๋กœ ์ง€ํ‘œ์—์„œ ์ œ์™ธ
  • ๊ทผ๊ฑฐ๋ฅผ ๊ตฌ์ฒดํ™”
    • ํ–‰์ •๊ตฌ์—ญ ๋ณ„ ์“ฐ๋ ˆ๊ธฐ ๋ฐฐ์ถœ๋Ÿ‰๊ณผ 1์ธ๊ฐ€๊ตฌ ๋น„์œจ์ด ํ‰๊ท ์ƒ ์œ ์˜๋ฏธํ•œ ์ฐจ์ด๊ฐ€ ์•ˆ๋ณด์ž„
    • 1~2์ธ ๊ฐ€๊ตฌ์™€ 3์ธ ์ด์ƒ ๊ฐ€๊ตฌ์˜ ์™ธ์‹ ์œ ํ˜•๋„ ์œ ์‚ฌํ•จ

  • ๊ทธ๋Ÿฌ๋‚˜, 1์ธ ๊ฐ€๊ตฌ๋ฅผ ์—ฐ๋ น๋Œ€๋ณ„๋กœ ๋‚˜๋ˆ„์–ด ์ผํšŒ์šฉํ’ˆ ๋ฐฐ์ถœ๋Ÿ‰๊ณผ ๊ด€๊ณ„๋ฅผ ์‹œ๊ฐํ™”ํ•˜์—ฌ ์—ฐ๋ น๋Œ€๋ณ„ ์ฐจ์ด๊ฐ€ ์žˆ์Œ์„ ํ™•์ธ
     โžก ํ•ด๋‹น ์ธ์‚ฌ์ดํŠธ๋ฅผ ๋น„์ฆˆ๋‹ˆ์Šค ์ •์ฑ… ์ˆ˜๋ฆฝ ์ œ์•ˆ ๋•Œ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Œ

 

์ตœ์ข… ์ง€ํ‘œ ์„ ์ •

  • ์ตœ์ข… ์„ ์ •๋œ ํ–‰์ •๋™ ๋ณ„ ์ผํšŒ์šฉํ’ˆ ๋ฐฐ์ถœ๋Ÿ‰ ์˜ˆ์ธก ์ง€ํ‘œ์˜ ํžˆํŠธ๋งต ํ™•์ธ
  • ์ตœ์ข… ์ง€ํ‘œ๋ฅผ ์„ ์ •
    โžก  ์ธ๊ตฌ์ˆ˜์™€ ์ฃผ์š” ์ธ๊ตฌ ๋น„์œจ์€ ๋†’์€ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๋ณด์ž„

์ตœ์ข… ์ง€ํ‘œ ์‹œ๊ฐํ™”

  • ์ง€ํ‘œ๋“ค์˜ ์ง€์—ญ๋ณ„ ํŠน์„ฑ ํ™•์ธํ•˜์—ฌ, ํŠน์„ฑ & ์ž์น˜๊ตฌ๋ณ„ ์“ฐ๋ ˆ๊ธฐ ๋ฐฐ์ถœ๋Ÿ‰์„ ์‹œ๊ฐํ™”
  • ํ•ด์„ : ์ง€ํ‘œ๋ณ„๋กœ ๋šœ๋ ทํ•œ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๊ฐ€์ง€์ง€๋Š” ์•Š์œผ๋ฉฐ, ๊ตฌ ๋ณ„๋กœ ํŠน์„ฑ์ด ๋‹ค๋ฅด๊ฒŒ ๋‚˜ํƒ€๋‚จ
  • ๊ฒฐ๊ณผ : ํ•ด๋‹น ์ง€ํ‘œ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํด๋Ÿฌ์Šคํ„ฐ๋ง ์ง„ํ–‰

 

 

K-means Clustering

  • ์ง€์—ญ๋ณ„ ์“ฐ๋ ˆ๊ธฐ ๋ฐฐ์ถœ๋Ÿ‰ ์œ ํ˜•์„ ์•Œ์•„๋ณด๊ธฐ ์œ„ํ•œ ํด๋Ÿฌ์Šคํ„ฐ๋ง
  • ํด๋Ÿฌ์Šคํ„ฐ๋ง ์ „์— MinMaxScaling ์ง„ํ–‰
  • ์—˜๋ณด์šฐ ํฌ์ธํŠธ๋ฅผ ์‹œ๊ฐํ™”ํ•˜์—ฌ, ๊ธฐ์šธ๊ธฐ๋ฅผ ํ™•์ธํ•˜์—ฌ k ๊ฐ’ ์„ ์ •

๊ฒฐ๊ณผ ์‹œ๊ฐํ™”

  • ํด๋Ÿฌ์Šคํ„ฐ๋ณ„๋กœ ์˜ˆ์ƒ ์“ฐ๋ ˆ๊ธฐ ๋ฐฐ์ถœ๋Ÿ‰ ํ‰๊ท ์„ ๋ณด๋ฉด 2๋ฒˆ์ด ๊ฐ€์žฅ ๋†’์€ ๋ฐฐ์ถœ๋Ÿ‰์„ ๋ณด์ž„

 

  • ํด๋Ÿฌ์Šคํ„ฐ๋ณ„ ํŠน์„ฑ์„ ํŒŒ์•…(์‹œ๊ฐํ™”)

 

 

Multiple Regression (๋‹ค์ค‘ํšŒ๊ท€๋ถ„์„)

  • ๊ตฌ๋ณ„ ๋ฐ์ดํ„ฐ ๋กœ๋ถ€ํ„ฐ ๋™ ๋ณ„ ๋ฐ์ดํ„ฐ์˜ ์ถ”์ •์น˜ ์‚ฐ์ถœ์„ ์œ„ํ•ด ๋‹ค์ค‘ํšŒ๊ท€๋ถ„์„ ์‹œํ–‰
  • ์ด๋•Œ, ๋‹ค์ค‘๊ณต์„ ์„ฑ ์ œ๊ฑฐ๊ฐ€ ์ค‘์š”ํ•˜์—ฌ ๊ณต์‹œ์ง€๊ฐ€ ๋ณ€์ˆ˜๋ฅผ ์ œ๊ฑฐํ•˜๊ณ 
  • ๋™๋„ค ์‹๋‹น ์ˆ˜์™€ ๋™ ๋ณ„ 2544์ธ๊ตฌ์ˆ˜ ๋‘ ๊ฐœ์˜ ์ง€ํ‘œ๋ฅผ ์“ฐ๊ธฐ๋กœ ํ•จ

 

๋‹ค์ค‘ํšŒ๊ท€ ๋ถ„์„ ๊ฒฐ๊ณผ ํ™œ์šฉ 1 : ์„œ์šธ์‹œ ํ–‰์ •๋™ ๋ณ„ ์“ฐ๋ ˆ๊ธฐ ๋ฐฐ์ถœ๋Ÿ‰ ๋ถ„ํฌ

  • ์ „์ฒด์ ์ธ ๋ถ„ํฌ๋ฅผ ํ™•์ธํ•˜๊ณ , ์ƒ์œ„ 10๊ฐœ / ํ•˜์œ„ 10๊ฐœ์˜ ํ–‰์ •๋™ ์“ฐ๋ ˆ๊ธฐ ๋ฐฐ์ถœ๋Ÿ‰๋„ ๊ตฌํ•ด๋ด„

 

๋‹ค์ค‘ํšŒ๊ท€ ๋ถ„์„ ๊ฒฐ๊ณผ ํ™œ์šฉ 2 : ํด๋Ÿฌ์Šคํ„ฐ๋ณ„ ์“ฐ๋ ˆ๊ธฐ ๋ฐฐ์ถœ๋Ÿ‰์ด ๋งŽ์€ ํ–‰์ •๋™ ๋„์ถœ

  • 4๊ฐœ ํด๋Ÿฌ์Šคํ„ฐ๋ณ„๋กœ ์“ฐ๋ ˆ๊ธฐ ๋ฐฐ์ถœ๋Ÿ‰ ์˜ˆ์ธก, ํŒŒ์•…
  • ๊ทธ ์ค‘, ์ฃผ์š” ํ–‰์ •๋™์˜ ํŠน์„ฑ์„ ๋ถ„์„
  • ์ตœ์ข…์ ์œผ๋กœ ์“ฐ๋ ˆ๊ธฐ ๋ฐฐ์ถœ๋Ÿ‰์ด ๊ฐ€์žฅ ๋งŽ์€ ์ง€์—ญ ์„ ์ • : ๋งˆํฌ๊ตฌ ์„œ๊ต๋™(ํด๋Ÿฌ์Šคํ„ฐ 2) =>>> ์ž…์ง€ ์„ ์ • ์™„๋ฃŒ

 

728x90