♻️ 순환경제 활성화를 위한 서울시 스마트 수거함 입지 선정
01. 전처리 : 자치구 기준 데이터 집계
- 행정동 단위 PET 배출량 데이터가 부재 ▶︎ 자치구별 데이터를 기반으로 '다중회귀분석'을 통해 행정동 배출량 예측 예정
- 자치구 단위 데이터 집계 feature :
- 거주인구 수 : 연령대 10대 이하 ~ 100세 이상 연령대별 거주인구수
- 생활인구 수 : 연령대별 생활인구 수
- 가구원 수 별 가구수 : 1인 가구 ~ 7인 가구 이상 거주인구 수
- 구별 페트병 배출량(자원순환정보시스템) : 2021년 전국 폐기물 발생 및 처리현황 참고
- 서울시 식품위생업소 및 공중위생업소 데이터 : 식품접객업 6종(휴게음식점, 일반음식점, 단란주점, 유흥주점, 위탁급식, 제과점) 수
02. 파생변수 생성
- 상관계수와 히트맵을 확인하여 높은 상관관계를 가진 변수를 중심으로 파생변수 생성
생성 변수 | 결합 변수 |
연령대_2030_ 거주인구수_합 & 평균 |
연령대_20_거주인구수, 연령대_30_거주인구수 |
연령대_2030_ 생활인구수_,합 & 평균 |
연령대_20_생활인구수, 연령대_30_생활인구수 |
1인가구_비율 | 1인가구, 1~7인이상가구 |
주요경제활동인구_ 거주인구수 & 평균 |
연령대_20_거주인구수, 연령대_30_거주인구수, 연령대_40_거주인구수, 연령대_50_거주인구수 |
주요경제활동인구_ 생활인구수 & 평균 |
연령대_20_생활인구수, 연령대_30_생활인구수, 연령대_40_생활인구수, 연령대_50_생활인구수 |
식품접객업 | 일반음식점, 휴게음식점, 제과점영업, 유흥주점영업, 단란주점, 집단급식소 |
음식점 | 일반음식점, 휴게음식점 |
주점 | 일반음식점, 유흥주점영업, 단란주점 |
03. 다중회귀분석
다중회귀분석이란?
- 다중회귀는 둘 이상의 독립 변수와 종속변수 간 관계를 설명하고 예측할 때 사용함
- 선형 또는 비선형 관계를 모델링하여, 각 독립 변수의 회귀 계수를 추정하여 해당 변수가 종속 변수에 어떤 영향을 미치는지 파악
다중회귀분석 순서
(1) 변수 간 다중공선성 확인 ▶︎ 예측용 변수 선택
- 다중공선성 확인 목적 : 회귀 계수들의 불안정성을 낮추어 변수 중요도를 정확히 평가하기 위함
- 다양한 변수 조합을 시도하여 변수간 VIF 10 이하의 변수를 채택 : '주요 경제활동 생활인구 수', '1인 가구'
(2) 다중회귀모델 생성 및 학습
- 최소제곱법 기반 회귀 모델 구축
- 독립변수 : '주요 경제활동 생활인구 수', '1인 가구'
- 종속변수 : 'PET 총량'
- 평가지표 : RMSE, MAE
- 결과 확인(회귀식) :
- PET병 배출량(톤 / 연) = (주요 경제활동 생활인구 수) x 0.000004 +(1인 가구) x 0.013575
- 회귀계수 및 예측 결과
728x90
'Projects > Bigdata Campus 공모전' 카테고리의 다른 글
[스마트 수거함 입지 선정] 5. Target 행정동 수거함 입지 선정 (2) | 2023.12.19 |
---|---|
[스마트 수거함 입지 선정] 4. 행정동 별 입지 지수 선정(PCA) (0) | 2023.12.19 |
[스마트 수거함 입지 선정] 3. 행정동 군집화(K-means Clustering) (1) | 2023.12.19 |
[스마트 수거함 입지 선정] 1. 주제 선정 배경 및 개요 (0) | 2023.12.19 |