본문 바로가기

Projects31

[Mini Project] 2. 데이터 탐색과 전처리 🥑 데이터 탐색 및 전처리 상권 추정매출 데이터에는 매출이 시간대 6개 구간 별로 나타나 있다. 예시는 다음과 같다 이와 동일하게 독립변수들도 연도(3개년)별, 분기별, 6개 시간대별로 합산하여 분석을 진행하기로 했다. 팀원 4명이 각자 변수들을 맡아 전처리를 진행하기로 했다. 나는 지하철 관련 데이터를 담당했다. 해당 데이터 전처리는 따로 올릴 예정! ➡ 고민해 볼 것 1. 기능별 상권 분류 모든 상권에 대해 일괄적인 분석을 진행하는 것이 아니라, 상권분류 서비스의 상권별 분류 이외에 새로운 기준으로 상권 대분류를 해보기로 했다 예로, 업무 지역, 주거 지역, 번화가 등이 있을 것이다. 기능별 상권분류에 사용될 변수와 구분 기준이 아직 정해지지 않았으나, 추가 분석을 수행하고 자료를 조사하며 해결할 예.. 2023. 9. 8.
[Mini Project] 1. 주제 선정과 데이터 수집 🥑 주제 선정 주어진 주제 : 유동인구와 매출분석 선정 주제 : '강남구'의 상권별 시간 당 매출액을 예측 🥑 주제 선정 배경 '인구'와 '매출' 두 가지 키워드에서 접근했을 때 어떤 주제를 잡는 것이 의미가 있을지 생각해보았다. 또한, 서울시 상권분석 서비스에서는 이미 상권별로 다양한 정보를 제공하고 있는데 이 분석에서 차별화할 수 있는 점을 고민했다. 유동 인구에 영향을 많이 받는 업종이자, 최근 다양한 기사와 자료 분석을 통해 접한 편의점의 현실을 고려해보고 '편의점'을 분석 대상으로 잡았다. ➡ 왜 편의점인가? 편의점은 늘어난 공공요금(전기료, 가스비)과 최저임금 인상 및 주휴수당 제도로 인해 고정비 부담이 크게 작용 점포 오픈 결정을 내리기 위해 브랜드로부터 주어지는 정보는 (주로 구두로 전해지.. 2023. 9. 8.
[pandas 응용실습] 강남구 주차 현황 시각화 공공데이터 시각화 연습용 🔎 데이터 전처리 라이브러리 import import requests import pandas as pd import warnings warnings.filterwarnings('ignore') 데이터 가져오기 df = pd.read_csv("./accessibility_data/seoul_parkinglot.csv") df.head() 주요 컬럼 데이터 타입 변경 & 주차장 확보율을 소수점 아래 2번째 자리까지 df2 = df2.astype({'자동차등록대수 (대)':'int', '주차면수 (면수)':'int', '주차장확보율 (%)':'float'}) df2['주차장확보율 (%)'] = round(df2['주차장확보율 (%)'], 2) df2.head() 🔎 데이터 시각화 자.. 2023. 8. 28.
[pandas 응용실습] 행정동별 지하철 총 승차 승객수 / 시간별 시각화 최종 결과물 API 데이터 불러오기 공공데이터 포털의 API는 1000페이지씩 데이터를 따로 가져올 수 있다. 반복문을 사용하여 1000페이지 단위로 url을 수정하며 데이터를 가져온다 requests.get(url) 로 Json 데이터 가져오기 json 데이터에서 필요한 부분만 get data.get('가져올 키값1', { }).get('가져올 키값2', [ ]) { } 와 [ ] 는 데이터 형태에 따라 일치하는 것을 기입 get 한 값을 Item에 저장 반복문 종료를 위해, item 이 없으면 break 되도록 함 item을 dataframe으로 변환하고, 변환된 df를 data_frames 리스트에 저장 최종적으로 data_frames에 들어있는 데이터프레임을 concat concat한 최종 데이터.. 2023. 8. 28.
728x90