본문 바로가기
Python/Data Visualization

[탐색적 데이터 분석] 수치형 데이터의 이해, 그래프로 표현하기

by ISLA! 2023. 3. 9.

데이터를 분석하고, 시각화하는 전반적인 과정에서 데이터의 분류를 이해하고 있으면 도움이 될 것!

크게 수치형과 범주형 데이터로 나뉨

수치형 데이터

수치형 데이터의 개념

(1) 연속형 데이터 : 특정 범위 안에 어떤 값(정수와 부동소수점)이 가질 수 있는 데이터

(2) 이산 데이터 : 정수만 가질 수 있는 데이터

▶︎  다섯 수치 요약(5 number summary) 로 간단히 수치형 데이터를 파악할 수 있음. 
- 최솟값
- 제 1사분위수 : 25%에 해당하는 값
- 중간값 (=제 3사분위수) : 50%에 해당하는 값
- 제 3사분위수 : 75%에 해당하는 값
- 최댓값

▶︎  왜 평균이 없을까?
- 특잇값이 평균에 포함되므로, 평균을 잘 보지 않기 때문!
- 이상치 특잇값(outlier, 극단값)은 직접 데이터를 탐색하며 확인하는 것이 좋음
▶︎ 수치형 데이터 살펴보기 : df.describe() 사용
- 아래 이미지가 사용 예시
- 다섯 수치 요약을 모두 확인 가능!

수치형 데이터 분포를 시각화하여 살펴보기

(1) 도수분포표 : 수치형 데이터를 구간을 나누어, 각 구간에 속하는 데이터 갯수(count)를 나타내는 표

(2) 히스토그램 : 도수분포표를 시각적으로 표현한 그래프

(3) plotly.graph_objects로 히스토그램 그린 예

👉 go.Histogram() 사용

👉 xbins = dict( start = 범위의 시작값, end = 범위의 끝값, size = 간격)

👉 marker_color : 그래프 색상 지정

👉 xaxis_title_text : x값 타이틀 기입

👉 bargap : 그래프(바) 사이의 간격

import plotly.graph_objs as go
fig = go.Figure()
fig.add_trace(
    go.Histogram(
        x=df['A'], name = 'A'
        ,xbins=dict(
                start = 0, end = 1.0, size= 0.05)
    ,marker_color = '#F50057'))

fig.update_layout(
    title_text = "big title"
    ,xaxis_title_text = "x title"
    ,yaxis_title_text = "y title"
,bargap = 0.2)
728x90