본문 바로가기
Machine Learning

[탐색적 데이터 분석] 위치 추정과 변이 추정

by ISLA! 2023. 3. 9.

위치 추정과 변이 추정

탐색적 데이터 분석을 위해서는 Feature, 즉 각 컬럼이 어떤 의미를 지니고 있는지 알아야 한다.

feature 탐색을 위한 방법에는 두 가지 방법이 있다.

 

1. 위치 추정

데이터의 대푯값을 구하여 feature에 대한 요약 정보를 도출 : 예를 들어, 평균이 있음

대푯값의 종류는 아래와 같다.

 

(1) 평균 : mean

▶︎ 모든 값을 더해 갯수로 나눈 값

 

(2) 가중 평균 : weighted mean

▶︎ (데이터값 x 가중치)의 합을 더하고, 가중치의 총합으로 나눈 값

▶︎ 신뢰도가 떨어지는 일정 값은 가중치를 낮게 주는 것임

 

(3)중간값 : median

▶︎ 데이터를 정렬하여 중간에 위치한 값

▶︎ 평균은 특잇값에 영향을 많이 받음 -> 따라서 중간값을 평균보다 많이 활용함.

 

(4) 절사평균(trimmed mean)

▶︎ 데이터를 정렬한 후, 양 끝에서 일정 갯수의 특잇값을 빼고, 남은 데이터로 평균을 구한 값

▶︎ 즉, 특잇값이 제외된 평균! 

 

 

2. 변이 추정

데이터의 분포를 파악하여 feature에 대한 요약 정보를 도출 : 예를 들어, 표준편차/분산이 있음

(1) 분산

▶︎ 평균과 각 데이터 간의 차를 제곱한 값의 합을 데이터 갯수로 나눈 값

 

(2) 표준편차 (std)

▶︎ 분산의 제곱근으로, 분산보다 많이 쓰임!

 

728x90