Machine Learning
[탐색적 데이터 분석] 위치 추정과 변이 추정
ISLA!
2023. 3. 9. 17:42
위치 추정과 변이 추정
탐색적 데이터 분석을 위해서는 Feature, 즉 각 컬럼이 어떤 의미를 지니고 있는지 알아야 한다.
feature 탐색을 위한 방법에는 두 가지 방법이 있다.
1. 위치 추정
데이터의 대푯값을 구하여 feature에 대한 요약 정보를 도출 : 예를 들어, 평균이 있음
대푯값의 종류는 아래와 같다.
(1) 평균 : mean
▶︎ 모든 값을 더해 갯수로 나눈 값
(2) 가중 평균 : weighted mean
▶︎ (데이터값 x 가중치)의 합을 더하고, 가중치의 총합으로 나눈 값
▶︎ 신뢰도가 떨어지는 일정 값은 가중치를 낮게 주는 것임
(3)중간값 : median
▶︎ 데이터를 정렬하여 중간에 위치한 값
▶︎ 평균은 특잇값에 영향을 많이 받음 -> 따라서 중간값을 평균보다 많이 활용함.
(4) 절사평균(trimmed mean)
▶︎ 데이터를 정렬한 후, 양 끝에서 일정 갯수의 특잇값을 빼고, 남은 데이터로 평균을 구한 값
▶︎ 즉, 특잇값이 제외된 평균!
2. 변이 추정
데이터의 분포를 파악하여 feature에 대한 요약 정보를 도출 : 예를 들어, 표준편차/분산이 있음
(1) 분산
▶︎ 평균과 각 데이터 간의 차를 제곱한 값의 합을 데이터 갯수로 나눈 값
(2) 표준편차 (std)
▶︎ 분산의 제곱근으로, 분산보다 많이 쓰임!
728x90