위치 추정과 변이 추정
탐색적 데이터 분석을 위해서는 Feature, 즉 각 컬럼이 어떤 의미를 지니고 있는지 알아야 한다.
feature 탐색을 위한 방법에는 두 가지 방법이 있다.
1. 위치 추정
데이터의 대푯값을 구하여 feature에 대한 요약 정보를 도출 : 예를 들어, 평균이 있음
대푯값의 종류는 아래와 같다.
(1) 평균 : mean
▶︎ 모든 값을 더해 갯수로 나눈 값
(2) 가중 평균 : weighted mean
▶︎ (데이터값 x 가중치)의 합을 더하고, 가중치의 총합으로 나눈 값
▶︎ 신뢰도가 떨어지는 일정 값은 가중치를 낮게 주는 것임
(3)중간값 : median
▶︎ 데이터를 정렬하여 중간에 위치한 값
▶︎ 평균은 특잇값에 영향을 많이 받음 -> 따라서 중간값을 평균보다 많이 활용함.
(4) 절사평균(trimmed mean)
▶︎ 데이터를 정렬한 후, 양 끝에서 일정 갯수의 특잇값을 빼고, 남은 데이터로 평균을 구한 값
▶︎ 즉, 특잇값이 제외된 평균!
2. 변이 추정
데이터의 분포를 파악하여 feature에 대한 요약 정보를 도출 : 예를 들어, 표준편차/분산이 있음
(1) 분산
▶︎ 평균과 각 데이터 간의 차를 제곱한 값의 합을 데이터 갯수로 나눈 값
(2) 표준편차 (std)
▶︎ 분산의 제곱근으로, 분산보다 많이 쓰임!
728x90
'Machine Learning' 카테고리의 다른 글
[DecisionTreeRegressor] 회귀 트리 모델 (0) | 2023.08.14 |
---|---|
[pingouin] 통계분석 결과를 데이터프레임으로 확인할 수 있는 라이브러리 (0) | 2023.08.11 |
[주피터/파이썬] os.listdir() 함수 (0) | 2023.03.07 |
[주피터노트북 - 파이썬] try / except 로 예외처리 (0) | 2023.03.06 |
JSON 형식 파일 읽기 / json.load() (0) | 2023.03.06 |