데이터를 분석할 때 Segmentation, Breakdown과 같이 데이터를 쪼개보며 현상에 대한 원인을 진단하는 일은 기본적이다.
특히, 실험을 할 때 Experimental Data(실험군과 대조군)에서 데이터를 쪼개보며 비교하는 상황도 존재한다.
이때 유의해야할 사항이 심슨의 역설과 교란변수이다.
심슨의 역설이란?
- 여러 그룹의 자료를 합했을 때 결과와 각 그룹을 구분했을 때 결과가 다른 때로,
- 부분의 단순 합과 각 부분의 결과가 달라지는 것 자체가 '역설'적이다
예시
백신 A, B에 대한 사망률을 비교하는 상황을 가정한다.
- 전체 그룹을 묶어서 Treatment 효과를 파악하는 방법으로, 평균 처치 효과(Average Treatment Effect:ATE)라고 한다.
- ATE 결과는 다음과 같다. 👉 전체 그룹을 묶어서 비교하면 사망률이 더 낮은 A백신을 선택하는 것이 맞아보인다.
- 그런데, 백신을 투여하기 전 환자 상태에 따라 결과를 나누어 보면 다음과 같다.
- 환자 상태에 따라 사망률이 뒤바뀌는 결과를 확인할 수 있다. 환자 상태가 Mild, Severe할 때 모두 백신 B가 더 낮은 사망률을 보인다.
원인 분석
- 여기서 A, B 그룹의 유저 수 구성도 살펴보자.
- A 유저는 전체 1500명 중 Mild 유저가 1400명으로 93%의 비율을 차지하고 있다.
- B 유저는 전체 550명 중 Severe 유저가 500명으로, 전체의 91%를 차지하고 있다.
👉 즉, A, B 각각의 Treatment를 구성하는 상황에서 그룹의 가중치 때문에 그룹 전체 평균을 내었을 때 숫자에 왜곡이 발생한 것이다.
즉, 최소 한 개 이상의 confounding variable을 고려하지 않았거나,
실험 대상이 되는 그룹 내에서 confounding variable의 불균형적인 할당이 있었을 경우에 심슨의 역설이 발생한다.
▶︎ 스터디 출처 : https://medium.com/bondata/simpsons-paradox-and-confounding-190a26f9e039
728x90