본문 바로가기
카테고리 없음

[심슨의 역설] Simpson’s Paradox

by ISLA! 2024. 1. 14.

데이터를 분석할 때 Segmentation, Breakdown과 같이 데이터를 쪼개보며 현상에 대한 원인을 진단하는 일은 기본적이다.

특히, 실험을 할 때 Experimental Data(실험군과 대조군)에서 데이터를 쪼개보며 비교하는 상황도 존재한다.

이때 유의해야할 사항이 심슨의 역설과 교란변수이다.

 

심슨의 역설이란?

  • 여러 그룹의 자료를 합했을 때 결과와 각 그룹을 구분했을 때 결과가 다른 때로,
  • 부분의 단순 합과 각 부분의 결과가 달라지는 것 자체가 '역설'적이다

예시

백신 A, B에 대한 사망률을 비교하는 상황을 가정한다.

 

  • 전체 그룹을 묶어서 Treatment 효과를 파악하는 방법으로, 평균 처치 효과(Average Treatment Effect:ATE)라고 한다.
  • ATE 결과는 다음과 같다. 👉 전체 그룹을 묶어서 비교하면 사망률이 더 낮은 A백신을 선택하는 것이 맞아보인다.

 

 

  • 그런데, 백신을 투여하기 전 환자 상태에 따라 결과를 나누어 보면 다음과 같다.
  • 환자 상태에 따라 사망률이 뒤바뀌는 결과를 확인할 수 있다. 환자 상태가 Mild, Severe할 때 모두 백신 B가 더 낮은 사망률을 보인다.

 


원인 분석

  • 여기서 A, B 그룹의 유저 수 구성도 살펴보자. 
  • A 유저는 전체 1500명 중 Mild 유저가 1400명으로 93%의 비율을 차지하고 있다.
  • B 유저는 전체 550명 중 Severe 유저가 500명으로, 전체의 91%를 차지하고 있다.

👉 즉, A, B 각각의 Treatment를 구성하는 상황에서 그룹의 가중치 때문에 그룹 전체 평균을 내었을 때 숫자에 왜곡이 발생한 것이다.

 

즉, 최소 한 개 이상의 confounding variable을 고려하지 않았거나,
실험 대상이 되는 그룹 내에서 confounding variable의 불균형적인 할당이 있었을 경우에 심슨의 역설이 발생한다.

 

 

▶︎ 스터디 출처 : https://medium.com/bondata/simpsons-paradox-and-confounding-190a26f9e039

728x90