๐ฏ ์์ฝ์จ ์์ ํฉ ๊ฒ์
- ์์ฝ์จ ์์ํฉ ๊ฒ์ (์ข
์ข
์์ฝ์จ ๋งจ-ํํธ๋ ๊ฒ์ )์ด๋ผ๊ณ ๋ ๋ถ๋ฆฌ๋ฉฐ,
๋ ๋ ๋ฆฝ์ ์ธ ๊ทธ๋ฃน ๊ฐ์ ์ฐจ์ด๋ฅผ ํ๊ฐํ๊ธฐ ์ํ ๋น๋ชจ์์ ๋ฐฉ๋ฒ์ด๋ค. - ๋ฐ์ดํฐ๋ฅผ ์ ๊ท๋ถํฌ๋ก ๊ฐ์ ํ์ง ์๊ณ , ๋ฐ์ดํฐ์ ์์๋ฅผ ์ฌ์ฉํ์ฌ ๋ ๊ทธ๋ฃน๊ฐ ์ฐจ์ด๋ฅผ ๊ฒ์ ํ๋ค.
- ์ฃผ๋ก ๋ ๊ทธ๋ฃน์ ์ค์๊ฐ์ ์ฐจ์ด๋ฅผ ๋น๊ตํ๋๋ฐ ์ฌ์ฉ๋๋ค.
๋ณดํต ๋ง์ ๊ฒฝ์ฐ, ์ํ ๋ฐ์ดํฐ๋ค์ด ์ ๊ท ๋ถํฌ๋ก๋ถํฐ ์ถ์ถ๋์๋ค๊ณ ๋ณด๊ฑฐ๋,
์ํ ์๊ฐ ๋ง์ผ๋ฉด ์ํ ํ๊ท ์ ์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ธฐ ๋๋ฌธ์(์ค์ฌ๊ทนํ์ ๋ฆฌ์ ๋ฐ๋ผ) t-test๋ ANOVA๊ฐ ๋๋ฆฌ ์ฐ์ธ๋ค.
๊ทธ๋ฐ๋ฐ, ์ด๋ฐ ๊ฐ์ ์ ๋ง์กฑํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ์๋ ๋ชจ์ ๊ฒ์ ๋ฒ์ด ์๋ ๋น๋ชจ์ ๊ฒ์ ๋ฒ์ ์ฌ์ฉํด์ผ ํ๋ค.
โถ๏ธ ๋ชจ์ง๋จ์ ๋ถํฌ๊ฐ ์ ๊ท ๋ถํฌ๋ผ๊ณ ํ์ ํ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ
โถ๏ธ ๋ฐ์ดํฐ ์ํ ์๊ฐ ๋๋ฌด ์ ์ ๊ฒฝ์ฐ
์ด๋ฐ ๊ฒฝ์ฐ independent t-test๋ฅผ ๋์ฒดํ ์ ์๋ค๊ณ ์๋ ค์ง ์์ฝ์จ ์์ํฉ ๊ฒ์ (Wilcoxon rank sum test)์ ์ฌ์ฉํ๋ค.
๋ ๋ฆฝ์ ์ผ๋ก ์ถ์ถ๋ ๋ ํ๋ณธ ์ง๋จ์ ๋น๊ตํจ์ ์์ด ์ ๊ท์ฑ ๊ฐ์ ์ ๋์ง ์๊ณ ํต๊ณ์ ์ธ ๋น๊ต๋ฅผ ํ ์ ์๋ ๊ธฐ๋ฒ์ผ๋ก ์์ฝํ ์ ์๋ค.
โ๏ธ ์ ๋ฆฌ
๋ฐ์ดํฐ์ ๋ถํฌ์ ๋ํ ๊ฐ์ ์ ํ์ง ์๊ธฐ ๋๋ฌธ์ ๋ค์ํ ์ํฉ์์ ์ ์ฉํ๊ฒ ์ฌ์ฉํ ์ ์์ผ๋ฉฐ,
ํนํ ๋ฐ์ดํฐ๊ฐ ์ ๊ท์ฑ์ ๋ฐ๋ฅด์ง ์๊ฑฐ๋ ์ด์์น๊ฐ ํฌํจ๋ ๊ฒฝ์ฐ์๋ ์ ๋ขฐํ ์ ์๋ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํ์ฌ ์ ์ฐ์!
์ฃผ์ ํน์ง ๋ฐ ์ฌ์ฉ ์ฌ๋ก
- ๋น๋ชจ์ ๊ฒ์ :
- ๋ฐ์ดํฐ๊ฐ ์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ฅด์ง ์๋ ๊ฒฝ์ฐ์๋ ์ฌ์ฉํ ์ ์๋ค.
- ๋ฐ์ดํฐ์ ์ค์ ๊ฐ์ด ์๋ ์์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๊ธฐ ๋๋ฌธ์ ์ด์์น(outliers)์ ๋ ๋ฏผ๊ฐํ๋ค.
- ๋
๋ฆฝ ํ๋ณธ:
- ๋ ๊ทธ๋ฃน์ ์๋ก ๋ ๋ฆฝ์ ์ด์ด์ผ ํ๋ค.
- ๊ฐ ๊ทธ๋ฃน์ ๋ฐ์ดํฐ๋ ๋ ๋ฆฝ์ ์ผ๋ก ์ํ๋ง๋๋ค.
- ๋์ฒด t-๊ฒ์ :
- ์ ๊ท์ฑ์ ๊ฐ์ ํ์ง ์๋ t-๊ฒ์ ์ ๋์์ผ๋ก ์ฌ์ฉ๋๋ค.
- ๋ ๊ทธ๋ฃน ๊ฐ์ ์ค์๊ฐ ์ฐจ์ด๋ฅผ ๊ฒ์ ํ๋ค.
์ํ ๋ฐฉ๋ฒ
- ๋ฐ์ดํฐ ๊ฒฐํฉ ๋ฐ ์์ํ : ๋ ๊ทธ๋ฃน์ ๋ฐ์ดํฐ๋ฅผ ๊ฒฐํฉํ๊ณ ๊ฐ ๋ฐ์ดํฐ์ ์์๋ฅผ ๋งค๊น
- ์์ ํฉ ๊ณ์ฐ : ๊ฐ ๊ทธ๋ฃน์ ์์ ํฉ์ ๊ณ์ฐ
- ํต๊ณ๋ ๊ณ์ฐ: ์์ ํฉ์ ์ฌ์ฉํ์ฌ ๊ฒ์ ํต๊ณ๋์ ๊ณ์ฐํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก p-๊ฐ์ ๊ตฌํจ
๐ ํ์ด์ฌ์์๋ scipy ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ mannwhitneyu ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ์์ฝ์จ ์์ํฉ ๊ฒ์ ์ ์ํ
alternative ํ๋ผ๋ฏธํฐ
- 'two-sided': ๋ ๊ทธ๋ฃน ๊ฐ์ ์ฐจ์ด๊ฐ ์๋์ง ๊ฒ์ (๊ธฐ๋ณธ๊ฐ)
- 'less': ์ฒซ ๋ฒ์งธ ๊ทธ๋ฃน์ด ๋ ๋ฒ์งธ ๊ทธ๋ฃน๋ณด๋ค ์๋ค๋ ๊ฐ์ค ๊ฒ์
- 'greater': ์ฒซ ๋ฒ์งธ ๊ทธ๋ฃน์ด ๋ ๋ฒ์งธ ๊ทธ๋ฃน๋ณด๋ค ํฌ๋ค๋ ๊ฐ์ค ๊ฒ์
import numpy as np
from scipy.stats import mannwhitneyu
# ๋ ๊ทธ๋ฃน์ ๋ฐ์ดํฐ
group1 = np.array([12, 15, 14, 10, 9, 8, 13, 14])
group2 = np.array([7, 8, 6, 9, 5, 6, 7, 8])
# ์์ฝ์จ ์์ํฉ ๊ฒ์ ์ํ
stat, p_value = mannwhitneyu(group1, group2, alternative='two-sided')
print("๊ฒ์ ํต๊ณ๋:", stat)
print("p-๊ฐ:", p_value)
๊ฒฐ๊ณผ ํด์
- ๊ฒ์ ํต๊ณ๋ (stat):
- ์์ ํฉ์ ๊ธฐ๋ฐ์ผ๋ก ๊ณ์ฐ๋ ๊ฒ์ ํต๊ณ๋์ผ๋ก, ๋ ๊ทธ๋ฃน์ ๋ฐ์ดํฐ ๋ถํฌ ์ฐจ์ด๋ฅผ ๋ํ๋ธ๋ค
- p-๊ฐ (p_value):
- p-๊ฐ์ ๊ท๋ฌด๊ฐ์ค์ด ์ฐธ์ผ ๋ ๊ด์ฐฐ๋ ๊ฒฐ๊ณผ๊ฐ ๋ฐ์ํ ํ๋ฅ ์ด๋ค
- ์ผ๋ฐ์ ์ผ๋ก p-๊ฐ์ด 0.05๋ณด๋ค ์์ผ๋ฉด ๊ท๋ฌด๊ฐ์ค(๋ ๊ทธ๋ฃน์ ์ค์๊ฐ์ด ๊ฐ๋ค)์ ๊ธฐ๊ฐํ๊ณ , ๋ ๊ทธ๋ฃน ๊ฐ์ ์ ์๋ฏธํ ์ฐจ์ด๊ฐ ์๋ค๊ณ ํ๋จํ๋ค
์ฐธ๊ณ ์๋ฃ : https://angeloyeo.github.io/2021/11/17/ranksum.html#google_vignette
'Machine Learning > Statistics' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๊ธฐ์ด ํต๊ณ] ๋ถ์ฐ๋ถ์(Analysis of Variance, ANOVA) (0) | 2023.08.14 |
---|---|
[๊ธฐ์ด ํต๊ณ] ๋์ํ๋ณธ T-๊ฒ์ (0) | 2023.08.14 |
[๊ธฐ์ด ํต๊ณ] ๋ ๋ฆฝํ๋ณธ T-๊ฒ์ (0) | 2023.08.14 |