λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°
Machine Learning/scikit-learn

[λΆ„λ₯˜_μ„±λŠ₯ 평가 μ§€ν‘œ] 정확도와 였차 ν–‰λ ¬(이진 λΆ„λ₯˜)

by ISLA! 2023. 8. 18.

 

πŸ’œ λΆ„λ₯˜μ˜ μ„±λŠ₯평가 μ§€ν‘œ

  • 정확도
  • μ˜€μ°¨ν–‰λ ¬
  • 정밀도
  • μž¬ν˜„μœ¨
  • F1 μŠ€μ½”μ–΄
  • ROC AUC
πŸ‘‰ λΆ„λ₯˜λŠ” κ²°μ • 클래슀 κ°’ μ’…λ₯˜μ˜ μœ ν˜•μ— 따라
- 긍정/λΆ€μ •κ³Ό 같이 2개 κ²°κ΄κ°’λ§Œ κ°€μ§€λŠ” '이진 λΆ„λ₯˜'와
- μ—¬λŸ¬ 개의 κ²°μ • 클래슀 값을 κ°€μ§€λŠ” 'λ©€ν‹° λΆ„λ₯˜'κ°€ μžˆλ‹€.

πŸ‘‰ μœ„ μ§€ν‘œλ“€μ€ 특히 '이진 λΆ„λ₯˜'μ—μ„œ μ€‘μš”ν•œ μ§€ν‘œμ΄λ‹€.

 

πŸ’œ κ°€μž₯ 직관적인 '정확도'

  • μ‹€μ œ λ°μ΄ν„°μ—μ„œ 예츑 데이터가 μ–Όλ§ˆλ‚˜ 같은지λ₯Ό νŒλ‹¨ν•˜λŠ” μ§€ν‘œ
  • 전체 예츑 데이터 건 수 쀑 예츑 κ²°κ³Όκ°€ λ™μΌν•œ 데이터 건수 λΉ„μœ¨
  • 단, λΆˆκ· ν˜•ν•œ λ ˆμ΄λΈ” 데이터 μ„ΈνŠΈμ—μ„œλŠ” μ„±λŠ₯ 수치둜 μ‚¬μš©ν•  수 μ—†μŒ
    • 데이터 뢄포도가 κ· μΌν•˜μ§€ μ•Šμ€ 경우, λŒ€μΆ© μ˜ˆμΈ‘ν•΄λ„ 정확도가 λ†’μ•„μ Έλ²„λ¦¬λŠ” ν˜„μƒ λ°œμƒ
    • μ΄λŸ¬ν•œ 문제λ₯Ό κ·Ήλ³΅ν•˜κΈ° μœ„ν•΄ μ—¬λŸ¬ 가지 λΆ„λ₯˜μ§€ν‘œμ™€ ν•¨κ»˜ μ μš©ν•˜μ—¬ ML λͺ¨λΈ μ„±λŠ₯을 평가해야 ν•œλ‹€!

 

πŸ’œ μ˜€μ°¨ν–‰λ ¬(ν˜Όλ™ν–‰λ ¬; Confusion Matrix)

  • 예츑 였λ₯˜κ°€ μ–Όλ§ˆμΈμ§€μ™€ μ–΄λ– ν•œ μœ ν˜•μ˜ 예츑 였λ₯˜κ°€ λ°œμƒν•˜κ³  μžˆλŠ”μ§€λ₯Ό ν•¨κ»˜ λ‚˜νƒ€λƒ„

 

였차 ν–‰λ ¬

  • TN, FP, FN, TP 값을 λ‹€μ–‘ν•˜κ²Œ κ²°ν•©ν•΄ λΆ„λ₯˜ λͺ¨λΈ 예츑 μ„±λŠ₯의 였λ₯˜κ°€ μ–΄λ– ν•œ λͺ¨μŠ΅μœΌλ‘œ λ°œμƒν•˜λŠ”μ§€ μ•Œ 수 있음
    • True : μ˜ˆμΈ‘κ°’κ³Ό μ‹€μ œκ°’μ΄ κ°™μŒ
    • False : μ˜ˆμΈ‘κ°’κ³Ό μ‹€μ œκ°’μ΄ 닀름
    • Positive : 예츑 κ²°κ³Ό 값이 긍정/μ–‘μ„±
    • Negative : 예츑 κ²°κ³Ό 값이 λΆ€μ •/μŒμ„±

 

πŸ§‘‍πŸ’» μ‚¬μ΄ν‚·λŸ°μ—μ„œ μ‚¬μš© μ˜ˆμ‹œ

  • metrics의 confusion_matrix API ν™œμš©
  • μ‹€μ œκ°’κ³Ό μ˜ˆμΈ‘κ°’μ„ λ„£μœΌλ©΄, λ°°μ—΄ ν˜•νƒœλ‘œ κ²°κ³Όλ₯Ό 좜λ ₯
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, y_pred)

 

  • TN, FP, FN, TP κ°’μœΌλ‘œ 정확도, 정밀도, μž¬ν˜„μœ¨ 값을 μ•Œ 수 있음
  • κ²°κ³Ό ν–‰λ ¬ 값은 (μœ„ μ΄λ―Έμ§€μ˜) μ˜€μ°¨ν–‰λ ¬ μœ„μΉ˜μ™€ λ™μΌν•˜κ²Œ λ‚˜νƒ€λ‚¨
  • λΆˆκ· ν˜•ν•œ 이진 λΆ„λ₯˜ 데이터 μ„ΈνŠΈμ—μ„œλŠ” Positive 데이터 κ±΄μˆ˜κ°€ 맀우 μž‘κΈ° λ•Œλ¬Έμ—, 데이터에 κΈ°λ°˜ν•œ ML μ•Œκ³ λ¦¬μ¦˜μ€ Negative둜 μ˜ˆμΈ‘ν•˜μ—¬ 정확도가 λ†’μ•„μ§€λŠ” κ²½ν–₯이 λ°œμƒ
    • πŸ‘‰ Negative에 λŒ€ν•œ 예츑 μ •ν™•λ„λ§ŒμœΌλ‘œ λΆ„λ₯˜μ˜ 정확도가 맀우 λ†’κ²Œ λ‚˜νƒ€λ‚˜λŠ” 수치적 νŒλ‹¨ 였λ₯˜ μΌμœΌν‚΄
  • 이λ₯Ό λ³΄μ™„ν•˜κΈ° μœ„ν•΄, 정확도보닀 더 μ„ ν˜Έλ˜λŠ” 평가 μ§€ν‘œμΈ '정밀도'와 'μž¬ν˜„μœ¨'이 μžˆλ‹€!

 

 

λ‹€μŒ ν¬μŠ€νŒ…μ— 정밀도와 μž¬ν˜„μœ¨μ΄ μ΄μ–΄μ§‘λ‹ˆλ‹€

 

728x90