본문 바로가기
Machine Learning/scikit-learn

[데이터 분할] 학습 세트와 검증 세트 분할 : train_test_split()

by ISLA! 2023. 8. 14.

 

 

✅ scikit-learn의 train_test_split() 함수를 사용하여 데이터를 학습 세트와 검증 세트로 분할

  • train_test_split() 함수는 데이터를 학습에 사용할 부분과 모델을 평가하는 데 사용할 부분으로 분할하기 위해 사용
  • 데이터의 일부를 검증 세트로 분리하여 학습한 모델의 성능을 평가함으로써, 과적합을 방지하고 일반화 성능을 확인

 

 

✅ 사용법

1. sklearn.model_selection 모듈에서 train_test_split 을 로드

2. train_test_split() 함수를 호출하여 train_x, train_y 데이터를 x_train, x_valid, y_train, y_valid로 분할

from sklearn.model_selection import train_test_split

x_train, x_valid, y_train, y_valid = train_test_split(train_x, train_y, test_size = 0.3, random_state = 42)

👉 x_train, x_valid, y_train, y_valid 데이터는 순서대로
: 학습 세트의 독립 변수, 검증 세트의 독립 변수, 학습 세트의 종속 변수, 검증 세트의 종속 변수를 나타냄

 

 

👉 파라미터

  • 첫 번째 파라미터 : 피처 데이터 세트(x)
  • 두 번째 파라미터 : 레이블 데이터 세트(y)
  • test_size : 검증 세트의 크기, 전체 데이터에서 얼마나의 비율을 검증 세트로 할당할지 결정
    • 디폴트는 0.25
  • random_state : 데이터를 분할할 때 셔플링을 제어하기 위한 시드 값
    • 학습/예측을 수행할 때마다 동일한 데이터 세트로 분리하기 위함

 

 

728x90