✅ scikit-learn의 train_test_split() 함수를 사용하여 데이터를 학습 세트와 검증 세트로 분할
- train_test_split() 함수는 데이터를 학습에 사용할 부분과 모델을 평가하는 데 사용할 부분으로 분할하기 위해 사용
- 데이터의 일부를 검증 세트로 분리하여 학습한 모델의 성능을 평가함으로써, 과적합을 방지하고 일반화 성능을 확인
✅ 사용법
1. sklearn.model_selection 모듈에서 train_test_split 을 로드
2. train_test_split() 함수를 호출하여 train_x, train_y 데이터를 x_train, x_valid, y_train, y_valid로 분할
from sklearn.model_selection import train_test_split
x_train, x_valid, y_train, y_valid = train_test_split(train_x, train_y, test_size = 0.3, random_state = 42)
👉 x_train, x_valid, y_train, y_valid 데이터는 순서대로
: 학습 세트의 독립 변수, 검증 세트의 독립 변수, 학습 세트의 종속 변수, 검증 세트의 종속 변수를 나타냄
👉 파라미터
- 첫 번째 파라미터 : 피처 데이터 세트(x)
- 두 번째 파라미터 : 레이블 데이터 세트(y)
- test_size : 검증 세트의 크기, 전체 데이터에서 얼마나의 비율을 검증 세트로 할당할지 결정
- 디폴트는 0.25
- random_state : 데이터를 분할할 때 셔플링을 제어하기 위한 시드 값
- 학습/예측을 수행할 때마다 동일한 데이터 세트로 분리하기 위함
728x90
'Machine Learning > scikit-learn' 카테고리의 다른 글
[교차 검증] K-폴드 교차 검증 (0) | 2023.08.17 |
---|---|
[데이터 전처리] MinMaxScaler를 이용한 데이터 정규화 예제 (0) | 2023.08.17 |
[하이퍼 파라미터] hyper parameter란? (0) | 2023.08.17 |
[회귀] LinearRegression (선형 회귀 모델) & 회귀 평가 지표 (0) | 2023.08.15 |
[앙상블] RandomForestRegressor(랜덤포레스트) (2) | 2023.08.14 |