[Mini Project] 7. 모델링 Baseline Code (feat. Trouble Shooting 🤨)

🚀 회귀 예측을 위한 모델 선정 : LightGBM

이론적으로 적은 데이터 셋(통상 행 개수 10,000개 이하)에 대한 과적합 우려가 있는 모델이지만, 현재 널리 사용되고 있는 인기있는 모델이기도 하며 성능이 뛰어나 LightGBM을 기본적으로 채택
이후, 가능하면 다른 알고리즘을 선택하여 예측 성능을 비교해 볼 예정

▶︎ LightGBM의 하이퍼 파라미터 선택

Gradient Boosting 프레임워크로 트리 기반 학습 알고리즘으로, 결정트리 모델과 개념이 이어지는 하이퍼 파라미터들이 다수 존재한다
모델 최적화를 위해 주요 하이퍼 파라미터를 탐색, 선정하기로 했다 (✔ 된 것이 잠정 채택된 하이퍼 파라미터!)
선정된 하이퍼 파라미터는 RandomSearchCV를 이용해, 최적의 파라미터를 도출할 것이다

✔ max_depth	tree의 최대 깊이로, 가장 먼저 튜닝해야할 하이퍼 파라미터	* 과적합 조절 * 가지치기 함 * 보통 3~12의 값 사용
min_data_in_leaf	Leaf가 가지고 있는 최소한의 레코드 수	* 과적합 조절 * 디폴트 = 20
feature_fraction	Tree를 만들 때, 각 iteration 반복에서 파라미터 중 (80%) 를 랜덤하게 선택	Boosting이 랜덤 포레스트일 경우, (0.8)
bagging_fraction	매번 iteration을 돌때 사용되는 데이터 일부를 선택하는데 트레이닝 속도를 높이고 과적합 방지할 때 주로 사용
early_stopping_round	모델은 어떤 validation 데이터 중 하나의 지표가 early_stopping_round에서 향상되지 않으면 학습을 중단	* 지나친 iteration을 줄이는데 도움이 됨 * 속도 향상에 도움이 됨.
min_gain_to_split	분기하기 위해 필요한 최소 gain 으로 tree에서 분기의 수를 조절할 때 사용
✔ num_leaves
✔ learning_rate
✔ num_iterations (사이킷런 : n_estimators)	* number of iterations : 부스팅 이터레이션 수로, 모델 성능과 학습시간, 램 사용량에 영향을 줌 * 큰 값을 넣은 후, early stopping 과 함께 사용하는 것을 추천	* early stopping 없이 이 값을 크게 넣으면 과대 적합 위험 * 보통 50 정도의 값을 사용
✔ early_stopping_rounds

▶︎ Modeling Baseline Code 작성 (향후 수정 및 발전 예정!)

k-Fold 교차 검증을 수행
RandomSearchCV를 통한 최적의 하이퍼 파라미터 탐색
LightGBM을 이용해 예측 모델링
예측 성능 평가 지표는 RMSE, MSE 를 기본적으로 확인

X = data[['점포수', '시간대1',
       '시간대2', '시간대3', '시간대4', '시간대5', '분기_1', '분기_2', '분기_3', '총 상주인구 수',
       '총 가구 수', '총_직장인구_수', '아파트_단지_수', '아파트_가격_1_억_미만_세대_수',
       '아파트_가격_1_억_세대_수', '아파트_가격_2_억_세대_수', '아파트_가격_3_억_세대_수',
       '아파트_가격_4_억_세대_수', '아파트_가격_5_억_세대_수', '아파트_가격_6_억_이상_세대_수', '총_생활인구_수',
       '시간대_생활인구_수', '월요일_생활인구_수', '화요일_생활인구_수', '수요일_생활인구_수', '목요일_생활인구_수',
       '금요일_생활인구_수', '토요일_생활인구_수', '일요일_생활인구_수', '집객시설_수', '관공서_수', '은행_수',
       '백화점_수', '숙박_시설_수', 'area', '연령대_10_생활인구_수', '연령대_20_생활인구_수',
       '연령대_30_생활인구_수', '연령대_40_생활인구_수', '연령대_50_생활인구_수', '연령대_60_이상_생활인구_수',
       '배후지_아파트_단지_수', '배후지_아파트_가격_1_억_미만_세대_수', '배후지_아파트_가격_1_억_세대_수',
       '배후지_아파트_가격_2_억_세대_수', '배후지_아파트_가격_3_억_세대_수', '배후지_아파트_가격_4_억_세대_수',
       '배후지_아파트_가격_5_억_세대_수', '배후지_아파트_가격_6_억_이상_세대_수', '시간대_버스_승하차승객수',
       '시간대_지하철_승하차승객수', '버스정류장_수', '지하철역_수']]
y = data['매출']


# k-폴드 교차 검증
num_folds = 5
kf = KFold(n_splits= num_folds, shuffle=True, random_state=42)


# LightGBM 모델 초기화
params = {
    'boosting_type': 'gbdt',
    'objective': 'regression',
    'metric': 'rmse',
    'num_leaves': 31,
    'learning_rate': 0.05,
    'feature_fraction': 0.9
}

# 특성 중요도 리스트 초기화
feature_importance_list = []

# 결과 스코어
rmse_scores = []  # RMSE 스코어를 저장할 리스트
mae_scores = []   # MAE 스코어를 저장할 리스트
best_params_list = []  # 각 fold에서의 최적 파라미터를 저장할 리스트

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


# 파라미터 범위 설정 (랜덤 서치용)
param_dist = {
    'objective': ['regression'],
    'metric': ['mse'],
    'num_leaves': list(range(7, 64)),              # 7부터 63까지
    'learning_rate': [0.01, 0.02, 0.03, 0.04, 0.05],  #0.01부터 0.05까지
    'n_estimators': list(range(200, 301)),         # 200부터 300까지
    'early_stopping_rounds': list(range(40, 51))  # 40부터 50까지
}


# K-Fold 교차 검증 수행
for train_index, val_index in kf.split(X_train):
    X_train_kf, X_val_kf = X.iloc[train_index], X.iloc[val_index]
    y_train_kf, y_val_kf = y.iloc[train_index], y.iloc[val_index]


    # 데이터셋
    train_data = lgb.Dataset(X_train_kf, label=y_train_kf)
    val_data = lgb.Dataset(X_val_kf, label=y_val_kf, reference=train_data)


    # 랜덤 서치를 사용한 LightGBM 모델 튜닝
    random_search = RandomizedSearchCV(
        lgb.LGBMRegressor(),
        param_distributions=param_dist,
        n_iter=10,
        scoring='neg_mean_squared_error',
        cv=kf,
        random_state=42,
        n_jobs=-1,
        verbose=1
    )

    evals = [(X_train_kf, y_train_kf),(X_val_kf, y_val_kf)]
    random_search.fit(X_train_kf, y_train_kf, eval_set = evals, eval_metric='rmse')
    best_params = random_search.best_params_

    bst = lgb.LGBMRegressor(**best_params)

    bst.fit(X_train_kf, y_train_kf,
            eval_set=evals,
            eval_metric='rmse',
            verbose=False)


    # 모델 평가 (RMSE)
    y_pred = bst.predict(X_val_kf)
    mse = mean_squared_error(y_val_kf, y_pred)
    rmse = np.sqrt(mean_squared_error(y_val_kf, y_pred))
    mae = mean_absolute_error(y_val_kf, y_pred)

    rmse_scores.append(rmse)
    mae_scores.append(mae)
    best_params_list.append(best_params)


# 교차 검증 결과 출력
mean_rmse = np.mean(rmse_scores)
mean_mae = np.mean(mae_scores)
print(f'평균 RMSE: {mean_rmse}')
print(f'평균 MAE: {mean_mae}')

# K-fold 교차 검증에서 얻은 최적 파라미터 출력
print("Best Hyperparameters for K-fold CV:")
for i, params in enumerate(best_params_list):
    print(f'Fold {i + 1}: {params}')

▶︎ Issue 1

모델링 경험이 부족해, 하이퍼 파라미터를 선정하고, 그 범위를 지정하는 것이 어려웠다.
다같이 공식문서 및 구글링을 통해 스터디를 하여 하이퍼 파라미터를 정했다.
이 외, 다양한 블로그와 chatGPT 등을 활용하여 학습했다

▶︎ Issue 2

위에 Baseline Code 를 짜는데 자꾸만 다음과 같은 에러가 발생했다.
early stopping 파라미터는 빼놓을 수 없는 중요한 요소였기에, 이 문제를 해결하기 위해 다양한 문서를 찾아 스터디했다.

For early stopping, at least one dataset and eval metric is required for evaluation

그 결과, eval_set 에 문제가 있음을 확인
⇒ Kfold와 train_test_split에서 validation set 구성에서 잘못된 부분이 있는지 의심
LightGBM을 활용한 다양한 샘플 코드와 파이썬 머신러닝 교과서에서 학습용 코드를 참고하며 model fit 부분을 검토
⇒ LGBM은 eval_set을 [(X_train, y_train),(X_valid, y_valid)] 로 지정해줘야 함을 확인
이후, 모델 학습이 순조롭게 진행되었다.

728x90

저작자표시 비영리 변경금지

'Projects > 🏪 Convenience Store Location Analysis' 카테고리의 다른 글

[Mini Project] 8. Feature Engineering (이상치와 분포 탐색) (0)	2023.09.13
[프로젝트 스터디] Feature Engineering (0)	2023.09.13
[Mini Project] 전처리 후, 중간점검 (23.09.11) (0)	2023.09.12
[Mini Project] 6. 전체 상권 데이터 + 대중교통 승하차 데이터 통합 (0)	2023.09.11
[Mini Project] 5. 대중교통(지하철, 버스) 위치 데이터 병합 (0)	2023.09.11

A PIECE OF JOY

[Mini Project] 7. 모델링 Baseline Code (feat. Trouble Shooting 🤨)

🚀 회귀 예측을 위한 모델 선정 : LightGBM

▶︎ LightGBM의 하이퍼 파라미터 선택

▶︎ Modeling Baseline Code 작성 (향후 수정 및 발전 예정!)

▶︎ Issue 1

▶︎ Issue 2

'Projects > 🏪 Convenience Store Location Analysis' 카테고리의 다른 글

티스토리툴바

[Mini Project] 7. 모델링 Baseline Code (feat. Trouble Shooting 🤨)

🚀 회귀 예측을 위한 모델 선정 : LightGBM

▶︎ LightGBM의 하이퍼 파라미터 선택

▶︎ Modeling Baseline Code 작성 (향후 수정 및 발전 예정!)

▶︎ Issue 1

▶︎ Issue 2

'Projects > 🏪 Convenience Store Location Analysis' 카테고리의 다른 글

관련글

티스토리툴바