[🦀 게 나이 예측(3)] Baseline Modeling(Hist Gradient Boosting)

------>> 기본적인 전처리 코드는 앞 포스팅과 동일하게 이어집니다.

🚀 Hist Gradient Boosting 이란?

사이킷런의 Gradient Boosting 의 변형 중 하나로, 일반 Gradient Boosting(회귀/분류)과 비교하여 효율적인 구현을 제공
대규모 데이터셋에 적합하며, 대부분의 경우 Gradient Boosting보다 빠른 학습과 예측을 제공
장점
- 히스토그램 기반 분할 : 데이터를 히스토그램 기반 분할을 사용하여, 연속형 특성을 빠르게 이산화하고 이산적인 값을 사용하여 분할을 수행하여 학습과 예측을 가속화 함
- 메모리 효율적 : 히스토그램 기반으로 데이터를 압축/저장하여 메모리 요구량이 낮아짐
- 병렬 처리 : 멀티코어 CPU에서 병렬 처리가 가능
- 빠른 학습 및 예측 : 효율적인 분할 및 메모리 관리로 기존 Gradient Boosting 보다 빠른 학습과 예측 제공
- 분류 및 회귀 지원
- 스케일 불변성 : 특성 스케일에 덜 민감하며, 데이터 스케일 조정이 필요하지 않을 수 있음
Gradient Boosting 과 비교하여 모델 성능은 유사하거나 더 우수할 수 있으며, 메모리 및 처리 시간 측면에서 이점이 있음!

Modeling code

skf = KFold(n_splits = 10, random_state = 42, shuffle = True)

for i, (train_ix, test_ix) in enumerate(skf.split(X, Y)):
    X_train, X_test = X.iloc[train_ix], X.iloc[test_ix]
    Y_train, Y_test = Y.iloc[train_ix], Y.iloc[test_ix]
    
    print(f'----------------------------------------------------------------')

    # histGradientBoosting

    hist_md = HistGradientBoostingRegressor(loss = 'absolute_error',
                                            l2_regularization = 0.01,
                                            early_stopping = False,
                                            learning_rate = 0.01,
                                            max_iter = 1000,
                                            max_depth = 15,
                                            max_bins = 255,
                                            min_samples_leaf = 70,
                                            max_leaf_nodes = 115)
    hist_md.fit(X_train, Y_train)

    hist_pred_1 = hist_md.predict(X_test[X_test['generated'] == 1])
    hist_pred_2 = hist_md.predict(test_baseline)
    hist_score_fold = mean_absolute_error(Y_test[X_test['generated'] == 1], hist_pred_1)
    hist_cv_scores.append(hist_score_fold)
    hist_preds.append(hist_pred_2)

    print('Fold', i, '==> HistGradient of MAE is ==>', hist_score_fold)

728x90

저작자표시 비영리 변경금지

'Machine Learning > Case Study 👩🏻‍💻' 카테고리의 다른 글

[🦀 게 나이 예측(5)] 모델 성능 개선을 위한 Feature Engineering (2)	2023.09.25
[🦀 게 나이 예측(4)] Baseline Modeling(여러 모델 결과를 종합, 비교) (0)	2023.09.25
[🦀 게 나이 예측(2)] Baseline Modeling(Gradient Boosting) (0)	2023.09.24
[🦀 게 나이 예측(1)] 데이터 탐색 & EDA (0)	2023.09.24
[중고차 가격 예측(2)] EDA (0)	2023.09.17

A PIECE OF JOY

[🦀 게 나이 예측(3)] Baseline Modeling(Hist Gradient Boosting)

🚀 Hist Gradient Boosting 이란?

Modeling code

'Machine Learning > Case Study 👩🏻‍💻' 카테고리의 다른 글

티스토리툴바

[🦀 게 나이 예측(3)] Baseline Modeling(Hist Gradient Boosting)

🚀 Hist Gradient Boosting 이란?

Modeling code

'Machine Learning > Case Study 👩🏻‍💻' 카테고리의 다른 글

관련글

티스토리툴바