Feature Selection1 [Feature Selection] BorutaPy & SHAP BorutaPy의 주요 특징랜덤 포레스트 기반 부트 스트랩 표본 사용 : 원래 데이터셋에서 무작위로 샘플링하여 모델을 여러번 학습하고 평균 중요도를 계산변수 중요도 평가 : 특정 특성의 중요도와 랜덤하게 생성된 그룹의 중요도를 평가변수 선택 : 모델에 가장 적합한 특성 세트를 찾을 수 있음 사용 과정1. 데이터 준비, 특성과 타겟 변수를 정의 : 실제 특성과 쉐도우 특성 생성📍 쉐도우 특성(shadow feature)이란?- 원본 데이터셋의 특성과 비슷한 특성을 생성하는 것👉 데이터의 무작위성을 유지하기 위해 원본 특성들과 동일한 분포를 가지도록 생성됨👉 원본 특성과 동일한 수의 특성이지만, 실제 데이터와는 무관하게 무작위로 생성됨- 만약 원본 특성이 예측에 중요하다면, boruta 알고리즘은 쉐도.. 2024. 5. 26. 이전 1 다음 728x90