[Home Credit Default Risk] 5. 이전 대출이력 데이터 EDA, FE 수행(수정중)

📍데이터 설명 : Previous_Application

이 케글 대회는 대출 정보에 따라 연체 여부를 예측할 수 있는 메인 train 데이터 외에, 고객 별로 이전 대출 이력 현황 데이터도 제공하고 있다.
이전 대출이력 데이터를 가공하여, 메인 데이터 셋과 결합하여 예측 결과가 나아지는지 확인해보자.
자세한 데이터셋과 컬럼 설명은 케글에서 확인하세요!

데이터 로딩

prev = pd.read_csv('previous_application.csv')
print(prev.shape, apps.shape)

메인 데이터셋과 조인하여 key(ID) 값 기준으로 체크

메인 데이터셋인 apps 데이터와 조인
이때, 키 값인 SK_ID_CURR 기준으로 merge 하되, indicator를 설정하여 두 데이터의 id 차이가 어떻게 나는지 확인한다.

prev_app_outer = prev.merge(apps['SK_ID_CURR'], on = 'SK_ID_CURR', how = 'outer', indicator = True) #indicator 어느쪽 누락이 있는지 확인
prev_app_outer['_merge'].value_counts()

주요 Feature EDA

▶︎ 숫자형 피쳐들의 분포 확인(TARGET 값에 따라)

# prev와 메인 데이터셋의 target, ID 값을 merge
app_prev= prev.merge(app_train[['SK_ID_CURR', 'TARGET']], on = 'SK_ID_CURR', how = 'left')

# 연속형 변수 분포 시각화
def show_hist_by_target(df, columns):
    cond_1 = (df['TARGET'] == 1)
    cond_0 = (df['TARGET'] == 0)
    
    for column in columns:
        fig, axs = plt.subplots(nrows=1, ncols=2, figsize=(12, 4), squeeze=False)
        sns.violinplot(x='TARGET', y=column, data=df, ax=axs[0][0] )
        sns.distplot(df[cond_0][column], ax=axs[0][1], label='0', color='blue')
        sns.distplot(df[cond_1][column], ax=axs[0][1], label='1', color='red') 

# 숫자형 컬럼만 추출
num_columns = app_prev.dtypes[app_prev.dtypes != 'object'].index.tolist()

# 시각화하지 않을 컬럼은 제외(Id, target)
num_columns = [column for column in num_columns if column not in ['SK_ID_CURR', 'SK_ID_PREV', 'TARGET']]

show_hist_by_target(app_prev, num_columns)

▶︎ 명목형 피쳐들의 분포 확인(TARGET 값에 따라)

object_columns = app_prev.dtypes[app_prev.dtypes=='object'].index.tolist()

# catplot으로 시각화
def show_category_by_target(df, columns):
    for column in columns:
        chart = sns.catplot(x=column, col="TARGET", data=df, kind="count")
        chart.set_xticklabels(rotation=65)
        
show_category_by_target(app_prev, object_columns)

▶︎ 파생변수 생성

중요한 변수들 간의 관계를 파악하여, 의미있을 것이라 기대하는 변수를 생성

# 대출 신청 금액과 실제 대출액/대출 상품금액 차이 및 비율
prev['PREV_CREDIT_DIFF'] = prev['AMT_APPLICATION'] - prev['AMT_CREDIT']
prev['PREV_GOODS_DIFF'] = prev['AMT_APPLICATION'] - prev['AMT_GOODS_PRICE']
prev['PREV_CREDIT_APPL_RATIO'] = prev['AMT_CREDIT']/prev['AMT_APPLICATION']
prev['PREV_ANNUITY_APPL_RATIO'] = prev['AMT_ANNUITY']/prev['AMT_APPLICATION']
prev['PREV_GOODS_APPL_RATIO'] = prev['AMT_GOODS_PRICE']/prev['AMT_APPLICATION']

분포 확인 시, 이상치가 있었을 경우 다음과 같이 이상치를 치환해준 후, 변수 생성

# 이상치 제거 후, 
prev['DAYS_LAST_DUE_1ST_VERSION'].replace(365243, np.nan, inplace= True)

# 첫번째 만기일과 마지막 만기일까지의 기간
prev['PREV_DAYS_LAST_DUE_DIFF'] = prev['DAYS_LAST_DUE_1ST_VERSION'] - prev['DAYS_LAST_DUE']

null 값이 많지만, 중요한 변수인 경우는 새롭게 생성(예 : 이자율)

# 월 납부액 * 횟수 =>> 총 대출상환액
all_pay = prev['AMT_ANNUITY'] * prev['CNT_PAYMENT']

# 이자올 = (대출상환액/대출액 -1) / 대출상환횟수
prev['PREV_INTERESTS_RATE'] = (all_pay / prev['AMT_CREDIT'] -1)/prev['CNT_PAYMENT']

▶︎ 기존 피쳐와 생성한 파생변수들을 기준으로 aggregation

이렇게 한 컬럼에 다양한 집계함수를 적용하는 이유는, 일단 어떤 컬럼이 유용할지 아직은 모르기 때문

# 새롭게 생성된 대출 신청액 대비 다른 금액 차이 및 비율로 aggregation 수행. >> 일단 어떤 값이 중요할지 모르니, 나열하고 나중에 확인, 삭제
agg_dict = {
     # 기존 컬럼. 
    'SK_ID_CURR':['count'],
    'AMT_CREDIT':['mean', 'max', 'sum'],
    'AMT_ANNUITY':['mean', 'max', 'sum'], 
    'AMT_APPLICATION':['mean', 'max', 'sum'],
    'AMT_DOWN_PAYMENT':['mean', 'max', 'sum'],
    'AMT_GOODS_PRICE':['mean', 'max', 'sum'],
    'RATE_DOWN_PAYMENT': ['min', 'max', 'mean'],
    'DAYS_DECISION': ['min', 'max', 'mean'],
    'CNT_PAYMENT': ['mean', 'sum'],
    # 가공 컬럼
    'PREV_CREDIT_DIFF':['mean', 'max', 'sum'], 
    'PREV_CREDIT_APPL_RATIO':['mean', 'max'],
    'PREV_GOODS_DIFF':['mean', 'max', 'sum'],
    'PREV_GOODS_APPL_RATIO':['mean', 'max'],
    'PREV_DAYS_LAST_DUE_DIFF':['mean', 'max', 'sum'],
    'PREV_INTERESTS_RATE':['mean', 'max']
}

prev_group = prev.groupby('SK_ID_CURR')
prev_amt_agg = prev_group.agg(agg_dict)
prev_amt_agg.columns = ['PREV_'+ ('_').join(column).upper() for column in prev_amt_agg.columns.ravel()]

728x90

저작자표시 비영리 변경금지

'Machine Learning > Case Study 👩🏻‍💻' 카테고리의 다른 글

[Pandas] 파이썬으로 이커머스 데이터 A/B test 결과 해석 (feat. 통계 검정) (1)	2024.01.30
[Home Credit Default Risk] 4. 이전 대출 이력 데이터 EDA 및 병합 (1)	2023.11.09
[Home Credit Default Risk] 3.주요 Feature들에 대한 feature engineering (0)	2023.10.31
[Home Credit Default Risk] 2. 주요 Feature에 대한 EDA (0)	2023.10.30
[Home Credit Default Risk] 1. 데이터 분포 시각화, 라벨 인코딩 (0)	2023.10.30

A PIECE OF JOY

[Home Credit Default Risk] 5. 이전 대출이력 데이터 EDA, FE 수행(수정중)

📍데이터 설명 : Previous_Application

데이터 로딩

메인 데이터셋과 조인하여 key(ID) 값 기준으로 체크

주요 Feature EDA

▶︎ 숫자형 피쳐들의 분포 확인(TARGET 값에 따라)

▶︎ 명목형 피쳐들의 분포 확인(TARGET 값에 따라)

▶︎ 파생변수 생성

▶︎ 기존 피쳐와 생성한 파생변수들을 기준으로 aggregation

'Machine Learning > Case Study 👩🏻‍💻' 카테고리의 다른 글

티스토리툴바

[Home Credit Default Risk] 5. 이전 대출이력 데이터 EDA, FE 수행(수정중)

📍데이터 설명 : Previous_Application

데이터 로딩

메인 데이터셋과 조인하여 key(ID) 값 기준으로 체크

주요 Feature EDA

▶︎ 숫자형 피쳐들의 분포 확인(TARGET 값에 따라)

▶︎ 명목형 피쳐들의 분포 확인(TARGET 값에 따라)

▶︎ 파생변수 생성

▶︎ 기존 피쳐와 생성한 파생변수들을 기준으로 aggregation

'Machine Learning > Case Study 👩🏻‍💻' 카테고리의 다른 글

관련글

티스토리툴바