모델 성능에 비교 시각화각 모델 성능 시각화 [ 혼동 행렬 ]대출 데이터의 특징범주형(성별, 주거형태, 대출 목적 등)과 수치형(소득, 신용점수, 근속연수 등)이 섞여 있음.보통 "승인" 비율이 높고 "거절" 비율이 낮아 불균형 데이터임.변수 간 관계가 비선형적이고 복잡함. 따라서 변수 간 비선형 관계를 잘 잡아내고 변수 간 상호작용도 자동으로 고려한다고 알려져 있는 RandomForest, XGBoost 같은 트리 기반 앙상블 모델 성능이 다른 Logistic, KNN, SVC보다 더 잘 나온 것 같다고 생각한다.이후, 직접 SMOTE기법을 활용하여 원본 데이터를 활용하여 프로젝트를 다시 보완하도록 하겠다.
수동 Ordinal Encodingdf['person_education'].replace({ 'High School': 0, 'Associate': 1, 'Bachelor': 2, 'Master': 3, 'Doctorate':4}, inplace=True)수동 mappinggender_mapping = {'male': 0, 'female': 1}home_ownership_mapping = {'RENT': 0, 'OWN': 1, 'MORTGAGE': 2, 'OTHER': 3}loan_intent_mapping = {'PERSONAL': 0, 'EDUCATION': 1, 'MEDICAL': 2, 'VENTURE': 3, 'HOMEIMPROVEMENT': 4, 'DEBTCONSOLI..
데이터 정보 및 결측치 확인 데이터 탐색# 범주형/수치형 변수 나누기 cat_cols = [var for var in df.columns if df[var].dtypes == 'object']num_cols = [var for var in df.columns if df[var].dtypes != 'object']print(f'범주형 columns: {cat_cols}')print(f'수치형 columns: {num_cols}') 범주형 columns: ['person_gender', 'person_education', 'person_home_ownership', 'loan_intent', 'previous_loan_defaults_on_file']수치형 columns: ['person_age', 'per..
사용 데이터https://www.kaggle.com/datasets/taweilo/loan-approval-classification-data/data기준 : 'Loan Data' 검색 결과에서 Most Downloads / New 기준으로 선정 About Dataset1. Data SourceThis dataset is a synthetic version inspired by the original Credit Risk dataset on Kaggle and enriched with additional variables based on Financial Risk for Loan Approval data. SMOTENC was used to simulate new data points to enlarge..
( ) 제거하기 추가적인 커스텀 제거하기 - 숫자 뒤 배경을 추가하기/* 카테고리 글 수 커스텀 */#sidebar #category .tt_category .link_item .c_cnt,#sidebar #category .tt_category .link_sub_item .c_cnt { font-weight: initial; --tw-bg-opacity: .1; background: rgb(153 153 161 / var(--tw-bg-opacity)); color: rgb(153 153 161 / var(--tw-text-opacity)); --tw-text-opacity: .5; border-radius: 1rem; margin-left: 0.1rem; padding: 0.2rem 0..
[10일차 학습]Tableau Prep Builder 학습 동영상 (Link) Tableau Prep 학습 동영상 (Link) 10일차 과제4개년 치 매출, 지역별 관리자, 반품 데이터”를 하나로 묶기