개인 활동/직무 공부

EDA(Exploratory Data Analysis)

황규진 2024. 7. 7. 10:30

개요

EDA(Exploratory Data Analysis)는 데이터를 탐색하고 이해하는 과정입니다. 

 

목적

  1. 데이터의 구조 및 특성 이해하기
    • 데이터의 크기, 변수의 종류, 결측값 등을 파악하여 데이터를 이해
    • 변수 간 관계, 상관관계, 분포 등을 파악
  2. 데이터 품질 평가하기
    • 이상치, 편향, 오류 등을 식별하여 데이터의 품질을 확인
  3. 가설 생성 및 검증하기
    • 데이터 분석을 위한 가설을 수립하고 검증
    • 데이터 기반의 통찰을 얻어 문제 해결을 위한 방향 설정
  4. 모델링을 위한 데이터 준비
    • 데이터 변환, 특성 엔지니어링 등 모델링에 적합한 데이터 준비

 

주로 사용되는 기술

  • 기술 통계량 분석(평균, 중앙값, 표준편차 등)
  • 시각화(히스토그램, 산점도, 상관관계 매트릭스 등)
  • 결측값 처리, 이상치 탐지
  • 변수 간 관계 분석(상관관계, 교차분석 등)

 

결론

이를 통해 데이터의 특성을 이해하고 모델링을 위한 데이터 준비 과정을 수행할 수 있습니다.

EDA는 데이터 분석의 기초이자 필수 과정입니다.