개인 활동/직무 공부
EDA(Exploratory Data Analysis)
황규진
2024. 7. 7. 10:30
개요
EDA(Exploratory Data Analysis)는 데이터를 탐색하고 이해하는 과정입니다.
목적
- 데이터의 구조 및 특성 이해하기
- 데이터의 크기, 변수의 종류, 결측값 등을 파악하여 데이터를 이해
- 변수 간 관계, 상관관계, 분포 등을 파악
- 데이터 품질 평가하기
- 이상치, 편향, 오류 등을 식별하여 데이터의 품질을 확인
- 가설 생성 및 검증하기
- 데이터 분석을 위한 가설을 수립하고 검증
- 데이터 기반의 통찰을 얻어 문제 해결을 위한 방향 설정
- 모델링을 위한 데이터 준비
- 데이터 변환, 특성 엔지니어링 등 모델링에 적합한 데이터 준비
주로 사용되는 기술
- 기술 통계량 분석(평균, 중앙값, 표준편차 등)
- 시각화(히스토그램, 산점도, 상관관계 매트릭스 등)
- 결측값 처리, 이상치 탐지
- 변수 간 관계 분석(상관관계, 교차분석 등)
결론
이를 통해 데이터의 특성을 이해하고 모델링을 위한 데이터 준비 과정을 수행할 수 있습니다.
EDA는 데이터 분석의 기초이자 필수 과정입니다.