개요
EDA(Exploratory Data Analysis)는 데이터를 탐색하고 이해하는 과정입니다.
목적
- 데이터의 구조 및 특성 이해하기
- 데이터의 크기, 변수의 종류, 결측값 등을 파악하여 데이터를 이해
- 변수 간 관계, 상관관계, 분포 등을 파악
- 데이터 품질 평가하기
- 이상치, 편향, 오류 등을 식별하여 데이터의 품질을 확인
- 가설 생성 및 검증하기
- 데이터 분석을 위한 가설을 수립하고 검증
- 데이터 기반의 통찰을 얻어 문제 해결을 위한 방향 설정
- 모델링을 위한 데이터 준비
- 데이터 변환, 특성 엔지니어링 등 모델링에 적합한 데이터 준비
주로 사용되는 기술
- 기술 통계량 분석(평균, 중앙값, 표준편차 등)
- 시각화(히스토그램, 산점도, 상관관계 매트릭스 등)
- 결측값 처리, 이상치 탐지
- 변수 간 관계 분석(상관관계, 교차분석 등)
결론
이를 통해 데이터의 특성을 이해하고 모델링을 위한 데이터 준비 과정을 수행할 수 있습니다.
EDA는 데이터 분석의 기초이자 필수 과정입니다.
'개인 활동 > 직무 공부' 카테고리의 다른 글
Kubeflow (0) | 2024.07.10 |
---|---|
쿠버네티스(Kubernetes, k8s) (0) | 2024.07.10 |
Andon 모델링이란? (0) | 2024.07.07 |
RPA(Robotic Process Automation) - 사무 자동화 (0) | 2024.07.04 |
빅데이터 분석과 디지털 트랜스포메이션(DT) - 삼성 SDS (0) | 2024.07.04 |