시각화 이용한 탐색적 데이터 분석(1)

황규진 2024. 7. 8. 13:29

💡탐색적 데이터 분석 (데이터 이해와 시각화 기법 추가)

feature 의 데이터를 어떻게 더 깊게 이해할 수 있을까?

1. 데이터 분석을 위한 위치 추정과 범위 추정

탐색적 데이터 분석의 세 번째, feature 분석을 위한 기본 탐색

위치 추정: 방대한 데이터의 대푯값을 구해서, 해당 feature의 일종의 요약 정보 도출
- 보통은 평균을 쓰면 되며(물론 평균이 가장 좋은 대푯값이 아닌 경우도 많음), 특정 튀는 수치가 있을 때만 조정해도 충분합니다!

변이 추정: 방대한 데이터의 분포 (밀집해 있는지, 퍼져 있는지)를 알아내어, 역시 해당 feature의 일종의 요약 정보 도출
- 수학에서 익힌 표준편차, 분산가 대표적인 분포 확인 값

평균 (mean)

가중 평균 (weighted mean)

중간값 (median) (가중 중간값도 가능)

절사평균 (trimmed mean)

EDA 에서는 중간값(또는 중앙값 이라고도 불리움)을 평균보다 중요하게 사용

분산(variance)

표준편차(standard deviation)

import pandas as pd
df = pd.DataFrame({
	'A': [1, 2, 3, 4, 5, 6],
	'C': [1, 2, 3, 4, 5, 100]
})
df

df.describe()