시각화 이용한 탐색적 데이터 분석(1)

2024. 7. 8. 13:29·빅데이터 분석가 양성과정/Python
목차
  1. 1. 데이터 분석을 위한 위치 추정과 범위 추정
  2. 위치 추정
  3. 변이 추정

💡탐색적 데이터 분석 (데이터 이해와 시각화 기법 추가)

  1. 데이터의 출처와 주제에 대해 이해
  2. 데이터의 크기 확인
  3. 데이터 구성 요소(feature)의 속성(특징) 확인
feature 의 데이터를 어떻게 더 깊게 이해할 수 있을까?

1. 데이터 분석을 위한 위치 추정과 범위 추정

탐색적 데이터 분석의 세 번째, feature 분석을 위한 기본 탐색

  • 위치 추정: 방대한 데이터의 대푯값을 구해서, 해당 feature의 일종의 요약 정보 도출
    • 보통은 평균을 쓰면 되며(물론 평균이 가장 좋은 대푯값이 아닌 경우도 많음), 특정 튀는 수치가 있을 때만 조정해도 충분합니다!
  • 변이 추정: 방대한 데이터의 분포 (밀집해 있는지, 퍼져 있는지)를 알아내어, 역시 해당 feature의 일종의 요약 정보 도출
    • 수학에서 익힌 표준편차, 분산가 대표적인 분포 확인 값

위치 추정

  • feature를 대표할 수 있는 대푯값을 찾는 것

평균 (mean)

  • 모든 값을 갯수로 나눈 값

가중 평균 (weighted mean)

  • 데이터 값 X 가중치의 총합을 다시 가중치의 총합으로 나눈 것
  • 예: 여러 기기로부터 가져온 데이터 중, 특정 기기는 신뢰도가 떨어질 경우, 해당 기기로부터 나온 데이터에는 가중치를 낮게 줌

중간값 (median) (가중 중간값도 가능)

  • 데이터를 정렬한 후 중간에 위치한 값을 취함
  • 평균은 특잇값(outlier)에 큰 영향을 받으므로, 특잇값에 큰 영향을 받지 않도록 중간값을 활용할 수 있음

절사평균 (trimmed mean)

  • 데이터를 정렬한 후, 양끝에서 일정 개수의 값들을 빼고, 남은 데이터를 기반으로 평균을 계산
  • 즉, 특잇값을 평균을 구할 때 제외하는 것임

EDA 에서는 중간값(또는 중앙값 이라고도 불리움)을 평균보다 중요하게 사용

 

 

변이 추정

분산(variance)

  • 평균과 각 데이터간의 차를 제곱한 값들의 합을 데이터 갯수로 나눈 값
  • σ2 : 모분산 (깊게 들어가면 샘플 분산은 n - 1 로 나누지만, 분산의 형태만 간략히 참고로 알아두기로 함)
  • μ : 평균
  • N : 데이터 갯수
  • xi : i 번째 데이터

표준편차(standard deviation)

  • 분산은 수치가 너무 커서, 분산의 제곱근 (루트를 씌운 값)
  • σ : 모 표준편차 (깊게 들어가면 샘플 표준편차는 샘플 분산이 n 이 아닌, n - 1 로 나눈 값이므로 이를 제곱근한 값)

    
import pandas as pd
df = pd.DataFrame({
'A': [1, 2, 3, 4, 5, 6],
'C': [1, 2, 3, 4, 5, 100]
})
df

    
df.describe()

'빅데이터 분석가 양성과정 > Python' 카테고리의 다른 글

시각화 이용한 탐색적 데이터 분석(3)  (0) 2024.07.08
시각화 이용한 탐색적 데이터 분석(2)  (1) 2024.07.08
plotly - 막대 그래프 / 세부 요소 변경  (1) 2024.07.08
plotly - 선 그래프  (0) 2024.07.08
plotly  (0) 2024.07.08
  1. 1. 데이터 분석을 위한 위치 추정과 범위 추정
  2. 위치 추정
  3. 변이 추정
'빅데이터 분석가 양성과정/Python' 카테고리의 다른 글
  • 시각화 이용한 탐색적 데이터 분석(3)
  • 시각화 이용한 탐색적 데이터 분석(2)
  • plotly - 막대 그래프 / 세부 요소 변경
  • plotly - 선 그래프
분석가 황규진
분석가 황규진
공공기관 위험평가관련 부서에서 근무하고 있습니다.
글쓰기 관리
분석가 황규진
HGJ's Insight
홈
|
로그인
  • 전체 글 567
    • 개인 활동(일상) 3
      • 독서 2
      • 근황 공유 1
    • 개인 활동(공부) 53
      • Tableau Bootcamp 10
      • 금융 공부 9
      • 직무 공부 22
      • 강의 12
    • 개인프로젝트 4
      • 신용카드 연체 평가 모델 0
      • 대출 승인 여부 예측 모델 4
    • 자격증 7
      • 빅데이터분석기사 1
      • 정보처리기사 1
      • 경영정보시각화 1
      • SQL개발자(SQLD) 1
      • 데이터 분석 준전문가(ADsP) 1
      • 통계적품질관리(SPC) 1
      • AICE Associate 1
    • 코드 정리 11
      • 코드 정리 - Tistory 8
      • 코드 정리 - Python 3
    • 코딩테스트연습 116
      • SQL_프로그래머스 116
    • 취업사관학교 9기 199
      • 모닝스쿨 54
      • 스스로 모닝스쿨 125
      • 직무 스터디 20
      • 반성과 다짐 0
    • 빅데이터 분석가 양성과정 173
      • Python 88
      • Python - 머신러닝 26
      • Python - 딥러닝 31
      • PyQt 4
      • JavaScript 10
      • MySQL 13
      • Node.js 1
hELLO· Designed By정상우.v4.6.1
분석가 황규진
시각화 이용한 탐색적 데이터 분석(1)
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.