11. 상관관계를 확인하기 위해 주로 사용되는 그래프 타입
- feature 간의 연관 관계 분석
- 주요 그래프 타입
- heatmap 그래프
- 산점도(scatter) 그래프
11.1. Heatmap 그래프
import chart_studio.plotly as py
import cufflinks as cf
cf.go_offline(connected=True)
import pandas as pd
doc = pd.read_csv("COVID-19-master/csse_covid_19_data/csse_covid_19_daily_reports/04-01-2020.csv", encoding='utf-8-si
doc.corr()
iplot 으로 그려보기
doc2.iplot(kind='heatmap')
cf.help('heatmap')
cf.colors.scales()
doc2.iplot(kind='heatmap', colorscale='ylorrd')
plotly.graph_objects 로 그려보기
import plotly.graph_objects as go
fig = go.Figure()
fig.add_trace(
go.Heatmap(
x=doc2.index,
y=doc2.columns,
z=doc2
)
)
fig.show()
색상(colorscale) 변경
import plotly.graph_objects as go
fig = go.Figure()
fig.add_trace(
go.Heatmap(
x=doc2.index,
y=doc2.columns,
z=doc2,
colorscale='Reds'
)
)
fig.show()
11.2. 산점도 그래프
import pandas as pd
doc = pd.read_csv("COVID-19-master/csse_covid_19_data/csse_covid_19_daily_reports/04-01-2020.csv", encoding='utf-8-s
doc
cf.help('scatter')
iplot 으로 그려보기
- 그래프가 우상향한다면, 두 feature 간 관계가 있다고 볼 수 있음
doc.iplot(kind='scatter', x='Recovered', y='Confirmed', mode='markers')
plotly.graph_objects 로 그려보기
import plotly.graph_objects as go
fig = go.Figure()
fig.add_trace(
go.Scatter(
x=doc['Recovered'],
y=doc['Confirmed'],
mode='markers'
)
)
fig.show()
정리
💡
탐색적 데이터 분석 (데이터 이해와 시각화 기법 추가)
- 데이터의 출처와 주제에 대해 이해
- 데이터의 크기 확인
- 데이터 구성 요소(feature)의 속성(특징) 확인
- 수치형 데이터일 경우에는 다음과 같이 EDA 5 수치 + 평균(mean) 확인
- 최소값(minimum), 제1사분위수, 중간값(mediam)=제2사분위수, 제3사분위수, 최대값(maximum) + 평균(mean) 확인
- 특잇값(outlier) 확인 - 필요하면 boxplot 과 histogram 그려보기 - 범주형 데이터일 경우에는 각 수준별 갯수 세기
- 필요하면 절대 빈도(bar 그래프), 상대 빈도(원 그래프) 그려보기 - 시계열 데이터일 경우에는 필요하면 line 또는 bar 그래프 그리 기 - feature 간 상관관계 분석이 필요할 경우에는 heatmap 또는 scatter 그래프 그리기
'빅데이터 분석가 양성과정 > Python' 카테고리의 다른 글
Web Crawling - find() (0) | 2024.07.09 |
---|---|
Web Crawling - 기초 (0) | 2024.07.09 |
시각화 이용한 탐색적 데이터 분석(5) (0) | 2024.07.08 |
시각화 이용한 탐색적 데이터 분석(4) (0) | 2024.07.08 |
시각화 이용한 탐색적 데이터 분석(3) (0) | 2024.07.08 |