6. 범주형 데이터의 요약(탐색)수준 별로 데이터 분류하기수준 별로 데이터 갯수 세기 (count)절대 빈도: 절대 갯수, 상대 빈도: 각 수준의 비율(%)시각화 하기 (빈도표, frequency table)6.1. 수준 별로 데이터 분류하기data = {'year': ['2017', '2017', '2019', '2020', '2021', '2021'],'grade': ['C', 'C', 'B', 'A', 'B', 'E'],}df = pd.DataFrame(data)df1 = df.groupby("grade").count()df2 = df.groupby("year").count()df1df2 6.2. 수준 별로 데이터 갯수 세기 (count)size : 사이즈 반환count() : 데이터가 없는 경우를..
빅데이터 분석가 양성과정
4. 분석 타입에 따른 그래프 종류 이해: 다섯 수치 요약 (5 number summary)과 특잇값 확인상자 그래프 (boxplot) import chart_studio.plotly as pyimport cufflinks as cfcf.go_offline(connected=True)그래프 종류 확인cf.help()iplot 으로 그려보기df.iplot(kind='box')df['A'].iplot(kind='box')plotly.graph_objects 로 그려보기https://plotly.com/python/box-plots/import plotly.graph_objects as goimport plotly.offline as pyo # jupyter notebook 에서 보여지도록 설정하는 부분 (가..
2. 데이터 분류 이해데이터를 분석, 시각화, 예측하는 전반적인 과정에서 데이터에 대한 큰 그림을 이해하는 것이 도움이 됨데이터는 크게 (1) 수치형, (2) 범주형 데이터로 나눌 수 있음 수치형 데이터연속형(continuous) 데이터: 특정한 범위 안에 어떤 값(정수와 부동소숫점)이든 가질 수 있는 데이터이산(discrete) 데이터: 횟수와 같은 정수만 가질 수 있는 데이터 범주형 데이터명목형(nominal) 데이터: 카테고리, 타입, 항목 등 데이터 분류를 위해 이미 정해진 값이 있는 데이터, 데이터가 가질 수 있는 값을 수준(levels) 라고 부름순서형(ordinal) 데이터: 이미 정해진 값 사이의 순서 관계가 있는 데이터1반(1), 2반(2), 3반(3)을 나타내는 데이터가 있다면? 순서형..
💡탐색적 데이터 분석 (데이터 이해와 시각화 기법 추가)데이터의 출처와 주제에 대해 이해데이터의 크기 확인데이터 구성 요소(feature)의 속성(특징) 확인feature 의 데이터를 어떻게 더 깊게 이해할 수 있을까?1. 데이터 분석을 위한 위치 추정과 범위 추정탐색적 데이터 분석의 세 번째, feature 분석을 위한 기본 탐색위치 추정: 방대한 데이터의 대푯값을 구해서, 해당 feature의 일종의 요약 정보 도출보통은 평균을 쓰면 되며(물론 평균이 가장 좋은 대푯값이 아닌 경우도 많음), 특정 튀는 수치가 있을 때만 조정해도 충분합니다!변이 추정: 방대한 데이터의 분포 (밀집해 있는지, 퍼져 있는지)를 알아내어, 역시 해당 feature의 일종의 요약 정보 도출수학에서 익힌 표준편차, 분산가 대..
막대그래프import numpy as npimport pandas as pddf = pd.DataFrame(np.random.rand(10, 2), columns=['A', 'B'])df.head() import plotly.graph_objects as gofig = go.Figure()fig.add_trace( go.Bar( x=df.index, y=df['A'], name='A', text=df['A'], textposition='auto' ))fig.add_trace( go.Bar( x=df.index, y=df['B'], name='B', text=df['B'], textposition='auto' ))fig.show()그래프 세부 조정각 필드 확인..
import numpy as npimport pandas as pddf = pd.DataFrame(np.random.rand(10, 2), columns=['A', 'B'])df.head()fig = go.Figure() 로 기본 객체를 만들고fig.add_trace() 에 그래프 객체(예: go.Scatter()) 를 추가 (여러 데이터의 경우, 각 데이터별로 추가 필요)fig.update_layout() 으로 layout 업데이트 필요시 업데이트 fig.update_annotation() 으로 annotation 필요시 업데이트 데이터는 사전 형태로 넣는 것이 가장 쉬움 각 필드 확인: https://plotly.com/python/reference/fig.show() 로 그래프를 보여줌import ..