2. 데이터 분류 이해데이터를 분석, 시각화, 예측하는 전반적인 과정에서 데이터에 대한 큰 그림을 이해하는 것이 도움이 됨데이터는 크게 (1) 수치형, (2) 범주형 데이터로 나눌 수 있음 수치형 데이터연속형(continuous) 데이터: 특정한 범위 안에 어떤 값(정수와 부동소숫점)이든 가질 수 있는 데이터이산(discrete) 데이터: 횟수와 같은 정수만 가질 수 있는 데이터 범주형 데이터명목형(nominal) 데이터: 카테고리, 타입, 항목 등 데이터 분류를 위해 이미 정해진 값이 있는 데이터, 데이터가 가질 수 있는 값을 수준(levels) 라고 부름순서형(ordinal) 데이터: 이미 정해진 값 사이의 순서 관계가 있는 데이터1반(1), 2반(2), 3반(3)을 나타내는 데이터가 있다면? 순서형..
빅데이터 분석가 양성과정/Python
💡탐색적 데이터 분석 (데이터 이해와 시각화 기법 추가)데이터의 출처와 주제에 대해 이해데이터의 크기 확인데이터 구성 요소(feature)의 속성(특징) 확인feature 의 데이터를 어떻게 더 깊게 이해할 수 있을까?1. 데이터 분석을 위한 위치 추정과 범위 추정탐색적 데이터 분석의 세 번째, feature 분석을 위한 기본 탐색위치 추정: 방대한 데이터의 대푯값을 구해서, 해당 feature의 일종의 요약 정보 도출보통은 평균을 쓰면 되며(물론 평균이 가장 좋은 대푯값이 아닌 경우도 많음), 특정 튀는 수치가 있을 때만 조정해도 충분합니다!변이 추정: 방대한 데이터의 분포 (밀집해 있는지, 퍼져 있는지)를 알아내어, 역시 해당 feature의 일종의 요약 정보 도출수학에서 익힌 표준편차, 분산가 대..
막대그래프import numpy as npimport pandas as pddf = pd.DataFrame(np.random.rand(10, 2), columns=['A', 'B'])df.head() import plotly.graph_objects as gofig = go.Figure()fig.add_trace( go.Bar( x=df.index, y=df['A'], name='A', text=df['A'], textposition='auto' ))fig.add_trace( go.Bar( x=df.index, y=df['B'], name='B', text=df['B'], textposition='auto' ))fig.show()그래프 세부 조정각 필드 확인..
import numpy as npimport pandas as pddf = pd.DataFrame(np.random.rand(10, 2), columns=['A', 'B'])df.head()fig = go.Figure() 로 기본 객체를 만들고fig.add_trace() 에 그래프 객체(예: go.Scatter()) 를 추가 (여러 데이터의 경우, 각 데이터별로 추가 필요)fig.update_layout() 으로 layout 업데이트 필요시 업데이트 fig.update_annotation() 으로 annotation 필요시 업데이트 데이터는 사전 형태로 넣는 것이 가장 쉬움 각 필드 확인: https://plotly.com/python/reference/fig.show() 로 그래프를 보여줌import ..
Plotly데이터 분석 시, 가볍게 데이터 확인 시는 iplot, 디테일 하게 시각화 할 시에는 plotly.graph_objects 를 사용하는 것이 좋음plotly.graph_objects 로 시각화 사용하기중급 단계 기술, 처음에 바로 활용하기에는 다소 문법이 복잡함iplot, plotly.express, plotly.graph_objectsiplot() 은 high-level 함수, 세부 기능 조절에 한계가 있음plotly.graph_objects 패키지로 세부 기능 조절 가능plotly.express 는 plotly 를 좀더 쉽게 쓰게 할 수 있는 패키지로, iplot() 과 plotly.graph_objects 중간 단계동일한 노력이 들어가므로, 쉽게는 iplot(), 세부 기능은 plotly..
선 그래프import numpy as npimport pandas as pddf = pd.DataFrame(np.random.rand(10,2), columns = ['A','B'])df.head()cf.help('scatter')df.iplot(kind='scatter')그래프 모양 변경하기df.iplot(kind = 'scatter', mode = 'lines+markers')그래프 채우기df.iplot(kind = 'scatter', fill = True) 세부요소x축, y축, 그래프 타이틀 설정하기 df.iplot(kind = 'scatter', fill = True, xTitle = 'x title', yTitle = 'y title', ..