💡탐색적 데이터 분석 (데이터 이해와 시각화 기법 추가)데이터의 출처와 주제에 대해 이해데이터의 크기 확인데이터 구성 요소(feature)의 속성(특징) 확인feature 의 데이터를 어떻게 더 깊게 이해할 수 있을까?1. 데이터 분석을 위한 위치 추정과 범위 추정탐색적 데이터 분석의 세 번째, feature 분석을 위한 기본 탐색위치 추정: 방대한 데이터의 대푯값을 구해서, 해당 feature의 일종의 요약 정보 도출보통은 평균을 쓰면 되며(물론 평균이 가장 좋은 대푯값이 아닌 경우도 많음), 특정 튀는 수치가 있을 때만 조정해도 충분합니다!변이 추정: 방대한 데이터의 분포 (밀집해 있는지, 퍼져 있는지)를 알아내어, 역시 해당 feature의 일종의 요약 정보 도출수학에서 익힌 표준편차, 분산가 대..
막대그래프import numpy as npimport pandas as pddf = pd.DataFrame(np.random.rand(10, 2), columns=['A', 'B'])df.head() import plotly.graph_objects as gofig = go.Figure()fig.add_trace( go.Bar( x=df.index, y=df['A'], name='A', text=df['A'], textposition='auto' ))fig.add_trace( go.Bar( x=df.index, y=df['B'], name='B', text=df['B'], textposition='auto' ))fig.show()그래프 세부 조정각 필드 확인..
import numpy as npimport pandas as pddf = pd.DataFrame(np.random.rand(10, 2), columns=['A', 'B'])df.head()fig = go.Figure() 로 기본 객체를 만들고fig.add_trace() 에 그래프 객체(예: go.Scatter()) 를 추가 (여러 데이터의 경우, 각 데이터별로 추가 필요)fig.update_layout() 으로 layout 업데이트 필요시 업데이트 fig.update_annotation() 으로 annotation 필요시 업데이트 데이터는 사전 형태로 넣는 것이 가장 쉬움 각 필드 확인: https://plotly.com/python/reference/fig.show() 로 그래프를 보여줌import ..
Plotly데이터 분석 시, 가볍게 데이터 확인 시는 iplot, 디테일 하게 시각화 할 시에는 plotly.graph_objects 를 사용하는 것이 좋음plotly.graph_objects 로 시각화 사용하기중급 단계 기술, 처음에 바로 활용하기에는 다소 문법이 복잡함iplot, plotly.express, plotly.graph_objectsiplot() 은 high-level 함수, 세부 기능 조절에 한계가 있음plotly.graph_objects 패키지로 세부 기능 조절 가능plotly.express 는 plotly 를 좀더 쉽게 쓰게 할 수 있는 패키지로, iplot() 과 plotly.graph_objects 중간 단계동일한 노력이 들어가므로, 쉽게는 iplot(), 세부 기능은 plotly..
선 그래프import numpy as npimport pandas as pddf = pd.DataFrame(np.random.rand(10,2), columns = ['A','B'])df.head()cf.help('scatter')df.iplot(kind='scatter')그래프 모양 변경하기df.iplot(kind = 'scatter', mode = 'lines+markers')그래프 채우기df.iplot(kind = 'scatter', fill = True) 세부요소x축, y축, 그래프 타이틀 설정하기 df.iplot(kind = 'scatter', fill = True, xTitle = 'x title', yTitle = 'y title', ..
막대 그래프df.iplot(kind='bar')참고: iplot 과 plot다음 예제는 환경에 따라 에러가 날 수 있음iplot 은 plotly 라이브러리를 사용해서 interactive 한 그래프를 그리는 기능plot 은 matplotlib 라이브러리를 사용해서 static 한 그래프를 그리는 기능import matplotlib.pyplot as pltdf.plot(kind = 'bar')df.iplot(kind = 'bar')누적 그래프 옵션(barmode)cf.help('bar')df.iplot(kind = 'bar', barmode = 'stack') # barmode = 'stack' 은 누적 그래프df.iplot(kind = 'bar', barmode = 'overlay') # barmode ..
가장 최신 기술로, 손쉽게 시각화 익히기matplotlib은 오래된 전통적인 라이브러리이 한계를 보완하기 위해 seaborn 라이브러리가 출현오래된 라이브러리로 인터페이스가 복잡함최신 시각화 라이브러리 : plotlypandas 기능과 plotly를 조합해서 최신/가장 빠르게 시각화 가능pandas 데이터 프레임.iplot() 같은 형태로 데이터 프레임을 바로 그래프로 그릴 수 있음iplot()으로 시각화 사용하기데이터 프레임.iplot(kind=그래프 종류) 만으로 그래프를 그릴 수 있으므로, 매우 쉬움 단, 관련 자료가 부족하고, 세부 기능 조정에 한계가 있음데이터 분석 시, 가볍게 데이터 확인 시는 iplot, 디테일 하게 시각화 할 시에는 plotly.graph_objects 를 사용하는 것이 좋..
## 운영체제별 글꼴 세팅path = "c:/Windows/Fonts/malgun.ttf"if platform.system() == 'Darwin': font_name = 'Apple SD Gothic Neo' rc('font', family='Apple SD Gothic Neo')elif platform.system() == 'Windows': font_name = font_manager.FontProperties(fname=path).get_name() rc('font', family=font_name)else: font_name = font_manager.FontProperties(fname="/usr/share/fonts/nanumfont/NanumGothic.ttf")..
2020년 12월 기준 커피 전문점 평판 순위1. 스타벅스 2. 투썸플레이스 3. 이디야 4. 메가커피 5. 커피빈변수전체 점포 : data전체/서울 커피전문점 : df_coffee / df_seoul_starbucks전체/서울 스타벅스 : df_starbucks / df_seoul_starbucks전체/서울 이디야 : df_ediya / df_seoul_ediya전체/서울 커피빈 : df_coffeebean / df_seoul_coffeebean전체/서울 투썸플레이스 : df_2some / df_seoul_2some전체/서울 빽다방 : df_bbaek / df_seoul_bbaek전체/서울 할리스 : df_hollys / df_seoul_hollys전체/서울 메가커피 : df_mega / df_seou..