실습 데이터 생성import pandas as pdimport numpy as np# 실습 데이터 생성df = pd.DataFrame(data = np.arange(18).reshape(6,3), index = ['a','b','c','d','e','f'], columns=['col1','col2','col3']) df['col4'] = pd.Series(data = [1.7, 1.2, 2.4], index = ['a','e','c'])df.loc['c'] = Noneprint('Sample Data')print(df)Sample Data col1 col2 col3 col4a 0.0 1.0 2...
빅데이터 분석가 양성과정
4.8. 연도 별 분석merged_order_payment_year = merged_order_payment_date[['year', 'payment_value']].copy()merged_order_payment_yearmerged_order_payment_year = merged_order_payment_year.groupby('year').sum()merged_order_payment_year.head()merged_order_payment_year.iplot(kind='bar', theme='white')은근히 x tick 제어가 필요할 때가 꽤 있음layout = { 'xaxis': { 'showticklabels':True, 'tickvals':[2016, 201..
1. 실제 데이터 분석과 도메인의 이해데이터 분석을 통해 얻어야 할 질문이 있어야 함해당 도메인에 대한 깊은 이해가 있을 수록 더 깊은 분석/인사이트 도출 가능데이터 분석 뿐만 아니라, 데이터 예측도 해당 도메인을 가장 잘 이해하는 사람이 가장 잘 하게 되어 있음단순히 기술을 잘 사용할 수 있다고 잘 하는 것이 아님이커머스(e-commerce) 데이터 분석온라인 비즈니스 활성화로 온라인 상에서의 데이터 분석이 중요해짐온라인 비즈니스는 유사성을 가지고 잇고, 이 중 가장 활발한 분야가 이커머스(e-commerce)임관련 도메인(업계) 데이터 분석을 통해 온라인 비즈니스 데이터에 대해서도 조금씩 익숙해질 수 있음 2. 사전 준비데이터브라질에서 가장 큰 백화점의 이커머스 쇼핑몰 (https://olist.co..
코로나 국가별 확진자 수 추이 분석/시각화날짜별 확진자수 최종 데이터프레임 읽기 (df_confirmed)import pandas as pddf_confirmed = pd.read_csv("COVID-19-master/final_df.csv")df_confirmed.head()df_confirmed.shape(201, 1144) 국가명과 iso2 매칭 테이블 읽기 (country_info)iso2 컬럼값으로 https://www.countryflags.io/ 에서 제공하는 국기 이미지 링크를 얻을 수 있음 (flagcdn.com 로 대체)다음 데이터는 결측치로 변환됨‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND..
Merge_Concat두 데이터 프레임 연결하기import pandas as pddf1 = pd.DataFrame({ 'id': [1, 2, 3], 'customer_id': [1, 2, 3], 'customer_name': ['Robert', 'Peter', 'Dave']}, columns=['id', 'customer_id', 'customer_name'])df1df2 = pd.DataFrame({ 'id': [1, 2, 4], 'order_id': [100, 200, 300], 'order_date': ['2021-01-21', '2021-02-03', '2020-10-01']}, columns=['id', 'order_id', 'order_date'])df2conc..
EDA1. 탐색적 데이터 분석 과정EDA (Exploratory Data Analysis) 라고 함데이터 분석을 위해 raw data를 다양한 각도에서 관찰하여, 데이터를 이해하는 과정데이터 분석 주제마다 EDA를 통해 진행하는 과정은 각양각색이므로, 정형화된 패턴은 없지만,크게 다음과 같은 3가지 과정은 기본이 될 수 있으므로 다음 3가지 과정을 기본으로 이해하기로 함데이터의 출처와 주제에 대해 이해데이터의 크기 확인데이터 구성 요소(feature)의 속성(특징) 확인feature: 데이터 구성 요소를 위미함예: 어떤 초등학교에 학생 성적을 기록한 데이터가 있다면, 학생 이름, 과목별 성적등을 feature로 볼 수 있음 (가볍게 field/column 이라고 봐도 무방함)존 튜키라는 미국 통계학자가 ..