코로나 국가별 확진자 수 추이 분석/시각화날짜별 확진자수 최종 데이터프레임 읽기 (df_confirmed)import pandas as pddf_confirmed = pd.read_csv("COVID-19-master/final_df.csv")df_confirmed.head()df_confirmed.shape(201, 1144)  국가명과 iso2 매칭 테이블 읽기 (country_info)iso2 컬럼값으로 https://www.countryflags.io/ 에서 제공하는 국기 이미지 링크를 얻을 수 있음 (flagcdn.com 로 대체)다음 데이터는 결측치로 변환됨‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND..
Merge_Concat두 데이터 프레임 연결하기import pandas as pddf1 = pd.DataFrame({ 'id': [1, 2, 3], 'customer_id': [1, 2, 3], 'customer_name': ['Robert', 'Peter', 'Dave']}, columns=['id', 'customer_id', 'customer_name'])df1df2 = pd.DataFrame({ 'id': [1, 2, 4], 'order_id': [100, 200, 300], 'order_date': ['2021-01-21', '2021-02-03', '2020-10-01']}, columns=['id', 'order_id', 'order_date'])df2conc..
EDA1. 탐색적 데이터 분석 과정EDA (Exploratory Data Analysis) 라고 함데이터 분석을 위해 raw data를 다양한 각도에서 관찰하여, 데이터를 이해하는 과정데이터 분석 주제마다 EDA를 통해 진행하는 과정은 각양각색이므로, 정형화된 패턴은 없지만,크게 다음과 같은 3가지 과정은 기본이 될 수 있으므로 다음 3가지 과정을 기본으로 이해하기로 함데이터의 출처와 주제에 대해 이해데이터의 크기 확인데이터 구성 요소(feature)의 속성(특징) 확인feature: 데이터 구성 요소를 위미함예: 어떤 초등학교에 학생 성적을 기록한 데이터가 있다면, 학생 이름, 과목별 성적등을 feature로 볼 수 있음 (가볍게 field/column 이라고 봐도 무방함)존 튜키라는 미국 통계학자가 ..
pandas.Seriesclass pandas.Series(data=None, index=None, dtype=None, name=None, copy=None, fastpath=False)import pandas as pdfruits = ['apples', 'oranges', 'cherries', 'pears']quantities1 = [20, 33, 52, 10]quantities2 = [14, 23, 45, 36]S1 = pd.Series(quantities1, index = fruits)S2 = pd.Series(quantities2, index = fruits)S * S1apples 400 oranges 1089 cherries 2704 pears 100 dtype: int64import pand..
SUBPLOTSmatplotlib.pyplot.subplotsmatplotlib.pyplot.subplots(nrows=1, ncols=1, *, sharex=False, sharey=False, squeeze=True, width_ratios=None, height_ratios=None, subplot_kw=None, gridspec_kw=None, **fig_kw)import numpy as npimport matplotlib.pyplot as pltfig, ax = plt.subplots(nrows=2, ncols=2)plt.show()import numpy as npimport matplotlib.pyplot as pltfig, (ax1, ax2) = plt.subplots(nrows=2, nco..
개요lineimport matplotlib.pyplot as pltplt.plot([-1,-4.5,16,23])plt.show() pointimport matplotlib.pyplot as pltplt.plot([-1,-4.5,16,23], "ob")plt.show()Aapoint + line ( temp )import matplotlib.pyplot as pltdays = list(range(1,9))celsius_min = [19.6, 24.1, 26.7, 28.3, 27.5, 30.5, 32.8, 33.1]celsius_max = [24.8, 28.9, 31.3, 33.0, 34.9, 35.6, 38.4, 39.2]fig, ax = plt.subplots()ax.set(xlabel = "Day", ..
NUMPY ARRAYS: CONCATENATING, FLATTENING AND ADDING DIMENSIONS  Flatten VS Ravel FLATTEN import numpy as npA = np.array([[[ 0, 1], [ 2, 3], [ 4, 5], [ 6, 7]], [[ 8, 9], [10, 11], [12, 13], [14, 15]], [[16, 17], [18, 19], [20, 21], [2..
numpy ones & zeros & ones_like & zeros_likenumpy.ones(shape, dtype=None, order='C', *, like=None)np.ones((5,),dtype = int)array([1, 1, 1, 1, 1])f = np.ones((2,3))farray([[1., 1., 1.], [1., 1., 1.]]) numpy.zeros(shape, dtype=float, order='C', *, like=None)# 2행 4열a = np.zeros((2,4), dtype = int)aarray([[0, 0, 0, 0], [0, 0, 0, 0]]) numpy.ones_like(a, dtype=None, order='K', subok=True, shape=None)ar..
기본 개념 리스트는 배열(벡터)을 가지고 있지 않아서 곱하기나 나누기 같은 연산을 하지 못함 ⇒ 차원이 없다 그냥 요소를 가지고 있는 리스트일 뿐배열로 바꿔주기 위해서는 numpy 사용 (array로 변환)배열로 바꿔주면(np.array) 모든 연산 가능! numpy.arange()numpy.arange([start, ]stop, [step, ]dtype=None, *, like=None)return : ndarray(n차원 디멘션(차원)으로 반환해줌)'''dtype(start + step) - dtype(start) and not step.'''np.arange(0, 5, 0.5, dtype=int)array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])np.arange(0, 5, 0.5)a..
황규진
'빅데이터 분석가 양성과정' 카테고리의 글 목록 (12 Page)