import pandas as pddf = pd.DataFrame({ 'name':['김지훈','이유진','박동현','김민지'], 'english':[90,80,60,70], 'math':[50,60,100,20]})dfdf['english']0 901 802 603 70Name: english, dtype: int64df['math']0 501 602 1003 20Name: math, dtype: int64df[['english','math']]print('전체 학생의 영어 점수 합계:' ,sum(df['english']))전체 학생의 영어 점수 합계: 300print('전체 학생의 영어 점수 평균:', sum(df['english'])/4)전체 학생의 영어 점수 평균: 75.0 예제d..
빅데이터 분석가 양성과정/Python
feature scaling서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업 : feature scaling -> 표준화 (Standardization)와 정규화 (Normalization)표준화 (Standardization)평균이 0 이고 분산이 1인 Gaussian distribution으로 변환정규화 (Normalization)서로 다른 피처의 크기를 통일하기 위해 크기를 변환하는 개념.사이킷 런의 Normalizer모듈은 선형대수에서의 정규화 개념이 적용, 개별 벡 터의 크기를 맞추기 위해 변환범주형(등급 같이 나눠져 있는것) 변수는 스케일링 해주지 않는다. 실습 데이터from sklearn.datasets import load_irisimport pandas as pd#붗꽃 데이터 셋..
데이터 인코딩데이터 전처리는 알고리즘 만큼 중요. (Garbage in, Garbage out)데이터는 문자열을 입력 값으로 허용 하지 않는다.문자열을 인코딩하여 숫자로 변화 feature vectorization 기법 Label encodingsklearn.preprocessing.LabelEncoderfrom sklearn.preprocessing import LabelEncoderitems = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '믹서', '믹서']#labelEncoder를 객체로 생성한 후 .fit()과 transform()으로 label 인코딩 수행.encoder = LabelEncoder()encoder.fit(items)labels = encoder.transfo..
실습 데이터 생성import pandas as pdimport numpy as np# 실습 데이터 생성df = pd.DataFrame(data = np.arange(18).reshape(6,3), index = ['a','b','c','d','e','f'], columns=['col1','col2','col3']) df['col4'] = pd.Series(data = [1.7, 1.2, 2.4], index = ['a','e','c'])df.loc['c'] = Noneprint('Sample Data')print(df)Sample Data col1 col2 col3 col4a 0.0 1.0 2...
4.8. 연도 별 분석merged_order_payment_year = merged_order_payment_date[['year', 'payment_value']].copy()merged_order_payment_yearmerged_order_payment_year = merged_order_payment_year.groupby('year').sum()merged_order_payment_year.head()merged_order_payment_year.iplot(kind='bar', theme='white')은근히 x tick 제어가 필요할 때가 꽤 있음layout = { 'xaxis': { 'showticklabels':True, 'tickvals':[2016, 201..