빅데이터 분석가 양성과정/Python - 머신러닝

데이터 확인import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsmem = pd.read_csv('member.csv')tran = pd.read_csv('transaction.csv')mem.head()mem.info()mem.describe()tran.head()tran.info()tran.describe()평균 추가 및 데이터 합치기tran['avg_price'] = tran['total_amount'] / tran['num_item']tran데이터 합치기# Groupby를 활용하여 id별 1줄로 데이터 요약tran_mean = tran.groupby('id').mean()tran_mean# I..
데이터 확인import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsdata = pd.read_csv('galaxy.csv')data.head()data.info()data.describe() sns.distplot(data['startprice'])sns.distplot(data['charCountDescription'])plt.figure(figsize=(20, 10))sns.boxplot(x='productline', y='startprice', data = data) 결측값 처리data.isna().sum() / len(data)data.head()# 결측값 대체data = data.fillna(..
데이터 확인import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsdata = pd.read_csv('churn.csv')data# 출력하는 열 개수 지정pd.set_option('display.max_columns', 30)# 출력하는 행 개수 지정pd.set_option('display.max_rows', 100)data.info()# 공백 문자열을 NaN으로 변경하기data['TotalCharges'] = data['TotalCharges'].replace(" ", np.nan)# or# data['TotalCharges'] = data['TotalCharges'].replace(" ", "")#..
데이터 확인import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsdata = pd.read_csv('advertising.csv')datadata.info()sns.distplot(data['Area Income'])sns.distplot(data['Age'])# 텍스트로 된 컬럼 확인data['Country'].nunique() # 237data['City'].nunique() # 969data['Ad Topic Line'].nunique() # 1000 결측값 확인 및 처리# 결측값 확인 및 처리data.isna().sum() / len(data)data..
from sklearn.datasets import load_irisimport matplotlib.pyplot as plt import numpy as np import pandas as pd %matplotlib inlineiris = load_iris()feature_names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']# 보다 편리한 데이타 Handling을 위해 DataFrame으로 변환 irisDF = pd.DataFrame(data=iris.data, columns-feature_names) irisDF['target'] = iris.target ### 클러스터 결과를 담은 DataFrame과 사이킷런의 Cluster 객..
GMM을 이용한 붓꽃 데이터 셋 클러스터링from sklearn.datasets import load_iris from sklearn.cluster import KMeansimport matplotlib.pyplot as plt import numpy as npimport pandas as pd0%matplotlib inlineiris = load_iris() feature_names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']#보다 편리한 데이타 Handling을 위해 DataFrame으로 변환 irisDF = pd.DataFrame(data=iris.data, columns=feature_names) irisDF ['target'..
황규진
'빅데이터 분석가 양성과정/Python - 머신러닝' 카테고리의 글 목록