빅데이터 분석가 양성과정/Python

DisPlotdistribution들을 여러 subplot들로 나눠서 출력해주는 plot.displot에 kind를 변경하는 것으로, histplot, kdeplot, ecdfplot 모두 출력이 가능합니다.e.g. displot(kind="hist") # penguin 데이터에 displot을 출력합니다.sns.displot(data=penguins, x="flipper_length_mm", hue="species", col="species")
# Data Loadimport seaborn as snssns.set_theme(style='whitegrid')penguins = sns.load_dataset("penguins")penguins Histogram가장 기본적으로 사용되는 히스토그램을 출력하는 plot.전체 데이터를 특정 구간별 정보를 확인할 때 사용합니다.# penguin 데이터에 histplot을 출력합니다.sns.histplot(data=penguins, x="flipper_length_mm", hue="species", multiple='stack')
컬럼간의 상관도를 Heatmap형태로 표현titanic_df.corr()### 상관 Heatmapplt.figure(figsize=(8, 8))# DataFrame의 corr()은 숫자형 값만 상관도를 구함. corr = titanic_df.corr()sns.heatmap(corr)#sns.heatmap(corr, annot=True, fmt='.1f', linewidths=0.5, cmap='YlGnBu')#sns.heatmap(corr, annot=True, fmt='.2g', cbar=True, linewidths=0.5, cmap='YlGnBu')
산포도로서 X와 Y축에 보통 연속형 값을 시각화. hue, style등을 통해 breakdown 정보를 표출할 수 있습니다.sns.scatterplot(x='Age', y='Fare', data=titanic_df) sns.scatterplot(x='Age', y='Fare', data=titanic_df, hue='Survived') sns.scatterplot(x='Age', y='Fare', data=titanic_df, hue='Pclass',style='Survived')
4분위를 박스 형태로 표현x축값에 이산값을 부여하면 이산값에 따른 box plot을 시각화sns.boxplot(y='Age', data=titanic_df)sns.boxplot(x='Pclass', y='Age', data=titanic_df)
fig, axs = plt.subplots(nrows=1, ncols=3, figsize=(12, 4)) cat_columns = ['Survived', 'Pclass', 'Sex', 'Age_cat']# nrows는 1이고 ncols는 컬럼의 갯수만큼인 subplots을 설정. for index, column in enumerate(cat_columns): print(index, column)0 Survived1 Pclass2 Sex3 Age_cat subplots을 이용하여 주요 category 성 컬럼의 건수를 시각화 하기cat_columns = ['Survived', 'Pclass', 'Sex', 'Age_cat']# nrows는 1이고 ncols는 컬럼의 갯수만큼인 subplots을 설정...
황규진
'빅데이터 분석가 양성과정/Python' 카테고리의 글 목록 (10 Page)