EDA에서는 다음과 같은 항목을 살펴봅니다.기본적인 빈도 분석히스토그램Pie chart와 같은 plotting 기법들Q5 columnSelect the title most similar to your current roleQ5 = final_data["Q5"][1:]; Q5Q5.value_counts()plt.figure(figsize=(12, 12))#plt.hist(Q5)plt.barh(Q5.value_counts().index, Q5.value_counts().values)plt.xticks(rotation='vertical')plt.title("Histogram for Q5 column")plt.show()plt.figure(figsize=(16, 16))plt.pie(Q5.value_counts..
빅데이터 분석가 양성과정/Python
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns#data = pd.read_csv("data/kaggle_survey_2020_responses.csv", header=1)data = pd.read_csv("kaggle_survey_2020_responses.csv")data Data Science 실무 경력과 관련된 column# edu_columnedu_columns = ["Q4", "Q6", "Q15"]# ds_columnds_columns = ["Q5", "Q20", "Q22"]#y = ["Q24"]#edit_data = data[edu_columns + ds_columns + y]ed..
import pandas as pdimport seaborn as snsmushrooms_df = pd.read_csv('mushrooms.csv')mushrooms_df.head(5)mr_df = mushrooms_df[['class','cap-shape','cap-color','bruises','odor','gill-attachment','gill-color']]mr_dfsns.countplot(data=mr_df, x='class')sns.histplot(data=mr_df, x="cap-shape", hue="class", multiple='stack')sns.displot(data=mr_df, x="bruises", hue="class", col="class")sns.countplot(data=..
Heatmap정사각형 그림에 데이터에 대한 정도 차이를 색 차이로 보여주는 plot.말 그대로 heatmap이기 때문에, 열화상카메라로 사물을 찍은 것처럼 정보의 차이를 보여줍니다.pairplot과 비슷하게 feature간 관계를 시각화할 때 많이 사용합니다. # 각 feature간 상관관계를 파악하기 위해 Correlation matrix를 만듭니다.corr = penguins.corr()corr# penguin 데이터에 heatmap을 출력합니다.sns.heatmap(corr)
Pairplot주어진 데이터의 각 feature들 사이의 관계를 표시하는 Plot.scatterplot, FacetGrid, kdeplot을 이용하여 feature간의 관계를 잘 보여줍니다.각 feature에 대해 계산된 모든 결과를 보여주기 때문에, feature가 많은 경우 사용하기 적합하지 않습니다.# penguin 데이터에 pairplot을 출력합니다.sns.pairplot(data=penguins, hue="island")sns.pairplot(data=penguins, hue="species")sns.pairplot(data=penguins, hue="sex")
Scatterplotlineplot과 비슷하게 x, y에 대한 전체적인 분포를 확인하는 plot.lineplot은 경향성에 초점을 둔다면, scatterplot은 데이터 그 자체가 퍼져있는 모양에 중점을 둡니다.# penguin 데이터에 scatterplot을 출력합니다.#sns.scatterplot(data=penguins, x="body_mass_g", y="flipper_length_mm", hue="species")sns.scatterplot(data=penguins, x="bill_length_mm", y="bill_depth_mm", hue="sex")