전국 커피 전문점#set(data["상권업종대분류명"])set(data["상권업종중분류명"])# 카페만 뽑아냅니다.df_coffee = data[data["상권업종중분류명"] == "커피점/카페"]# index를 다시 세팅합니다.df_coffee.index = range(len(df_coffee))print("전국 커피 전문점 점포 수 : ", len(df_coffee))df_coffee서울 내 커피 전문점set(data["시도명"]) # 카페 중에 "서울"에 위치하고 있는 점포만 뽑아냅니다.df_seoul_coffee = data[(data["상권업종중분류명"] == "커피점/카페") & (data["시도명"] == "서울특별시")]df_seoul_coffee.index = range(len(df_se..
빅데이터 분석가 양성과정
MS엑셀(Excel)에서 UTF-8로 된 CSV파일 불러오기기존 euc-kr 데이터 추출형식으로 인해 업소명 오류가 발견되었으며 이를 개선하고자 UTF-8 형식으로 추출하였습니다.개발자가 아닌 일반사용자의 경우 euc-kr(UTF-8 이나 UTF-16)이 아닌 CSV파일을 엑셀에서 바로 열면 한글이 모두 깨지게 됩니다.바로 열지 마시고 다음 절차를 거치시기 바랍니다.엑셀을 실행하고 데이터 → 텍스트를 선택합니다.가져올 파일을 선택하고 확인을 클릭합니다.콤보 박스에서 적절한 코드 타입이 선택됐는지 확인합니다.UTF-8의 코드 페이지 넘버는 65001입니다.원본 데이터 파일 유형을 ‘구분 기호로 분리됨’ 선택합니다.기타 ‘|’(파이프) 입력, 3단계 텍스트로 선택합니다.단, 지번코드, 건물관리번호, 신우편번..
EDA에서는 다음과 같은 항목을 살펴봅니다.기본적인 빈도 분석히스토그램Pie chart와 같은 plotting 기법들Q5 columnSelect the title most similar to your current roleQ5 = final_data["Q5"][1:]; Q5Q5.value_counts()plt.figure(figsize=(12, 12))#plt.hist(Q5)plt.barh(Q5.value_counts().index, Q5.value_counts().values)plt.xticks(rotation='vertical')plt.title("Histogram for Q5 column")plt.show()plt.figure(figsize=(16, 16))plt.pie(Q5.value_counts..
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns#data = pd.read_csv("data/kaggle_survey_2020_responses.csv", header=1)data = pd.read_csv("kaggle_survey_2020_responses.csv")data Data Science 실무 경력과 관련된 column# edu_columnedu_columns = ["Q4", "Q6", "Q15"]# ds_columnds_columns = ["Q5", "Q20", "Q22"]#y = ["Q24"]#edit_data = data[edu_columns + ds_columns + y]ed..
import pandas as pdimport seaborn as snsmushrooms_df = pd.read_csv('mushrooms.csv')mushrooms_df.head(5)mr_df = mushrooms_df[['class','cap-shape','cap-color','bruises','odor','gill-attachment','gill-color']]mr_dfsns.countplot(data=mr_df, x='class')sns.histplot(data=mr_df, x="cap-shape", hue="class", multiple='stack')sns.displot(data=mr_df, x="bruises", hue="class", col="class")sns.countplot(data=..