공공데이터 분석(커피전문점) - Load Data

2024. 7. 8. 11:32·빅데이터 분석가 양성과정/Python

MS엑셀(Excel)에서 UTF-8로 된 CSV파일 불러오기

  • 기존 euc-kr 데이터 추출형식으로 인해 업소명 오류가 발견되었으며 이를 개선하고자 UTF-8 형식으로 추출하였습니다.
  • 개발자가 아닌 일반사용자의 경우 euc-kr(UTF-8 이나 UTF-16)이 아닌 CSV파일을 엑셀에서 바로 열면 한글이 모두 깨지게 됩니다.
  • 바로 열지 마시고 다음 절차를 거치시기 바랍니다.
    • 엑셀을 실행하고 데이터 → 텍스트를 선택합니다.
    • 가져올 파일을 선택하고 확인을 클릭합니다.
    • 콤보 박스에서 적절한 코드 타입이 선택됐는지 확인합니다.
      • UTF-8의 코드 페이지 넘버는 65001입니다.
    • 원본 데이터 파일 유형을 ‘구분 기호로 분리됨’ 선택합니다.
    • 기타 ‘|’(파이프) 입력, 3단계 텍스트로 선택합니다.
    • 단, 지번코드, 건물관리번호, 신우편번호, 경도, 위도 등 행마다 텍스트 선택

※ 업종(대분류) : 관광/여가/오락, 부동산, 생활서비스, 소매, 숙박, 스포츠, 음식, 학문/교육

 

 

    
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 시각화를 위한 라이브러리를 불러옵니다.
import seaborn as sns
import matplotlib.pyplot as plt
import platform
from matplotlib import font_manager, rc
%matplotlib inline
# macos에서 사용가능한 한글 글꼴 확인 코드
[f.name for f in font_manager.fontManager.ttflist if 'Neo' in f.name]

    
temp = pd.read_csv('공공데이터분석/소상공인시장진흥공단_상가(상권)정보_서울_202012.csv',sep = '|',encoding = 'UTF-8')
temp
  • 폴더에 있는 다른 모든 csv 파일 읽어와서 하나로 만들어줌(컬럼이 같아야함)


    
# data 폴더에 있는 모든 csv 파일을 읽어오기 위해 glob을 사용합니다.
from glob import glob # os
# csv 목록 불러오기
file_names = glob("공공데이터분석/*.csv")
total = pd.DataFrame()
# 모든 csv 병합하기
for file_name in file_names:
temp = pd.read_csv(file_name, sep='|', encoding='utf-8')
total = pd.concat([total, temp])
# reset index
total.reset_index(inplace=True, drop=True)
total


    
total.info()


    
# 분석에 필요한 column을 고릅니다. ## 자유롭게 하셔도 상관없습니다.
data = total[['상호명', '지점명', '상권업종대분류명', '상권업종중분류명', '시도명',
'시군구명', '행정동명']]
data


    
data.info()


    
# 메모리 낭비를 막기 위해 필요없는 변수는 제거합니다.
del total

 


    
total.head()



'빅데이터 분석가 양성과정 > Python' 카테고리의 다른 글

공공데이터 분석(커피전문점) - 유명 브랜드별 비율 비교하기  (0) 2024.07.08
공공데이터 분석(커피전문점) - View data  (0) 2024.07.08
Seaborn - Kaggle Survey EDA(2)  (1) 2024.07.08
Seaborn - Kaggle Survey EDA(1)  (0) 2024.07.08
Seaborn - Mushrooms DataSet  (1) 2024.07.08
'빅데이터 분석가 양성과정/Python' 카테고리의 다른 글
  • 공공데이터 분석(커피전문점) - 유명 브랜드별 비율 비교하기
  • 공공데이터 분석(커피전문점) - View data
  • Seaborn - Kaggle Survey EDA(2)
  • Seaborn - Kaggle Survey EDA(1)
분석가 황규진
분석가 황규진
공공기관 위험평가관련 부서에서 근무하고 있습니다.
HGJ's Insight공공기관 위험평가관련 부서에서 근무하고 있습니다.
글쓰기 관리
분석가 황규진
HGJ's Insight
홈
|
로그인
  • 전체 글 568
    • 개인 활동(일상) 3
      • 독서 2
      • 근황 공유 1
    • 개인 활동(공부) 53
      • Tableau Bootcamp 10
      • 금융 공부 9
      • 직무 공부 22
      • 강의 12
    • 개인프로젝트 4
      • 신용카드 연체 평가 모델 0
      • 대출 승인 여부 예측 모델 4
    • 자격증 7
      • 빅데이터분석기사 1
      • 정보처리기사 1
      • 경영정보시각화 1
      • SQL개발자(SQLD) 1
      • 데이터 분석 준전문가(ADsP) 1
      • 통계적품질관리(SPC) 1
      • AICE Associate 1
    • 코드 정리 11
      • 코드 정리 - Tistory 8
      • 코드 정리 - Python 3
    • 코딩테스트연습 116
      • SQL_프로그래머스 116
    • 취업사관학교 9기 199
      • 모닝스쿨 54
      • 스스로 모닝스쿨 125
      • 직무 스터디 20
      • 반성과 다짐 0
    • 빅데이터 분석가 양성과정 173
      • Python 88
      • Python - 머신러닝 26
      • Python - 딥러닝 31
      • PyQt 4
      • JavaScript 10
      • MySQL 13
      • Node.js 1
hELLO· Designed By정상우.v4.6.1
분석가 황규진
공공데이터 분석(커피전문점) - Load Data
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.