대중교통 데이터대중교통 데이터 내려 받기 티머니 카드&페이티머니카드, 어린이/청소년할인, T마일리지적립, 소득공제, 유통/교통/모바일결제, 고속/시외버스예매pay.tmoney.co.kr 지하철 유무임별 이용현황 데이터 정제(데이터 전처리)row는 리스트형 데이터이고 이 리스트의 각 요소는 문자열 데이터인 것을 확인인덱스 4부터 7까지는 숫자이므로 정수로 변환f = open('subway.csv', encoding='cp949')data = csv.reader(f)next(data)for row in data: for idx in range(4,8): row[idx] = int(row[idx]) print(row)f.close()['Jun-23', '신림선', '4411', '관악산(서울대)..

인구 공공 데이터 (시각화)1.1 데이터 가져오기 행정안전부행정안전부 홈페이지에 오신것을 환영합니다.www.mois.go.krimport csvf = open('age.csv', encoding='cp949')data = csv.reader(f)next(data)for row in data: if row[0] =='경상북도 안동시 명륜동(4717052000)': breakprint(row)f.close()['경상북도 안동시 명륜동(4717052000)', '4,862', '4,862', '14', '14', '21', '17', '19', '29', '22', '34', '24', '30', '37', '39', '36', '38', '32', '44', '46', '34', '43',..
기온 공공 데이터1.1 기온 데이터 가져오기기상청은 기상자료개방포털 홈페이지를 통해 기상 관련 데이터를 무료로 제공 기상자료개방포털날씨! 데이터가 되다 기 상 청 API허브data.kma.go.kr1.2 기온 데이터 분석1.2.1 CSV 파일에서 데이터 읽어 오기csv.reader() : CSV 파일에서 데이터 읽어오는 함수csv.writer() : CSV 파일에 데이터를 저장하는 함수1행 부터 7 행까지는 실제 데이터가 아니므로 삭제1.2.2 데이터 출력import csvf = open('부산.csv', 'r', encoding='cp949')data = csv.reader(f)for row in data: print(row)f.close()['\t2023-04-21', '108', '16.7', '..

'한국인의 삶 파악하기' 분석 데이터 준비하기 저장소. Contribute to youngwoos/Doit_Python development by creating an account on GitHub." data-og-host="github.com" data-og-source-url="https://github.com/youngwoos/Doit_Python/tree/main/Data" data-og-url="https://github.com/youngwoos/Doit_Python/tree/main/Data" data-og-image="https://scrap.kakaocdn.net/dn/b09mOc/hyWvXlZtxq/kF02zMxKtGJ1STj2lGE3uk/img.png?width=1200&height..

데이터 가공하기 조건에 맞는 데이터만 추출하기import pandas as pdexam = pd.read_csv('./exam.csv')exam.head()exam.query('nclass ==1')exam.query('math > 50')여러 조건 중 두 조건이 모두 만족하는 행 추출exam.query('nclass ==1 & math >=50')exam.query('nclass ==1 and math >=50')여러 조건 중 하나라도 만족하는 행 추출exam.query('math>=90 | english >=90 | science >= 90')exam.query('math>=90 or english >=90 or science >= 90')exam.query('nclass ==1 | nclass ==..

Xlsx 데이터df = pd.read_excel('./excel_exam.xlsx')df영어 평균sum(df['english'])/len(df)84.9header 없는 데이터 가져오기df = pd.read_excel('./excel_exam_noheader.xlsx', header = None)df엑셀 파일에 sheet 가 여러 개df = pd.read_excel('./excel_exam_noheader.xlsx', sheet = 'Sheet2')df = pd.read_excel('./excel_exam_noheader.xlsx', sheet = 2) CSV 파일 가져오기df = pd.read_csv('./exam.csv')df파일 내보내기 ( 저장하기 )df_midterm = pd.DataFrame({..

import pandas as pddf = pd.DataFrame({ 'name':['김지훈','이유진','박동현','김민지'], 'english':[90,80,60,70], 'math':[50,60,100,20]})dfdf['english']0 901 802 603 70Name: english, dtype: int64df['math']0 501 602 1003 20Name: math, dtype: int64df[['english','math']]print('전체 학생의 영어 점수 합계:' ,sum(df['english']))전체 학생의 영어 점수 합계: 300print('전체 학생의 영어 점수 평균:', sum(df['english'])/4)전체 학생의 영어 점수 평균: 75.0 예제d..

feature scaling서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업 : feature scaling -> 표준화 (Standardization)와 정규화 (Normalization)표준화 (Standardization)평균이 0 이고 분산이 1인 Gaussian distribution으로 변환정규화 (Normalization)서로 다른 피처의 크기를 통일하기 위해 크기를 변환하는 개념.사이킷 런의 Normalizer모듈은 선형대수에서의 정규화 개념이 적용, 개별 벡 터의 크기를 맞추기 위해 변환범주형(등급 같이 나눠져 있는것) 변수는 스케일링 해주지 않는다. 실습 데이터from sklearn.datasets import load_irisimport pandas as pd#붗꽃 데이터 셋..