'빅데이터 분석가 양성과정/Python' 카테고리의 글 목록

2024.07.10·빅데이터 분석가 양성과정/Python

대중교통 데이터대중교통 데이터 내려 받기 티머니 카드&페이티머니카드, 어린이/청소년할인, T마일리지적립, 소득공제, 유통/교통/모바일결제, 고속/시외버스예매pay.tmoney.co.kr 지하철 유무임별 이용현황 데이터 정제(데이터 전처리)row는 리스트형 데이터이고 이 리스트의 각 요소는 문자열 데이터인 것을 확인인덱스 4부터 7까지는 숫자이므로 정수로 변환f = open('subway.csv', encoding='cp949')data = csv.reader(f)next(data)for row in data: for idx in range(4,8): row[idx] = int(row[idx]) print(row)f.close()['Jun-23', '신림선', '4411', '관악산(서울대)..

인구 공공 데이터 (시각화)

2024.07.10·빅데이터 분석가 양성과정/Python

인구 공공 데이터 (시각화)1.1 데이터 가져오기 행정안전부행정안전부 홈페이지에 오신것을 환영합니다.www.mois.go.krimport csvf = open('age.csv', encoding='cp949')data = csv.reader(f)next(data)for row in data: if row[0] =='경상북도 안동시 명륜동(4717052000)': breakprint(row)f.close()['경상북도 안동시 명륜동(4717052000)', '4,862', '4,862', '14', '14', '21', '17', '19', '29', '22', '34', '24', '30', '37', '39', '36', '38', '32', '44', '46', '34', '43',..

기온 공공 데이터

2024.07.10·빅데이터 분석가 양성과정/Python

기온 공공 데이터1.1 기온 데이터 가져오기기상청은 기상자료개방포털 홈페이지를 통해 기상 관련 데이터를 무료로 제공 기상자료개방포털날씨! 데이터가 되다 기 상 청 API허브data.kma.go.kr1.2 기온 데이터 분석1.2.1 CSV 파일에서 데이터 읽어 오기csv.reader() : CSV 파일에서 데이터 읽어오는 함수csv.writer() : CSV 파일에 데이터를 저장하는 함수1행 부터 7 행까지는 실제 데이터가 아니므로 삭제1.2.2 데이터 출력import csvf = open('부산.csv', 'r', encoding='cp949')data = csv.reader(f)for row in data: print(row)f.close()['\t2023-04-21', '108', '16.7', '..

'한국인의 삶 파악하기' 분석

2024.07.10·빅데이터 분석가 양성과정/Python

'한국인의 삶 파악하기' 분석 데이터 준비하기 저장소. Contribute to youngwoos/Doit_Python development by creating an account on GitHub." data-og-host="github.com" data-og-source-url="https://github.com/youngwoos/Doit_Python/tree/main/Data" data-og-url="https://github.com/youngwoos/Doit_Python/tree/main/Data" data-og-image="https://scrap.kakaocdn.net/dn/b09mOc/hyWvXlZtxq/kF02zMxKtGJ1STj2lGE3uk/img.png?width=1200&height..

데이터 가공하기

2024.07.10·빅데이터 분석가 양성과정/Python

데이터 가공하기 조건에 맞는 데이터만 추출하기import pandas as pdexam = pd.read_csv('./exam.csv')exam.head()exam.query('nclass ==1')exam.query('math > 50')여러 조건 중 두 조건이 모두 만족하는 행 추출exam.query('nclass ==1 & math >=50')exam.query('nclass ==1 and math >=50')여러 조건 중 하나라도 만족하는 행 추출exam.query('math>=90 | english >=90 | science >= 90')exam.query('math>=90 or english >=90 or science >= 90')exam.query('nclass ==1 | nclass ==..

외부 데이터 활용

2024.07.10·빅데이터 분석가 양성과정/Python

Xlsx 데이터df = pd.read_excel('./excel_exam.xlsx')df영어 평균sum(df['english'])/len(df)84.9header 없는 데이터 가져오기df = pd.read_excel('./excel_exam_noheader.xlsx', header = None)df엑셀 파일에 sheet 가 여러 개df = pd.read_excel('./excel_exam_noheader.xlsx', sheet = 'Sheet2')df = pd.read_excel('./excel_exam_noheader.xlsx', sheet = 2) CSV 파일 가져오기df = pd.read_csv('./exam.csv')df파일 내보내기 ( 저장하기 )df_midterm = pd.DataFrame({..

판다스 활용

2024.07.10·빅데이터 분석가 양성과정/Python

import pandas as pddf = pd.DataFrame({ 'name':['김지훈','이유진','박동현','김민지'], 'english':[90,80,60,70], 'math':[50,60,100,20]})dfdf['english']0 901 802 603 70Name: english, dtype: int64df['math']0 501 602 1003 20Name: math, dtype: int64df[['english','math']]print('전체 학생의 영어 점수 합계:' ,sum(df['english']))전체 학생의 영어 점수 합계: 300print('전체 학생의 영어 점수 평균:', sum(df['english'])/4)전체 학생의 영어 점수 평균: 75.0 예제d..

Pydata 데이터 가져오기

2024.07.10·빅데이터 분석가 양성과정/Python

pip install pydatasetimport pydatasetpydataset.data()df = pydataset.data('mtcars')df.head()

스케일링 / 표준화 / 정규화

2024.07.10·빅데이터 분석가 양성과정/Python

feature scaling서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업 : feature scaling -> 표준화 (Standardization)와 정규화 (Normalization)표준화 (Standardization)평균이 0 이고 분산이 1인 Gaussian distribution으로 변환정규화 (Normalization)서로 다른 피처의 크기를 통일하기 위해 크기를 변환하는 개념.사이킷 런의 Normalizer모듈은 선형대수에서의 정규화 개념이 적용, 개별 벡 터의 크기를 맞추기 위해 변환범주형(등급 같이 나눠져 있는것) 변수는 스케일링 해주지 않는다. 실습 데이터from sklearn.datasets import load_irisimport pandas as pd#붗꽃 데이터 셋..

티스토리툴바