데이터 가공하기 조건에 맞는 데이터만 추출하기import pandas as pdexam = pd.read_csv('./exam.csv')exam.head()exam.query('nclass ==1')exam.query('math > 50')여러 조건 중 두 조건이 모두 만족하는 행 추출exam.query('nclass ==1 & math >=50')exam.query('nclass ==1 and math >=50')여러 조건 중 하나라도 만족하는 행 추출exam.query('math>=90 | english >=90 | science >= 90')exam.query('math>=90 or english >=90 or science >= 90')exam.query('nclass ==1 | nclass ==..
Xlsx 데이터df = pd.read_excel('./excel_exam.xlsx')df영어 평균sum(df['english'])/len(df)84.9header 없는 데이터 가져오기df = pd.read_excel('./excel_exam_noheader.xlsx', header = None)df엑셀 파일에 sheet 가 여러 개df = pd.read_excel('./excel_exam_noheader.xlsx', sheet = 'Sheet2')df = pd.read_excel('./excel_exam_noheader.xlsx', sheet = 2) CSV 파일 가져오기df = pd.read_csv('./exam.csv')df파일 내보내기 ( 저장하기 )df_midterm = pd.DataFrame({..
import pandas as pddf = pd.DataFrame({ 'name':['김지훈','이유진','박동현','김민지'], 'english':[90,80,60,70], 'math':[50,60,100,20]})dfdf['english']0 901 802 603 70Name: english, dtype: int64df['math']0 501 602 1003 20Name: math, dtype: int64df[['english','math']]print('전체 학생의 영어 점수 합계:' ,sum(df['english']))전체 학생의 영어 점수 합계: 300print('전체 학생의 영어 점수 평균:', sum(df['english'])/4)전체 학생의 영어 점수 평균: 75.0 예제d..
pip install pydatasetimport pydatasetpydataset.data()df = pydataset.data('mtcars')df.head()
feature scaling서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업 : feature scaling -> 표준화 (Standardization)와 정규화 (Normalization)표준화 (Standardization)평균이 0 이고 분산이 1인 Gaussian distribution으로 변환정규화 (Normalization)서로 다른 피처의 크기를 통일하기 위해 크기를 변환하는 개념.사이킷 런의 Normalizer모듈은 선형대수에서의 정규화 개념이 적용, 개별 벡 터의 크기를 맞추기 위해 변환범주형(등급 같이 나눠져 있는것) 변수는 스케일링 해주지 않는다.  실습 데이터from sklearn.datasets import load_irisimport pandas as pd#붗꽃 데이터 셋..
