ID로 특정 요소 찾기 : find()from bs4 import BeautifulSouphtml = """ 스크래핑이란 첫 번째 문단 시작 - 끝 두 번째 문단 시작 - 끝 인공지능이란? 세 번쨰 문단 시작 - 끝 네 번째 문단 시작 - 끝"""soup = BeautifulSoup(html, 'html.parser')title_1 = soup.find(id = 'title1')print(title_1.text)print(title_1.string)스크래핑이란 스크래핑이란result = soup.find(id = 'paragraph_3')result.text세 번쨰 문단 시작 - 끝 CLASS로 특정 요소 찾기 : find()find('tag', {'class':'n..
빅데이터 분석가 양성과정/Python
가볍게 살펴보기from bs4 import BeautifulSouphtml = """ 크롤링 웹 페잊 분석 원 하는 내용 추출 """soup = BeautifulSoup(html, 'html.parser')h1 = soup.html.body.h1p1 = soup.html.body.pp2 = p1.next_sibling.next_siblingprint('h1 = ', h1.string)print('p = ', p1.string)print('p = ', p2.string)h1 = 크롤링p = 웹 페이지 분석p = 원 하는 내용 추출from bs4 import BeautifulSouphtml = """ hello..
11. 상관관계를 확인하기 위해 주로 사용되는 그래프 타입 feature 간의 연관 관계 분석주요 그래프 타입heatmap 그래프산점도(scatter) 그래프 11.1. Heatmap 그래프import chart_studio.plotly as pyimport cufflinks as cfcf.go_offline(connected=True)import pandas as pddoc = pd.read_csv("COVID-19-master/csse_covid_19_data/csse_covid_19_daily_reports/04-01-2020.csv", encoding='utf-8-sidoc.corr()iplot 으로 그려보기doc2.iplot(kind='heatmap')cf.help('heatmap')cf.col..
8. 테이블 데이터와 시계열 데이터테이블 데이터 : 엑셀과 같이 행과 열로 나타낸 데이터feature: 테이블의 각 열을 의미record: 테이블의 각 행을 의미index: 각 데이터 위치를 식별하기 위한 값시계열 데이터: 일정 시간 간격으로 배치된 데이터 (시간에 종속된 데이터)이외에도 다양한 형태의 데이터가 있을 수 있으나, 대부분 테이블 데이터 형태로 처리 가능 9. 시계열 데이터 시각화를 위한 사전 준비pd.date_range(start='2020-01-01', end='2020-12-31')freq='3M': 3개월freq='D': 1일periods=10: start와 end 사이 균등 시간 분할참고: https://pandas.pydata.org/pandasdocs/stable/referenc..
6. 범주형 데이터의 요약(탐색)수준 별로 데이터 분류하기수준 별로 데이터 갯수 세기 (count)절대 빈도: 절대 갯수, 상대 빈도: 각 수준의 비율(%)시각화 하기 (빈도표, frequency table)6.1. 수준 별로 데이터 분류하기data = {'year': ['2017', '2017', '2019', '2020', '2021', '2021'],'grade': ['C', 'C', 'B', 'A', 'B', 'E'],}df = pd.DataFrame(data)df1 = df.groupby("grade").count()df2 = df.groupby("year").count()df1df2 6.2. 수준 별로 데이터 갯수 세기 (count)size : 사이즈 반환count() : 데이터가 없는 경우를..
4. 분석 타입에 따른 그래프 종류 이해: 다섯 수치 요약 (5 number summary)과 특잇값 확인상자 그래프 (boxplot) import chart_studio.plotly as pyimport cufflinks as cfcf.go_offline(connected=True)그래프 종류 확인cf.help()iplot 으로 그려보기df.iplot(kind='box')df['A'].iplot(kind='box')plotly.graph_objects 로 그려보기https://plotly.com/python/box-plots/import plotly.graph_objects as goimport plotly.offline as pyo # jupyter notebook 에서 보여지도록 설정하는 부분 (가..