가볍게 살펴보기
from bs4 import BeautifulSoup
html = """
<html>
<body>
<h1>크롤링</h1>
<p> 웹 페잊 분석 </p>
<p> 원 하는 내용 추출 </p>
</body>
</html>
"""
soup = BeautifulSoup(html, 'html.parser')
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling
print('h1 = ', h1.string)
print('p = ', p1.string)
print('p = ', p2.string)
h1 = 크롤링
p = 웹 페이지 분석
p = 원 하는 내용 추출
from bs4 import BeautifulSoup
html = """
<html>
<body>
<ul class = "greet">
<li>hello</li>
<li>bye</li>
<li>welcome</li>
<ul class = "reply">
<li>ok</li>
<li>no</li>
<li>sure</li>
</ul>
<div>
<ul>
<li>open</li>
<li>close</li>
</ul>
</div>
</body>
</html>
"""
soup = BeautifulSoup(html, 'html.parser')
div_tag = soup.find('div')
print(div_tag)
<div> <ul> <li>open</li> <li>close</li> </ul> </div>
ul_tag = soup.find('ul')
print(ul_tag)
<ul class="greet"> <li>hello</li> <li>bye</li> <li>welcome</li> <ul class="reply"> <li>ok</li> <li>no</li> <li>sure</li> </ul> <div> <ul> <li>open</li> <li>close</li> </ul> </div> </ul>
li_tag = ul_tag.find('li')
li_tag
<li>hello</li>
li_tag.string
li_tag.text
hello
li_s = ul_tag.find_all('li')
li_s
[<li>hello</li>, <li>bye</li>, <li>welcome</li>, <li>ok</li>, <li>no</li>, <li>sure</li>, <li>open</li>, <li>close</li>]
for li_tag in li_tags:
print(li_tag)
<li>hello</li> <li>bye</li> <li>welcome</li> <li>ok</li> <li>no</li> <li>sure</li> <li>open</li> <li>close</li>
li_tags = soup.findAll('li')
print(len(li_tags))
8
print(li_tags[0])
print(li_tags[1])
print(li_tags[3])
<li>hello</li> <li>bye</li> <li>ok</li>
print(li_tags[0].text)
hello
div_li = div_tag.findAll('li')
print(div_li)
for li_tag in div_li:
print(li_tag.text)
[<li>open</li>, <li>close</li>] open close
for li in soup.find('div').findAll('li'):
print(li.text)
open close
'빅데이터 분석가 양성과정 > Python' 카테고리의 다른 글
Web Crawling - 옷 쇼핑몰 (0) | 2024.07.09 |
---|---|
Web Crawling - find() (0) | 2024.07.09 |
시각화 이용한 탐색적 데이터 분석(6) (1) | 2024.07.08 |
시각화 이용한 탐색적 데이터 분석(5) (0) | 2024.07.08 |
시각화 이용한 탐색적 데이터 분석(4) (0) | 2024.07.08 |