# 정규 표현식으로 스크레이핑하기
import re
from html import unescape
with open('dp.html') as f:
html = f.read()
# 전에 저장시킨 dp파일을 열고 html 변수에 저장
for temp_html in re.findall(r'<td class="left"><a.*?</td>',html,re.DOTALL):
# re.findall을 사용해 도서 하나에 해당하는 HTML을 추출
url = re.search(r'<a href="(.*?)">',temp_html).group(1)
url = 'http://hanbit.co.kr' + url
# 도서의 url을 추출
title = re.sub(r'<.*?>','',temp_html)
title = unescape(title)
# 태그를 제거해서 도서의 제목을 추출
print('url:',url)
print('title:',title)
print('-----')
'Data science > 크롤링' 카테고리의 다른 글
Python 크롤링 (0) | 2024.08.30 |
---|---|
Python 정규 표현식 정리 (0) | 2024.08.28 |
re 모듈 기본 사용법 (0) | 2022.05.18 |
html 인코딩 방식 추출 (0) | 2022.05.18 |
urllib 기초 (0) | 2022.05.18 |