본문 바로가기

Data science/크롤링

re 모듈로 스크레이핑 실습

# 정규 표현식으로 스크레이핑하기
import re
from html import unescape

with open('dp.html') as f:
    html = f.read()
# 전에 저장시킨 dp파일을 열고 html 변수에 저장

for temp_html in re.findall(r'<td class="left"><a.*?</td>',html,re.DOTALL):       
# re.findall을 사용해 도서 하나에 해당하는 HTML을 추출

    url = re.search(r'<a href="(.*?)">',temp_html).group(1)
    url = 'http://hanbit.co.kr' + url
    # 도서의 url을 추출
    
    title = re.sub(r'<.*?>','',temp_html)
    title = unescape(title)
    # 태그를 제거해서 도서의 제목을 추출
    print('url:',url)
    print('title:',title)
    print('-----')

'Data science > 크롤링' 카테고리의 다른 글

Python 크롤링  (0) 2024.08.30
Python 정규 표현식 정리  (0) 2024.08.28
re 모듈 기본 사용법  (0) 2022.05.18
html 인코딩 방식 추출  (0) 2022.05.18
urllib 기초  (0) 2022.05.18