re 모듈로 스크레이핑 실습

# 정규 표현식으로 스크레이핑하기
import re
from html import unescape

with open('dp.html') as f:
    html = f.read()
# 전에 저장시킨 dp파일을 열고 html 변수에 저장

for temp_html in re.findall(r'<td class="left"><a.*?</td>',html,re.DOTALL):       
# re.findall을 사용해 도서 하나에 해당하는 HTML을 추출

    url = re.search(r'<a href="(.*?)">',temp_html).group(1)
    url = 'http://hanbit.co.kr' + url
    # 도서의 url을 추출
    
    title = re.sub(r'<.*?>','',temp_html)
    title = unescape(title)
    # 태그를 제거해서 도서의 제목을 추출
    print('url:',url)
    print('title:',title)
    print('-----')

저작자표시

'Data science > 크롤링' 카테고리의 다른 글

Python 크롤링 (0)	2024.08.30
Python 정규 표현식 정리 (0)	2024.08.28
re 모듈 기본 사용법 (0)	2022.05.18
html 인코딩 방식 추출 (0)	2022.05.18
urllib 기초 (0)	2022.05.18

지식저장소

re 모듈로 스크레이핑 실습

'Data science > 크롤링' 카테고리의 다른 글

티스토리툴바

re 모듈로 스크레이핑 실습

'Data science > 크롤링' 카테고리의 다른 글

'Data science/크롤링' Related Articles

티스토리툴바