본문 바로가기

Data science/크롤링

session, Cached

import requests
from cachecontrol import CacheControl

session = requests.session()
# session을 래핑한 cached_session 만들기
cached_session = CacheControl(session)

# 첫 번째는 캐시돼 있지 않으므로 서버에서 추출한 이후 캐시한다.
response = cached_session.get('https://docs.python.org/3/')
print(response.from_cache)

# ETag와 Last-Modified 값을 사용해 업데이트됐는지 확인한다.
# 변경사항이 없는 경우에는 콘테츠를 캐시에서 추출해서 사용하므로 빠른 처리가 가능하다.
response = cached_session.get('https://docs.python.org/3/')
print(response.from_cache)

'Data science > 크롤링' 카테고리의 다른 글

email 보내기  (0) 2024.09.23
Schema(크롤링 대상의 변화)  (0) 2024.09.23
Error 처리 (2)  (0) 2024.09.23
Error 처리 (1)  (0) 2024.09.23
robots  (0) 2024.09.23