본문 바로가기

Data science/크롤링

robots

import urllib.robotparser
rp = urllib.robotparser.RobotFileParser()

# set_url로 robots.txt URL을 설정한다.
rp.set_url('https://www.donga.ac.kr/robots.txt')

# read로 robots.txt를 읽어 들인다.
print(rp.read())

# can_fetch의 첫 번째 매개변수에는 User-Agent 문자열,
# 두 번째 매개변수에 URL을 지정하면 해당 URL을 크롤링해도 괜찮은지 알 수 있다.
print(rp.can_fetch('mybot', 'https://www.donga.ac.kr/'))

'Data science > 크롤링' 카테고리의 다른 글

Error 처리 (2)  (0) 2024.09.23
Error 처리 (1)  (0) 2024.09.23
절대경로, 상대경로  (0) 2024.09.23
MySqldb  (0) 2024.09.21
RSS  (0) 2024.09.21