import urllib.robotparser
rp = urllib.robotparser.RobotFileParser()
# set_url로 robots.txt URL을 설정한다.
rp.set_url('https://www.donga.ac.kr/robots.txt')
# read로 robots.txt를 읽어 들인다.
print(rp.read())
# can_fetch의 첫 번째 매개변수에는 User-Agent 문자열,
# 두 번째 매개변수에 URL을 지정하면 해당 URL을 크롤링해도 괜찮은지 알 수 있다.
print(rp.can_fetch('mybot', 'https://www.donga.ac.kr/'))
'Data science > 크롤링' 카테고리의 다른 글
Error 처리 (2) (0) | 2024.09.23 |
---|---|
Error 처리 (1) (0) | 2024.09.23 |
절대경로, 상대경로 (0) | 2024.09.23 |
MySqldb (0) | 2024.09.21 |
RSS (0) | 2024.09.21 |