robots

import urllib.robotparser
rp = urllib.robotparser.RobotFileParser()

# set_url로 robots.txt URL을 설정한다.
rp.set_url('https://www.donga.ac.kr/robots.txt')

# read로 robots.txt를 읽어 들인다.
print(rp.read())

# can_fetch의 첫 번째 매개변수에는 User-Agent 문자열,
# 두 번째 매개변수에 URL을 지정하면 해당 URL을 크롤링해도 괜찮은지 알 수 있다.
print(rp.can_fetch('mybot', 'https://www.donga.ac.kr/'))

저작자표시

'Data science > 크롤링' 카테고리의 다른 글

Error 처리 (2) (0)	2024.09.23
Error 처리 (1) (0)	2024.09.23
절대경로, 상대경로 (0)	2024.09.23
MySqldb (0)	2024.09.21
RSS (0)	2024.09.21

지식저장소

robots

'Data science > 크롤링' 카테고리의 다른 글

티스토리툴바

robots

'Data science > 크롤링' 카테고리의 다른 글

'Data science/크롤링' Related Articles

티스토리툴바