본문 바로가기

Data science/크롤링

Wget 실습(원하는 부분 가져오기)

사용 사이트 : https://www.hanbit.co.kr/store/books/full_book_list.html

 

한빛출판네트워크

더 넓은 세상, 더 나은 미래를 위한 아시아 출판 네트워크 :: 한빛미디어, 한빛아카데미, 한빛비즈, 한빛라이프, 한빛에듀

www.hanbit.co.kr

wget https://www.hanbit.co.kr/store/books/full_book_list.html

 이런 file이 생성되고 들어가서 html코드를 살펴본다.

a태그로 묶인 부분이 책의 제목을 나타낸다.

제목만 가져올려면 정규표현 식을 사용하면 되지만 너무 어려워서 생략해야 할 거 같다.

'Data science > 크롤링' 카테고리의 다른 글

re 모듈 기본 사용법  (0) 2022.05.18
html 인코딩 방식 추출  (0) 2022.05.18
urllib 기초  (0) 2022.05.18
Wget 실습(실제 사이트 크롤링)  (0) 2022.05.15
Wget 옵션  (0) 2022.05.15