사용 사이트 : https://www.hanbit.co.kr/store/books/full_book_list.html
한빛출판네트워크
더 넓은 세상, 더 나은 미래를 위한 아시아 출판 네트워크 :: 한빛미디어, 한빛아카데미, 한빛비즈, 한빛라이프, 한빛에듀
www.hanbit.co.kr
wget https://www.hanbit.co.kr/store/books/full_book_list.html
이런 file이 생성되고 들어가서 html코드를 살펴본다.
a태그로 묶인 부분이 책의 제목을 나타낸다.
제목만 가져올려면 정규표현 식을 사용하면 되지만 너무 어려워서 생략해야 할 거 같다.
'Data science > 크롤링' 카테고리의 다른 글
re 모듈 기본 사용법 (0) | 2022.05.18 |
---|---|
html 인코딩 방식 추출 (0) | 2022.05.18 |
urllib 기초 (0) | 2022.05.18 |
Wget 실습(실제 사이트 크롤링) (0) | 2022.05.15 |
Wget 옵션 (0) | 2022.05.15 |