안녕하세요 jay입니다.
오늘은 크롤링과 스크레이핑에 대해 알아보도록 하겠습니다.
1. 웹크롤러의 정의
웹페이지의 정보를 추출하기 위한 프로그램
스파이더(Spider) 혹은 봇(bot) 혹은 크롤러(crawler)라고 불립니다.
웹사이트에서 정보를 추출하고 정리하는 역할을 합니다.(ex, 음식점의 예약상황을 실시간으로 추출)
2. 크롤링과 스크레이핑
크롤링(Crawling) : 크롤러를 이용하여 데이터를 수집하는 것,
웹페이지의 하이퍼링크를 순회하며 웹페이지를 다운로드 하는 작업
크롤링 하는 방법 : 표준 라이브러리 urllib.request 모듈을 사용
서드 파티 라이브러리를 사용(사람들이 직접 만들어 공개한 라이브러리)
스크레이핑(Scraping) : 다운로드한 웹페이지에서 필요한 정보를 추출하는 작업
HTML 스크레이핑에 사용되는 라이브러리
-re모듈을 사용하여 정규 표현식으로 추출
-요소를 지정하는 방식(Xpath, cssselector)
- lxml
- Beautifulsoup
RSS 스크레이핑 하기
- Element tree
- Feedparser
댓글
댓글 쓰기