본문 바로가기
Python/크롤링&스크래핑

[웹스크래핑] 웹크롤링 vs. 웹스크래핑

by 리미와감자 2023. 1. 13.

웹크롤링 vs. 웹스크래핑

 

웹크롤링

데이터를 수집하는 소프트웨어를 크롤러(crawler)라고 한다. 크롤러는 블로그, 뉴스 기사 등의 페이지를 모두 방문해서 문서가 어디에 있는지, 누가 작성했는지, 어떠한 내용이 들어 있는지를 수집한다. 수집한 데이터를 검색 포털이 데이터 베이스로 만들어 놓기 때문에 사람들이 검색하면 그 결과를 데이터 베이스에서 빠르게 찾아줄 수 있다.

 

어떤 웹페이지에서 페이지의 링크를 따라가면서 모든 내용을 가져오는 것. 허용된 링크를 따라가면서 데이터를 마구잡이로 가져오는 것을 의미한다.

 

ex) 이벤트에 당첨되어 서점에서 카트에 30초 동안 담을 수 있는 모든 책을 담을 수 있는 기회가 생김. 다만 가장 윗줄에 있는 책들은 담으면 안된다. 이때 책의 내용과 관계없이 눈에 보이는 모든 것을 쓸어담는 행위를 의미한다.


웹 스크래핑

스크래핑은 넓은 의미로는 웹페이지의 정보를 수집하는 일련의 행위를 가리킵니다. 따라서 크롤링은 스크래핑의 한 종류로 분류될 수 있다. 좁은 의미로는 웹페이지에서 내가 원하는 데이터를 추출해오는 행위를 의미한다.

 

ex) 시험에 필요한 내용이 적힌 컨닝 페이퍼 한장을 만든다. 많은 정보 중에서 필요한 부분만 적는다.


웹서버와 클라이언트

웹 서버로 데이터를 요청하는 대상을 클라이언트라고 한다. 클라이언트는 웹 서버로 데이터를 요청하고 서버로부터 전달 받은 데이터를 렌더링(출력)한다.

 

 

참고 : https://wikidocs.net/82624

댓글