[Web Crawling] Scraping & Crawling

Python/Web Crawling

데이터 세상 2022. 4. 27. 08:49

Web Crawling은 프로그램이 웹 사이트를 정기적으로 돌며 정보를 추출하는 기술이다.

Web Scraping은 웹 사이트에 있는 특정 정보를 추출하는 기술을 말한다.

웹 사이트에 있는 특정 정보를 추출하는 기술을 말한다.

웹 크롤링과 달리 웹 스크래퍼는 특정 웹 사이트 또는 페이지에서 특정 정보를 검색한다.

기본적으로 웹 크롤링은 기존의 복사본을 만들고, 웹 스크래핑은 분석을 위한 특정 데이터를 추출하거나 새로운 것을 만든다.

Data Scraping

컴퓨터 프로그램이 다른 프로그램으로부터 들어오는 인간이 읽을 수 있는 출력으로부터 데이터를 추출하는 기법이다.

프로그램이 웹 사이트를 정기적으로 돌며 정보를 추출한다.

프로그램을 Crawler 또는 Spider라고도 부른다.

때론, 웹 크롤러는 웹 페이지의 내부 링크를 따라 인터넷을 체계적으로 검색하여 컨텐츠를 검색하는 독립 실행형 봇을 말한다.

일반적으로 crawler라는 용어는 명확한 최종 목표나 목표가 없어도 사이트나 네트워크가 제공할 수 있는 것을 끝없이 탐색하면서 스스로 웹 페이지를 탐색할 수 있는 프로그램 능력을 의미한다.

예를 들어, 웹 크롤러는 검색 엔진에서 URL 콘텐츠를 추출하고, 이 페이지에서 다른 링크를 확인하고, 링크의 URL을 가져오는데 주로 사용된다.

Data Scraping	Data Crawling
Involves extracting data from various sources including web	Refers to download pages from the web
Can be done at any scale	Mostly done at a large scale
Deduplication is not necessarily a part	Deduplication is an essential part
Needs crawl agent and parser	Needs only crawl agent

References

728x90

[Web Crawling] Beautiful Soup (0)	2022.04.27
[Web Crawling] Selenium (0)	2021.05.11