728x90
반응형
Web Crawling은 프로그램이 웹 사이트를 정기적으로 돌며 정보를 추출하는 기술이다.
Web Scraping은 웹 사이트에 있는 특정 정보를 추출하는 기술을 말한다.
Web Scraping
웹 사이트에 있는 특정 정보를 추출하는 기술을 말한다.
웹 크롤링과 달리 웹 스크래퍼는 특정 웹 사이트 또는 페이지에서 특정 정보를 검색한다.
기본적으로 웹 크롤링은 기존의 복사본을 만들고, 웹 스크래핑은 분석을 위한 특정 데이터를 추출하거나 새로운 것을 만든다.
Data Scraping
컴퓨터 프로그램이 다른 프로그램으로부터 들어오는 인간이 읽을 수 있는 출력으로부터 데이터를 추출하는 기법이다.
Web Crawling
프로그램이 웹 사이트를 정기적으로 돌며 정보를 추출한다.
프로그램을 Crawler 또는 Spider라고도 부른다.
때론, 웹 크롤러는 웹 페이지의 내부 링크를 따라 인터넷을 체계적으로 검색하여 컨텐츠를 검색하는 독립 실행형 봇을 말한다.
일반적으로 crawler라는 용어는 명확한 최종 목표나 목표가 없어도 사이트나 네트워크가 제공할 수 있는 것을 끝없이 탐색하면서 스스로 웹 페이지를 탐색할 수 있는 프로그램 능력을 의미한다.
예를 들어, 웹 크롤러는 검색 엔진에서 URL 콘텐츠를 추출하고, 이 페이지에서 다른 링크를 확인하고, 링크의 URL을 가져오는데 주로 사용된다.
Data Scraping vs Data Crawling
Data Scraping | Data Crawling |
Involves extracting data from various sources including web | Refers to download pages from the web |
Can be done at any scale | Mostly done at a large scale |
Deduplication is not necessarily a part | Deduplication is an essential part |
Needs crawl agent and parser | Needs only crawl agent |
출처: Data Scraping vs Data Crawling
References
728x90
반응형
'Python > Web Crawling' 카테고리의 다른 글
[Web Crawling] Beautiful Soup (0) | 2022.04.27 |
---|---|
[Web Crawling] Selenium (0) | 2021.05.11 |