본문 바로가기
CS/Network

[네트워크] 웹 크롤링과 웹 스크래핑

by 테리는당근을좋아해 2020. 6. 28.

웹 크롤링과 웹 스크래핑

1) 웹 크롤링(Web Crawling)

- 웹 크롤러(자동화 봇)가 일정 규칙으로 웹 페이지를 브라우징하는 기술

 

2) 웹 스크래핑(Web Scarping)

- 웹 사이트 상에서 원하는 정보를 추출하는 기술

- 일반적으로 말하는 웹 크롤링을 웹 스크래핑을 의미

 

3) 파싱(Parsing)

- 특정 웹 페이지에 원하는 데이터를 패턴이나 순서에 따라 추출해 정보를 가공하는 것

- 더 일반적인 개념으로는 일련의 데이터를 분석하고 가공하는 것

 

웹 스크래핑 방지 기술

1) IP 제한

- 특정 IP 주소에서 단 기간에 많은 요청이 있음이 감지될 경우, IP 주소 차단

 

2) 액세스 속도 추척

- 시스템에서 페이지를 빨리 지나가는 것이 감지될 경우, 스크래핑으로 인식하고 차단

 

3) 레이아웃이 다른 페이지를 사용

- 페이지 마다 다른 레이아웃을 사용해 스크래핑을 어렵게 만듬

 

4) 보안 문자 사용

- 보안 문자를 사용해 스크래핑을 느리게 만들거나 방지

 

5) 자바스크립트 암호화 기술

- 자바 스크립트를 사용해 컨텐츠가 긁히지 않도록 보호

 

6) 인증

- 컨텐츠를 보기 위해 모든 단일 요청에 식별을 위한 정보를 함께 입력받음

 

 

파이썬을 활용해 웹 스크래핑하기

https://dheldh77.tistory.com/category/Language/Python

 

'Language/Python' 카테고리의 글 목록

https://github.com/dheldh77

dheldh77.tistory.com

 

댓글