웹 크롤링과 웹 스크래핑
1) 웹 크롤링(Web Crawling)
- 웹 크롤러(자동화 봇)가 일정 규칙으로 웹 페이지를 브라우징하는 기술
2) 웹 스크래핑(Web Scarping)
- 웹 사이트 상에서 원하는 정보를 추출하는 기술
- 일반적으로 말하는 웹 크롤링을 웹 스크래핑을 의미
3) 파싱(Parsing)
- 특정 웹 페이지에 원하는 데이터를 패턴이나 순서에 따라 추출해 정보를 가공하는 것
- 더 일반적인 개념으로는 일련의 데이터를 분석하고 가공하는 것
웹 스크래핑 방지 기술
1) IP 제한
- 특정 IP 주소에서 단 기간에 많은 요청이 있음이 감지될 경우, IP 주소 차단
2) 액세스 속도 추척
- 시스템에서 페이지를 빨리 지나가는 것이 감지될 경우, 스크래핑으로 인식하고 차단
3) 레이아웃이 다른 페이지를 사용
- 페이지 마다 다른 레이아웃을 사용해 스크래핑을 어렵게 만듬
4) 보안 문자 사용
- 보안 문자를 사용해 스크래핑을 느리게 만들거나 방지
5) 자바스크립트 암호화 기술
- 자바 스크립트를 사용해 컨텐츠가 긁히지 않도록 보호
6) 인증
- 컨텐츠를 보기 위해 모든 단일 요청에 식별을 위한 정보를 함께 입력받음
파이썬을 활용해 웹 스크래핑하기
https://dheldh77.tistory.com/category/Language/Python
'CS > Network' 카테고리의 다른 글
[네트워크] Web Server와 WAS (3) | 2020.06.28 |
---|---|
[네트워크] Spoofing / Sniffing / Snooping (0) | 2020.06.28 |
[네트워크] 싱글스레드 서버와 멀티스레드 서버 (0) | 2020.06.28 |
[네트워크] 동기식 네트워크와 비동기식 네트워크 (0) | 2020.06.28 |
[네트워크] MAC / ARP / RARP (0) | 2020.06.28 |
댓글