웹 크롤링 시 법적 권고안을 무시하면 법적인 문제가 발생할 수 있다.
웹 크롤링(Web Crawling)은 인터넷 서비스 '웹' 브라우저를 통해 인터넷을 돌아다니면서
인터넷 상의 정보를 가져가는 행위를 거미가 거미줄을 위를 기어다니는 것처럼 표현한 것이다.
* 웹(Web)은 FTP처럼 대중적으로 사용되는 인터넷 서비스 또는 규약의 한 종류(웹 ≠ 인터넷)
웹 상의 정보에 대한 권리는 서비스 공급자에게 있다.
웹 크롤링을 수행하는 클라이언트는 정보 제공자의 요구를 반드시 받아들여야 할 의무는 없지만,
접근 금지를 요청하거나 법적인 문제를 제기하는 주체가 공급자이므로 받아들이는 것이 좋다.
robot.txt는 관리자가 크롤링을 허용하는 정보와 허용하지 않는 정보를 명시해놓은 파일이다.
페이지 URL 주소 뒤에 /robots.txt를 붙이면 robots.txt 파일을 확인할 수 있다.
https://www.google.com/robots.txt
'Disallow' 표시가 된 것은 Google 페이지의 관리자가 크롤링하지 않을 것을 요구한 항목이다.
크롤링 행위가 직접 법적인 문제로 이어지지는 않지만, 해당 요구사항은 지킬 것이 권고된다.
사람인 잡코리아 크롤링, 여기어때 야놀자 크롤링, 다윈프로퍼티 네이버 크롤링 등은
웹 크롤링 행위가 서비스 관리자의 조치로 법적인 문제로까지 이어진 예시이다.
이처럼 크롤링 행위 자체가 불법은 아니지만,
사업체 소속으로 상대방의 사업 영역을 침해할 경우 충분히 법적인 문제로 이어질 수 있다.
'2022 데이터 사이언스 > 웹 크롤링' 카테고리의 다른 글
06. 자동화 도구: Selenium (0) | 2022.07.22 |
---|---|
05. 데이터의 형태(2): HTML (0) | 2022.07.21 |
04. 데이터의 형태(1): XML (0) | 2022.07.21 |
03. 데이터 프레임(Data Frame) (0) | 2022.07.19 |
02. 웹 페이지 요청: requests (0) | 2022.06.17 |