2022 데이터 사이언스/웹 크롤링

07. 웹 크롤링과 법적 문제

gool 2022. 7. 22. 15:13
웹 크롤링 시 법적 권고안을 무시하면 법적인 문제가 발생할 수 있다.

 

 

 

웹 크롤링(Web Crawling)은 인터넷 서비스 '웹' 브라우저를 통해 인터넷을 돌아다니면서

인터넷 상의 정보를 가져가는 행위를 거미가 거미줄을 위를 기어다니는 것처럼 표현한 것이다.

 

* 웹(Web)은 FTP처럼 대중적으로 사용되는 인터넷 서비스 또는 규약의 한 종류(웹 ≠ 인터넷)

 

 

웹 상의 정보에 대한 권리는 서비스 공급자에게 있다.

웹 크롤링을 수행하는 클라이언트는 정보 제공자의 요구를 반드시 받아들여야 할 의무는 없지만,

접근 금지를 요청하거나 법적인 문제를 제기하는 주체가 공급자이므로 받아들이는 것이 좋다.

 

robot.txt는 관리자가 크롤링을 허용하는 정보와 허용하지 않는 정보를 명시해놓은 파일이다.

페이지 URL 주소 뒤에 /robots.txt를 붙이면 robots.txt 파일을 확인할 수 있다.

 

https://www.google.com/robots.txt

 

'Disallow' 표시가 된 것은 Google 페이지의 관리자가 크롤링하지 않을 것을 요구한 항목이다.

크롤링 행위가 직접 법적인 문제로 이어지지는 않지만, 해당 요구사항은 지킬 것이 권고된다.

 

 

사람인 잡코리아 크롤링, 여기어때 야놀자 크롤링, 다윈프로퍼티 네이버 크롤링 등은

웹 크롤링 행위가 서비스 관리자의 조치로 법적인 문제로까지 이어진 예시이다.

 

이처럼 크롤링 행위 자체가 불법은 아니지만,

사업체 소속으로 상대방의 사업 영역을 침해할 경우 충분히 법적인 문제로 이어질 수 있다.