2022 데이터 사이언스/웹 크롤링

06. 자동화 도구: Selenium

gool 2022. 7. 22. 14:26
Selenium은 마우스나 키보드를 통한 브라우저 조작을 자동화하는 도구이다.

 

 

 

Selenium은 사용자에 의해 이루어지는 웹 브라우저의 조작 및 제어를 자동화하는 도구이며,

사용자의 입력에 따라 동적으로 움직이는 페이지를 크롤링하는 동적 페이지 크롤링에 사용된다.

 

Selenium 사용 시 웹 브라우저 제어 도구인 드라이버(Driver)로 별도의 창을 열게 되므로,

웹 브라우저를 실행하지 않고 페이지 소스만을 가져오는 requests 모듈에 비해 속도가 느리다.

 

그러나 requests 모듈의 경우 정적 웹 문서에 대한 크롤링만 가능한 반면,

selenium은 마우스 클릭 및 스크롤링, 키보드 입력 등 모든 동적 활동에 대응할 수 있다.

따라서 동적 페이지의 비중이 커진 요즘의 웹 크롤링 작업에서 활용도가 높다.

 

 

아래 링크에서 selenium 자동화 도구를 활용한 동적 페이지 크롤링 실습 코드를 확인할 수 있다.

 

https://github.com/tldnjs1231/web-crawling/blob/main/web-crawling-06-selenium.ipynb

 

GitHub - tldnjs1231/web-crawling

Contribute to tldnjs1231/web-crawling development by creating an account on GitHub.

github.com