Selenium은 마우스나 키보드를 통한 브라우저 조작을 자동화하는 도구이다.
Selenium은 사용자에 의해 이루어지는 웹 브라우저의 조작 및 제어를 자동화하는 도구이며,
사용자의 입력에 따라 동적으로 움직이는 페이지를 크롤링하는 동적 페이지 크롤링에 사용된다.
Selenium 사용 시 웹 브라우저 제어 도구인 드라이버(Driver)로 별도의 창을 열게 되므로,
웹 브라우저를 실행하지 않고 페이지 소스만을 가져오는 requests 모듈에 비해 속도가 느리다.
그러나 requests 모듈의 경우 정적 웹 문서에 대한 크롤링만 가능한 반면,
selenium은 마우스 클릭 및 스크롤링, 키보드 입력 등 모든 동적 활동에 대응할 수 있다.
따라서 동적 페이지의 비중이 커진 요즘의 웹 크롤링 작업에서 활용도가 높다.
아래 링크에서 selenium 자동화 도구를 활용한 동적 페이지 크롤링 실습 코드를 확인할 수 있다.
https://github.com/tldnjs1231/web-crawling/blob/main/web-crawling-06-selenium.ipynb
GitHub - tldnjs1231/web-crawling
Contribute to tldnjs1231/web-crawling development by creating an account on GitHub.
github.com
'2022 데이터 사이언스 > 웹 크롤링' 카테고리의 다른 글
07. 웹 크롤링과 법적 문제 (0) | 2022.07.22 |
---|---|
05. 데이터의 형태(2): HTML (0) | 2022.07.21 |
04. 데이터의 형태(1): XML (0) | 2022.07.21 |
03. 데이터 프레임(Data Frame) (0) | 2022.07.19 |
02. 웹 페이지 요청: requests (0) | 2022.06.17 |