HTML 데이터는 태그명이 태그 속 정보를 대표하지 않아 크롤링이 까다롭다.
XML은 데이터 저장 및 정보 전달을 주된 목적으로 하는 언어이다.
따라서 각 태그가 별다른 기능을 제공하지 않고,
태그의 이름이 각 태그 안의 정보를 대표하는 역할을 한다.
즉, 태그의 이름으로부터 태그 속 정보의 내용을 유추할 수 있다.
반면, HTML은 클라이언트에게 보이는 화면을 디자인하기 위한 언어이다.
각 태그가 특정한 디자인 기능을 제공하는 것을 주된 목적으로 하기 때문에,
HTML 태그의 이름에는 각 태그가 제공하는 기능이 반영된다.
태그의 이름이 태그 속 정보의 내용과 무관하므로 XML 데이터에 비해 크롤링이 까다롭다.
이번 포스팅에서는 HTML 형태의 데이터를 처리하는 방식에 대해 알아본다.
아래 링크에서 실시간 이슈 키워드와 베스트셀러 정보를 수집하는 실습 코드를 확인할 수 있다.
https://github.com/tldnjs1231/web-crawling/blob/main/web-crawling-05-html.ipynb
GitHub - tldnjs1231/web-crawling
Contribute to tldnjs1231/web-crawling development by creating an account on GitHub.
github.com
'2022 데이터 사이언스 > 웹 크롤링' 카테고리의 다른 글
07. 웹 크롤링과 법적 문제 (0) | 2022.07.22 |
---|---|
06. 자동화 도구: Selenium (0) | 2022.07.22 |
04. 데이터의 형태(1): XML (0) | 2022.07.21 |
03. 데이터 프레임(Data Frame) (0) | 2022.07.19 |
02. 웹 페이지 요청: requests (0) | 2022.06.17 |