2022 데이터 사이언스/웹 크롤링

05. 데이터의 형태(2): HTML

gool 2022. 7. 21. 22:13
HTML 데이터는 태그명이 태그 속 정보를 대표하지 않아 크롤링이 까다롭다.

 

 

 

XML은 데이터 저장 및 정보 전달을 주된 목적으로 하는 언어이다.

따라서 각 태그가 별다른 기능을 제공하지 않고,

태그의 이름이 각 태그 안의 정보를 대표하는 역할을 한다.

즉, 태그의 이름으로부터 태그 속 정보의 내용을 유추할 수 있다.

 

반면, HTML은 클라이언트에게 보이는 화면을 디자인하기 위한 언어이다.

각 태그가 특정한 디자인 기능을 제공하는 것을 주된 목적으로 하기 때문에,

HTML 태그의 이름에는 각 태그가 제공하는 기능이 반영된다.

태그의 이름이 태그 속 정보의 내용과 무관하므로 XML 데이터에 비해 크롤링이 까다롭다.

 

 

이번 포스팅에서는 HTML 형태의 데이터를 처리하는 방식에 대해 알아본다.

아래 링크에서 실시간 이슈 키워드와 베스트셀러 정보를 수집하는 실습 코드를 확인할 수 있다.

 

https://github.com/tldnjs1231/web-crawling/blob/main/web-crawling-05-html.ipynb

 

GitHub - tldnjs1231/web-crawling

Contribute to tldnjs1231/web-crawling development by creating an account on GitHub.

github.com