데이터 프레임은 행과 열로 이루어진 테이블 형태의 자료구조를
데이터 분석의 관점에서 부르는 말이다.
데이터 프레임(dataframe)은 테이블 형태로 데이터를 처리할 수 있어 데이터 분석에 용이하다.
웹 크롤링의 목적은 웹 상의 데이터를 분석에 용이한 dataframe 형태로 정리정돈하는 것이다.
앞선 포스팅에서 다룬 웹 페이지 요청 과정을 포함한 기본적인 웹 크롤링 절차는 다음과 같다.
- 웹 페이지에 요청할 요청문 준비(requests)
- get 요청을 보내고 요청에 대한 응답 수용
- 파싱(parsing): 응답의 종류(JSON, HTML, XML)에 따라 해석 도구(parser) 상이
- 해석 방식에 따라 데이터를 처리하는 프로세스 상이
- 프로세스에 맞게 데이터 정리정돈(dataframe 변환)
- 정리/가공한 데이터를 파일로 저장
Python에서는 list와 dictionary로 데이터 프레임을 표현하며,
데이터 프레임 생성에는 pandas 라이브러리가 사용된다.
Pandas를 활용하여 list와 dictionary로 표현된 자료를 dataframe 형태로 변환한다.
이번 포스팅에서는 크롤링한 데이터를 dataframe으로 변환 또는 직접 dataframe을 생성한 뒤,
데이터를 가공하고 가공된 자료를 다시 CSV 파일로 저장해보는 실습을 진행한다.
이와 더불어 웹 크롤링에서 매우 중요한 time 모듈을 사용해볼 예정이다.
실습 후 웹 상의 자료를 list/dictionary 형태로 가져와 dataframe으로 저장할 수 있어야 하며,
크롤링에서 time 모듈이 중요한 이유를 이해하고 이를 수시로 적용하는 것에 익숙해져야 한다.
실습 코드는 아래 링크에서 확인할 수 있다.
https://github.com/tldnjs1231/web-crawling/blob/main/web-crawling-03-data_frame.ipynb
GitHub - tldnjs1231/web-crawling
Contribute to tldnjs1231/web-crawling development by creating an account on GitHub.
github.com
'2022 데이터 사이언스 > 웹 크롤링' 카테고리의 다른 글
06. 자동화 도구: Selenium (0) | 2022.07.22 |
---|---|
05. 데이터의 형태(2): HTML (0) | 2022.07.21 |
04. 데이터의 형태(1): XML (0) | 2022.07.21 |
02. 웹 페이지 요청: requests (0) | 2022.06.17 |
01. Intro: Word Cloud (0) | 2022.06.17 |