2022 데이터 사이언스/웹 크롤링

01. Intro: Word Cloud

gool 2022. 6. 17. 11:58
웹 크롤링을 하려면 문자열 가공과 list, dictionary 자료형에 익숙해야 한다.

 

 

 

웹 크롤링(Web Crawling)은 웹 서버에서 데이터를 끌어오는 작업을 말한다.

 

JSON 형식 등 웹에서 데이터를 보관하는 방식이 dictionary 형태와 유사하고,

그 외에도 웹 상의 데이터를 dictionary 형태로 가져오는 경우가 많다.

 

웹 서버에서 끌어온 데이터를 dictionary 형태로 변환하기 위해서는,

텍스트를 가공하고 list 자료형을 다루는 것에 익숙해야 한다.

 

 

 

Word Cloud

 

앞서 언급한 세 가지 자료형을 모두 활용해보기 좋은 몸풀기로 Word Cloud 출력이 있다.

Word Cloud는 정보나 데이터를 시각적으로 표현한 것을 말한다.

글자 크기에 빈도나 중요도를 반영하여 특정 형태의 Word Cloud로 출력하기도 한다.

 

구글에서 'BTS - Butter'의 가사를 복사해 여러 줄 문자열 형태로 코드에 붙여넣은 후,

가사에 등장한 단어의 빈도수를 글자 크기에 반영한 Word Cloud를 출력하는 실습을 진행한다.

 

 

 

replace(), split(), count() 메소드를 사용하여 문자열을 가공하고,

Word Cloud 출력에는 random, turtle 모듈을 사용한다.

 

실습 툴로는 Jupyter Notebook을 사용하는데,

Jupyter Notebook은 데이터 분석과 머신 러닝에 자주 활용되는 도구이기 때문에

데이터 분석, 머신 러닝에 필수적인 웹 크롤링에서 미리 Jupyter Notebook에 익숙해지면 좋다.

 

아래 링크에서 Word Cloud 실습 코드를 확인할 수 있다.

 

https://github.com/tldnjs1231/web-crawling/blob/main/web-crawling-01-word_cloud.ipynb

 

GitHub - tldnjs1231/web-crawling

Contribute to tldnjs1231/web-crawling development by creating an account on GitHub.

github.com

 

 

 

Word Cloud 출력 화면