본문 바로가기
Python/Data Visualization

[시각화] 크롤링 결과 워드클라우드 시각화

by ISLA! 2023. 10. 4.

 

빅데이터 콘테스트의 수상작 제목을 워드클라우드로 시각화해보자.

결과는 다음과 같다.

 

라이브러리와 데이터 불러오기

import pandas as pd
from wordcloud import WordCloud
import matplotlib.pyplot as plt

df = pd.read_csv('BigdataContest.csv')
df.head()

 

 

 

한글 폰트 설정

from matplotlib import font_manager, rc

# 한글 폰트 설정
font_path = "../NanumGothic.ttf"  # "NanumGothic.ttf" 파일이 있는 경로로 수정
font_name = font_manager.FontProperties(fname=font_path).get_name()
rc('font', family=font_name)

 

워드클라우드 시각화

  • "Main_Title" 컬럼에 있는 모든 텍스트가 공백 문자(' ')로 구분되어 하나의 큰 문자열로 합쳐집니다.\
  • 결과와 같이 모든 제목을 하나의 텍스트 덩어리로 만드는 과정
text = ' '.join(df['Main_Title'])
text[:100]

 

 

  • 폰트 깨짐을 방지하기 위해, 위에서 지정한 font_path 를 꼭 지정해주자!
  • 기본적으로 matplotlib 메서드로 시각화를 구현한다.
# WordCloud 객체 생성
wordcloud = WordCloud(width=1000, height=500, background_color='white', font_path = font_path).generate(text)

# 워드클라우드 시각화
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

728x90