본문 바로가기

Python59

랜덤 포레스트 모델 검증 시각화 ▶︎ 랜덤 포레스트 모델의 실제값(y_valid)과 예측값(predict)의 차이 를 그래프로 시각화 ▶︎ 시각화 코드 평가지표 함수 만들기 : RMSE from sklearn.metrics import mean_squared_error def rmse(real, pred): return mean_squared_error(real, pred)**0.5 RMSE = rmse(y_valid, predict) RMSE 시각화 라이브러리 임포트 한글폰트 설정 RMSE : 앞의 함수에서 만든 RMSE 불러오기 그래프 그리기 # 시각화를 위한 라이브러리 import matplotlib.pyplot as plt import matplotlib.font_manager as fm # 한글 폰트를 사용하기 위한 코드 fe.. 2023. 8. 30.
[gca() 함수] 그래프에 패치(타원, 사각형 등) 그리기 gca() 함수 그래프로 시각화하다보면, 이상치로 의심되는 부분을 표시하거나 경향성을 선이나, 사각형, 원(타원) 등으로 표시하고 싶다. 그때 사용하는 것이 gca() 함수이다 현재 활성화된 Figure에 대응하는 Axes 객체를 반환 : "gca"는 "get current axes"의 약어 예제 상황과 코드 버스 운행 거리가 1000이하이면서 운행 시간이 1000이상일 때 운행 거리에 비례하여 운행 시간이 증가하지 않는 것을 확인함 따라서 직사각형으로 이 구간을 표시함으로써 해당 구간이 이상치인지 조금 더 명확하게 확인할 예정 plt.gca().add_patch() : 현재 그래프에 새로운 패치(patch)를 추가 패치는 그래프에 도형을 그리는 데 사용됨 patches.Rectangle()은 사각형 패.. 2023. 8. 24.
[folium 라이브러리] 위도 경도 정보를 활용한 지도 그리기 folium 포리움(folium) 라이브러리는 leaflet.js(자바스크립트 라이브러리) 기반으로 만들어진 Python 지도 시각화 라이브러리이다 포리움 라이브러리의 Map() 함수를 이용하면 간단하게 지도 객체를 만들 수 있다 함수 구성 location : 지도의 중심 [위도, 경도] 좌표 zoom_start : 처음 지도의 확대 비율 조절 (최대 18) width, height : 너비, 높이 # 기본 좌표 설정 m = folium.Map(location=[위도, 경도], zoom_start=17, width=750, height=500) 지도 위, 동그라미 표시 location: 동그라미를 표시할 위도/경도 좌표 radius : 동그라미 크기 tooltip: 표기할 툴팁 지정 (마우스 오버 시 표.. 2023. 8. 24.
[연속형 변수 단일값 시각화] Univariate analysis of continuous variables kaggle study ▶︎ 결과 ▶︎ 시각화 코드 1. 라이브러리 임포트 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import plotly.express as px import matplotlib from wordcloud import WordCloud import warnings warnings.filterwarnings("ignore", category=FutureWarning) 2. 데이터 로드 df = pd.read_csv('healthcare-dataset-stroke-data.csv') tabular = pd.read_csv('tabular-playground-seri.. 2023. 8. 22.
describe() : 범주형 변수에 적용하여 기술 통계량 확인 describe( ) describe() 함수는 수치형 데이터의 기술통계량을 확인하는 것으로 많이 쓰이지만, 범주형 데이터의 통계값도 확인할 수 있다 include 인자에 object를 할당해주면 된다 예제 train.describe(include="object") 👉 train 데이터프레임의 문자열(object) 타입의 열(column)에 대한 요약 통계가 출력됨 결과 해석 count: type 열의 비어 있지 않은(non-null) 데이터의 개수 5497개 unique: type 열에서 고유한(unique) 값의 개수 열에는 고유한(unique) 값이 2개 있음 즉, red와 white 두 가지 값으로 구성되어 있음 top: type 열에서 가장 자주 나타나는 값 가장 빈도수가 높은 값은 white .. 2023. 8. 17.
[구글 colab 데이터 시각화] 한글 폰트 설정 1. 폰트 설치 코드 작성 !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf 2. 런타임 재실행 후, 다음 코드를 실행하여 테스트 import matplotlib.pyplot as plt plt.rc("font", family="NanumGothic") # 라이브러리 불러오기와 함께 한번만 실행 plt.plot([1, 2, 3]) plt.title("한글") plt.show() 3. 아래와 같이 테스트 코드 결과가 나오면 데이터 시각화에도 한글이 잘 나타난다 4. 데이터 시각화 2023. 8. 16.
display() 함수 : 여러 개 데이터프레임 동시에 확인 display() 함수 display 함수는 주피터 노트북이나 Ipython 환경에서 사용함 비교나 분석을 위해 여러 개의 데이터 프레임을 동시에 확인해야 할 때 유용! print() 함수와 달리, 데이터프레임이 표 형태로 보여져, 가독성이 높아 좋다 👍 아래는 사용 예시다 2023. 8. 14.
[Kaggle 데이터 활용] 연도별 프로그래밍 언어의 사용성 추이 파악 프로그래밍 언어 데이터 추출하여, 연도별 사용도 파악 2019년부터 2020년까지의 Kaggle Survey 데이터 활용 1. 데이터 불러오기 df_2021 = pd.read_csv("./data/kaggle/kaggle_survey_2021/kaggle_survey_2021_responses.csv") df_2020 = pd.read_csv("./data/kaggle/kaggle_survey_2020/kaggle_survey_2020_responses.csv") df_2019 = pd.read_csv("./data/kaggle/kaggle-survey-2019/multiple_choice_responses.csv") df_2021.shape, df_2020.shape, df_2019.shape 2. 각.. 2023. 8. 10.
[Kaggle 데이터 활용] 여러 개의 그래프 한번에 그리기(2) 심화 Kaggle 2021년 survey 데이터 시각화 4개 국가 별, 가장 많이 쓰이는 클라우드 서비스 시각화하여 비교하기 라이브러리 import import plotly.graph_objects as go import plotly.figure_factory as ff#대화형 시각화 라이브러리 데이터 불러오고, 간단히 가공하기 df21 = pd.read_csv("./data/kaggle/kaggle_survey_2021/kaggle_survey_2021_responses.csv") questions = df21.iloc[0, :].T df21 = df21.iloc[1:, :] 간단히 데이터 확인 print(questions['Q28']) print(questions['Q29_A_Part_1']) Of the.. 2023. 8. 10.
728x90