λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°
Machine Learning/Case Study πŸ‘©πŸ»‍πŸ’»

[쀑고차 가격 예츑(1)] pandas_profiling 을 μ΄μš©ν•œ 피쳐 μš”μ•½ 확인

by ISLA! 2023. 9. 17.

 

πŸ₯‘ pandas_profiling 라이브러리 λ‹€μš΄λ‘œλ“œ

!pip install -U pandas-profiling
  • 데이터 뢄석 및 탐색을 μœ„ν•œ Python 라이브러리
  • λ°μ΄ν„°ν”„λ ˆμž„μ„ 기반으둜 ν•˜μ—¬ λ°μ΄ν„°μ˜ 톡계적 μš”μ•½κ³Ό μ‹œκ°ν™”, 데이터 ν’ˆμ§ˆ 평가 등을 μžλ™ν™”ν•˜μ—¬ 데이터λ₯Ό λΉ λ₯΄κ²Œ μ΄ν•΄ν•˜κ³  데이터 뢄석 ν”„λ‘œμ„ΈμŠ€λ₯Ό κ°€μ†ν™”ν•˜λŠ”λ° 도움을 μ£Όμ–΄, μ†Œκ°œν•œλ‹€
  • ꡬ체적으둜 λ‹€μŒκ³Ό 같은 κΈ°λŠ₯이 μžˆλ‹€.

πŸ‘‰ 데이터 κ°œμš” 및 톡계 μš”μ•½ : 각 열에 λŒ€ν•œ 톡계 μš”μ•½(평균, 쀑앙값, ν‘œμ€€νŽΈμ°¨ λ“±)

πŸ‘‰ 데이터 ν’ˆμ§ˆ 평가 : nan κ°’μ˜ λΉ„μœ¨κ³Ό μ€‘λ³΅λœ λ ˆμ½”λ“œμ˜ 수λ₯Ό ν™•μΈν•˜κ³ , 이상점을 감지

πŸ‘‰ μ‹œκ°ν™” : 데이터에 λŒ€ν•œ λ‹€μ–‘ν•œ μ‹œκ°ν™” κ·Έλž˜ν”„ 생성

πŸ‘‰ 상관관계 뢄석 : μ—΄ κ°„μ˜ 상관관계 뢄석 및 μ‹œκ°ν™”

πŸ‘‰ λ³€μˆ˜κ°„ 관계 탐색

πŸ‘‰ λ³΄κ³ μ„œ 생성 : HTML λ˜λŠ” μ›Ή 기반 λŒ€ν™”ν˜• λ³΄κ³ μ„œλ₯Ό 생성

 

πŸ₯‘ 라이브러리 μž„ν¬νŠΈ

import pandas_profiling

 

🍐 데이터 λ‘œλ“œ ν›„, 기초 탐ꡬ

train = pd.read_csv('./train.csv')

pr = train.profile_report()
pr.to_file('pr_report.html')
pr

html 둜 λ³€ν™˜, μ €μž₯쀑...

 

🍐 κ²°κ³Ό 확인

 

 

μ—¬κΈ°κΉŒμ§€ 전체적인 피쳐듀을 νƒμƒ‰ν•˜κ³ , ꡬ체적인 EDA와 데이터 뢄석은 λ‹€μŒ ν¬μŠ€νŒ…μ—μ„œ μ΄μ–΄μ„œ ν•΄λ³΄μž!

728x90