본문 바로가기

분류 전체보기339

[where절 조건] in으로 원하는 value 만 묶기 예제 ) SALES와 RESEARCH 부서에 해당하는 직원의 정보만 보고 싶을 때? 👉 where 절에 따로따로 지정해서 써줄 수도 있지만 select * from employee e where e.dept = 'SALES' or e.dept ='RESEARCH' 👉 in ()을 써서 괄호 안에 원하는 value 값을 콤마(,)로 묶어 지정할 수 있음 select * from employee e where e.dept in('SALES' ,'RESEARCH') 2023. 3. 18.
[pandas 시계열자료] pd.to_datetime() 함수 datetime (datetime64) 자료형 pandas.to_datetime() 함수 : 날짜와 시간을 나타내는 문자열을 datetime (datetime64) 자료형으로 변경 pandas.to_datetime() 함수 사용법 Series 변수 = to_datetime(Series 변수) return 된 Series 변수 데이터는 datetime64 형으로 변형되어 저장 Series 변수 = to_datetime(Series 변수, format='~') Series 에 변환될 문자열에 특별한 포맷을 지정하여, 명시적으로 format 지정 (옵션) Series 변수 = to_datetime(Series 변수, errors='raise') 디폴트 raise errors 가능한 값: ignore(무시), .. 2023. 3. 13.
상관관계를 확인하는 그래프 - Heatmap & Scatter 그래프 feature 간 상관관계를 보여주는 그래프의 두가지 타입 : heatmap 그래프와 Scatter(산점도) 그래프 1. Heatmap 그래프 그려보기 👉 모든 컬럼간 상관관계를 점으로 보여주는 것. (색이 짙을시 상관관계가 높음) doc.corr() #doc라는 데이터프레임의 feature 간 상관관계를 보여줌. doc2 = doc.corr() #doc2라는 변수에 해당 데이터셋을 저장 doc2.iplot(kind='heatmap') #iplot으로 히트맵 그래프 그리기 옵션 : colorscale = 'ylorrd' 등이 있음. 2. Scatter 그래프 그려보기 👉 두 컬럼간 상관관계를 점으로 보여주는 것. (우상향시 상관관계가 높음) doc.iplot(kind='scatter', x = 'A', .. 2023. 3. 12.
[탐색적 데이터 분석] 테이블 데이터와 시계열 데이터 테이블 데이터란? 엑셀처럼 행과 열로 나타낸 데이터로, 대부분 이 형태로 처리 가능함 구성요소: feature : 테이블의 열 record : 테이블의 행 index : 각 데이터 위치를 식별하기 위한 값 시계열 데이터란? 일정 시간 간격으로 배치된 데이터(예: 주식!) 막대그래프와 라인그래프로 시각화함 시계열 데이터 시각화하기 pd.date_range(start = '2023-01-01', end = '2023-12-31') # 2023년 1월 1일 부터, 말일까지 하루 단위로 인덱스가 생성됨 freq = '3M' (3개월 단위) freq = 'D' (1일 단위, 디폴트) periods = 10 (start와 End 날짜 사이를 10등분하는 것) [예시] date_index = pd.date_range.. 2023. 3. 12.
[탐색적 데이터 분석] 수치형 데이터의 이해, 그래프로 표현하기 범주형 데이터 종류 (1) 명목형 데이터 : 카테고리, 항목 등 분류되어 이미 정해진 값이 있는 데이터, 그 값을 수준(Level)이라고 함. (2) 순서형 데이터 : 정해진 값 사이에 순서 관계가 있는 데이터 범주형 데이터 파악 순서 수준별 데이터 분류하고, 각 갯수 세기 절대빈도 : 절대적인 갯수 막대그래프로 확인 상대빈도 : 각 수준별 비율(%) 원그래프로 확인 수준별 데이터 갯수 세기 Series 형 데이터 파악하는 것과 동일한 방법 사용(컬럼별로) size : 전체 사이즈 count() : 데이터 없는 경우를 제외한 사이즈 unique() : 유일한 값만 value_counts() : 데이터 없는 경우를 제외한, 각 값의 갯수 df['A'].value_counts() #A컬럼의 데이터 없는 경우.. 2023. 3. 9.
[탐색적 데이터 분석] 수치형 데이터의 이해, 그래프로 표현하기 데이터를 분석하고, 시각화하는 전반적인 과정에서 데이터의 분류를 이해하고 있으면 도움이 될 것! 크게 수치형과 범주형 데이터로 나뉨 수치형 데이터 수치형 데이터의 개념 (1) 연속형 데이터 : 특정 범위 안에 어떤 값(정수와 부동소수점)이 가질 수 있는 데이터 (2) 이산 데이터 : 정수만 가질 수 있는 데이터 ▶︎ 다섯 수치 요약(5 number summary) 로 간단히 수치형 데이터를 파악할 수 있음. - 최솟값 - 제 1사분위수 : 25%에 해당하는 값 - 중간값 (=제 3사분위수) : 50%에 해당하는 값 - 제 3사분위수 : 75%에 해당하는 값 - 최댓값 ▶︎ 왜 평균이 없을까? - 특잇값이 평균에 포함되므로, 평균을 잘 보지 않기 때문! - 이상치 특잇값(outlier, 극단값)은 직접 데.. 2023. 3. 9.
[탐색적 데이터 분석] 위치 추정과 변이 추정 위치 추정과 변이 추정 탐색적 데이터 분석을 위해서는 Feature, 즉 각 컬럼이 어떤 의미를 지니고 있는지 알아야 한다. feature 탐색을 위한 방법에는 두 가지 방법이 있다. 1. 위치 추정 데이터의 대푯값을 구하여 feature에 대한 요약 정보를 도출 : 예를 들어, 평균이 있음 대푯값의 종류는 아래와 같다. (1) 평균 : mean ▶︎ 모든 값을 더해 갯수로 나눈 값 (2) 가중 평균 : weighted mean ▶︎ (데이터값 x 가중치)의 합을 더하고, 가중치의 총합으로 나눈 값 ▶︎ 신뢰도가 떨어지는 일정 값은 가중치를 낮게 주는 것임 (3)중간값 : median ▶︎ 데이터를 정렬하여 중간에 위치한 값 ▶︎ 평균은 특잇값에 영향을 많이 받음 -> 따라서 중간값을 평균보다 많이 활용.. 2023. 3. 9.
plotly를 활용한 데이터시각화 : plotly.graph_objects (막대 그래프) 기본적인 그래프 그리기 방법은 꺾은선 그래프 그리기와 동일하다. 바 그래프 예시를 통해, 그래프 세부조정 옵션에 대해 간략이 정리해보았다. 데이터 프레임은 df 에 저장되어 있는 것으로 시작! 1. 두 개의 바 그래프 그리기 👉 textposition: 보여지기를 지정한 텍스트가 어디에 나타날지 선택(공식홈페이지에 다양한 옵션 값 확인 가능) 👉 texttemplate : 텍스트를 어떻게 보여줄 지(예시는 소수점 둘째자리 까지 : '%{y(표시할 값) : .2f (소수점 둘째자리까지)}' import plotly.graph_objects as go fig = go.Figure() fig.add_trace( go.Bar( x=df.index, y=df['B'], name='A', text=df['B'], .. 2023. 3. 9.
plotly를 활용한 데이터시각화 : plotly.graph_objects (꺾은선 그래프) plotly로 그릴 수 있는 그래프 종류 iplot, plotly.express, plotly.graph_objects iplot부터 순차적으로 조금씩 더 세부기능을 쓰며 복잡해진다고 보면 됨 plotly.graph_objects 로드 !pip install plotly import plotly.graph_objects as go # jupyter notebook 에서 그래프가 보이도록하는 명령(필수는 아님, 안보이면 쓰기) import plotly.offline as pyo pyo.init_notebook_mode() 📍 그래프 그리는 기본적인 순서 기본 객체 생성 만들기 : fig = go.Figure() 그래프 객체 추가 : fig.add_trace() (예: go.Scatter()) layout .. 2023. 3. 9.
728x90