본문 바로가기

분류 전체보기339

[기초 통계] 분산분석(Analysis of Variance, ANOVA) 분산분석이란? 세 개 이상의 그룹 간의 평균 차이를 비교하고, 이들의 차이가 우연적인 변동에 기인하는지, 진짜 차이에 기인하는지 통계적으로 판단하는 기법 그룹 간의 분산과 그룹 내의 분산을 비교하여 평균 차이의 통계적 유의성을 평가 즉, 주요 목적은 다수 그룹 간에 존재하는 차이를 확인하며, 실제로 그룹 간 차이가 우연적인 것이 아닌지 판단하는 것 언제 사용할까? 1. 세 개 이상의 그룹 간 평균 비교 2. 그룹 간 차이의 통계적 유의성 확인 3. 예를 들어 실험군과 대조군, 다수의 처리 그룹 등 간의 차이를 비교하고자 할 때 ANOVA의 유형 1. 일원배치 분산분석(One-way ANOVA) : 하나의 독립 변수(그룹)에 대해 세 개 이상의 수준을 비교. 하나의 요인을 가진 실험 또는 관찰에 주로 사용.. 2023. 8. 14.
[기초 통계] 대응표본 T-검정 👀 통계 검정 접근 단계 1. 가설 설정 2. 특정 검정을 하기 전, 필요한 가정이 뭔지 파악해야함(예: 정규성, 등분산성 등) 대응표본 T-검정이란? 실험단위를 동질적인 쌍으로 묶은 다음, 각 쌍에서 관측값의 차를 이용하여 두 모평균의 차이에 관한 추론 실험 이전의 집단과 실험 이후의 집단이 동일한 경우 사용하는 검정(쌍체비교) 가설 귀무가설 : 실험전후 평균의 차이는 0이다 대립가설 : 실험전후 평균의 차이는 0이 아니다 가정 독립성 정규성 데이터 확인 운동&식단 프로그램 진행 전, 후의 근육량에 대한 데이터 import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/ethanweed/pythonbook/main/Data/chico.. 2023. 8. 14.
[기초 통계] 독립표본 T-검정 가설 설정 귀무가설 : 그룹 1의 평균과 그룹 2의 평균은 같다. 대립가설 : 그룹 1의 평균과 그룹 2의 평균은 같지 않다. 가정 독립성 정규성 : 각 그룹의 표본수가 𝑁 ≤ 30 이하일 때, 검정해야 함 Shapiro-Wilk tests로 확인 분산의 동질성(등분산성) 실습 데이터 : toothgrowth.csv 기니피그 60마리의 치아 길이, 투여한 비타민 C 종류, 투여량이 저장 len : 치아의 길이 supp : 투여한 약제(VC: 아스코르브산, OJ: 오렌지주스) does : 투여량 t-test 미션 오렌지주스를 투여받은 기니피그의 치아 길이 평균이 아스코르브산을 투여받은 기니피그의 치아 길이 평균과 일치하는지 t-검정(Two Sample t-test)를 통해 확인 1. 데이터 확인 impor.. 2023. 8. 14.
[pingouin] 통계분석 결과를 데이터프레임으로 확인할 수 있는 라이브러리 https://pingouin-stats.org/build/html/index.html Installation — pingouin 0.5.3 documentation Pingouin is an open-source statistical package written in Python 3 and based mostly on Pandas and NumPy. Some of its main features are listed below. For a full list of available functions, please refer to the API documentation. ANOVAs: N-ways, repeated mea pingouin-stats.org 해당 라이브러리를 배울 때 참고할 만한 블로그 htt.. 2023. 8. 11.
[Kaggle 데이터 활용] 연도별 프로그래밍 언어의 사용성 추이 파악 프로그래밍 언어 데이터 추출하여, 연도별 사용도 파악 2019년부터 2020년까지의 Kaggle Survey 데이터 활용 1. 데이터 불러오기 df_2021 = pd.read_csv("./data/kaggle/kaggle_survey_2021/kaggle_survey_2021_responses.csv") df_2020 = pd.read_csv("./data/kaggle/kaggle_survey_2020/kaggle_survey_2020_responses.csv") df_2019 = pd.read_csv("./data/kaggle/kaggle-survey-2019/multiple_choice_responses.csv") df_2021.shape, df_2020.shape, df_2019.shape 2. 각.. 2023. 8. 10.
[Kaggle 데이터 활용] 여러 개의 그래프 한번에 그리기(2) 심화 Kaggle 2021년 survey 데이터 시각화 4개 국가 별, 가장 많이 쓰이는 클라우드 서비스 시각화하여 비교하기 라이브러리 import import plotly.graph_objects as go import plotly.figure_factory as ff#대화형 시각화 라이브러리 데이터 불러오고, 간단히 가공하기 df21 = pd.read_csv("./data/kaggle/kaggle_survey_2021/kaggle_survey_2021_responses.csv") questions = df21.iloc[0, :].T df21 = df21.iloc[1:, :] 간단히 데이터 확인 print(questions['Q28']) print(questions['Q29_A_Part_1']) Of the.. 2023. 8. 10.
[Kaggle 데이터 활용] 여러 개의 그래프 한번에 그리기(2) 기초 여러 개의 그래프 한번에 그리기 plotly.subplots 를 사용하여 다음과 같이 2개 이상의 그래프를 한번에 그릴 수 있다 from plotly.subplots import make_subplots import plotly.graph_objects as go x1 = [1, 2, 3] x2 = [4, 5, 6] y1 = [10, 20, 30] y2 = [50, 60, 70] fig = make_subplots(rows = 1, cols = 2 , subplot_titles=("Plot 1", "Plot 2") , column_widths = [0.7, 0.3]) #size control fig.add_trace( go.Scatter(x = x1, y = y1) ,row = 1, col = 1 ) f.. 2023. 8. 10.
[Plotly] Kaggle Survey Data 시각화 기초 Kaggle Survey Data 시각화 0. 데이터 가져오기 import pandas as pd df = pd.read_csv('./data/kaggle/kaggle_survey_2021/kaggle_survey_2021_responses.csv') df.head() 1. 원하는 데이터 추출 #질문데이터 한 줄만 따로 뽑기 questions = df.iloc[0, :].T #나머지 데이터(인덱스 1번 이후)정리 df = df.iloc[1:, :].reset_index(drop=True) #1번 설문문항의 답을 따로 시리즈로 뽑아내기 q1_df = df['Q1'].value_counts() #1번 질문이 뭐였는지 간단히 확인 questions.Q1 >>'What is your age (# years)?'.. 2023. 8. 10.
[Kaggle 활용] 인도/미국 연봉 비율 비교 EDA 총정리 예제 데이터 분석 과정 요약 1. 시각화 대충 그려보기(간단히 plotly.express 이용) 👉 특이점 발견 (인도, 미국이 높네) 2. 분석 기획 하기 👉 두 나라의 연봉을 비교해볼까? 3. 연봉 값이 너무 다양하니, 연봉을 구간으로 나눠야겠다 👉 구간 기준을 세워 4-5개 정도로 나누자 4. 구간화 코드 작성 5. 인도, 미국 각각 groupby 연산을 통해 연봉 구간별로 분포 파악 6. 각 연봉 구간 별로 비율 파악 7. 그래프를 그려 비교 (상세한 시각화는 plotly.graph_objects 사용) 1. pd.read_csv() 로 데이터 다운 import pandas as pd df = pd.read_csv('./data/kaggle/kaggle_survey_2021/kaggle_survey_2.. 2023. 8. 10.
728x90