본문 바로가기

Machine Learning71

[기초 통계] 대응표본 T-검정 👀 통계 검정 접근 단계 1. 가설 설정 2. 특정 검정을 하기 전, 필요한 가정이 뭔지 파악해야함(예: 정규성, 등분산성 등) 대응표본 T-검정이란? 실험단위를 동질적인 쌍으로 묶은 다음, 각 쌍에서 관측값의 차를 이용하여 두 모평균의 차이에 관한 추론 실험 이전의 집단과 실험 이후의 집단이 동일한 경우 사용하는 검정(쌍체비교) 가설 귀무가설 : 실험전후 평균의 차이는 0이다 대립가설 : 실험전후 평균의 차이는 0이 아니다 가정 독립성 정규성 데이터 확인 운동&식단 프로그램 진행 전, 후의 근육량에 대한 데이터 import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/ethanweed/pythonbook/main/Data/chico.. 2023. 8. 14.
[기초 통계] 독립표본 T-검정 가설 설정 귀무가설 : 그룹 1의 평균과 그룹 2의 평균은 같다. 대립가설 : 그룹 1의 평균과 그룹 2의 평균은 같지 않다. 가정 독립성 정규성 : 각 그룹의 표본수가 𝑁 ≤ 30 이하일 때, 검정해야 함 Shapiro-Wilk tests로 확인 분산의 동질성(등분산성) 실습 데이터 : toothgrowth.csv 기니피그 60마리의 치아 길이, 투여한 비타민 C 종류, 투여량이 저장 len : 치아의 길이 supp : 투여한 약제(VC: 아스코르브산, OJ: 오렌지주스) does : 투여량 t-test 미션 오렌지주스를 투여받은 기니피그의 치아 길이 평균이 아스코르브산을 투여받은 기니피그의 치아 길이 평균과 일치하는지 t-검정(Two Sample t-test)를 통해 확인 1. 데이터 확인 impor.. 2023. 8. 14.
[pingouin] 통계분석 결과를 데이터프레임으로 확인할 수 있는 라이브러리 https://pingouin-stats.org/build/html/index.html Installation — pingouin 0.5.3 documentation Pingouin is an open-source statistical package written in Python 3 and based mostly on Pandas and NumPy. Some of its main features are listed below. For a full list of available functions, please refer to the API documentation. ANOVAs: N-ways, repeated mea pingouin-stats.org 해당 라이브러리를 배울 때 참고할 만한 블로그 htt.. 2023. 8. 11.
[탐색적 데이터 분석] 위치 추정과 변이 추정 위치 추정과 변이 추정 탐색적 데이터 분석을 위해서는 Feature, 즉 각 컬럼이 어떤 의미를 지니고 있는지 알아야 한다. feature 탐색을 위한 방법에는 두 가지 방법이 있다. 1. 위치 추정 데이터의 대푯값을 구하여 feature에 대한 요약 정보를 도출 : 예를 들어, 평균이 있음 대푯값의 종류는 아래와 같다. (1) 평균 : mean ▶︎ 모든 값을 더해 갯수로 나눈 값 (2) 가중 평균 : weighted mean ▶︎ (데이터값 x 가중치)의 합을 더하고, 가중치의 총합으로 나눈 값 ▶︎ 신뢰도가 떨어지는 일정 값은 가중치를 낮게 주는 것임 (3)중간값 : median ▶︎ 데이터를 정렬하여 중간에 위치한 값 ▶︎ 평균은 특잇값에 영향을 많이 받음 -> 따라서 중간값을 평균보다 많이 활용.. 2023. 3. 9.
[주피터/파이썬] os.listdir() 함수 os.listdir() 함수 파이썬의 os 모듈에 있는 함수 중 하나로, 지정된 경로의 디렉토리 내에 있는 파일과 디렉토리의 이름을 리스트로 반환함. 예를 들어, os.listdir('/Users/username/Desktop')와 같이 호출하면, 'Desktop' 디렉토리에 있는 파일과 디렉토리의 이름을 리스트로 반환 반환된 리스트는 해당 경로 내의 파일과 디렉토리의 이름을 문자열로 담고 있으며, 디렉토리와 파일 각각의 이름이 모두 포함됨. 주로 언제 쓰이는지? os.listdir() 함수는 프로그래밍에서 파일 처리 작업을 수행할 때 자주 사용됨. 이 함수를 사용하면 파이썬 코드에서 특정 디렉토리 내에 있는 파일이나 디렉토리를 쉽게 찾을 수 있음 2023. 3. 7.
[주피터노트북 - 파이썬] try / except 로 예외처리 주피터노트북에서 raw data를 확인하다보면 데이터 내용은 똑같은데 컬럼명이 다른 경우가 있다. 만약 추출하고 싶은 컬럼명이 2가지 버전이라면 try, except 를 사용하여 해당 컬럼을 추출 후, 컬럼명을 변경해준다. 요약 try 해보고, 에러뜨면 except 내용을 실행하라는 것 예시 doc = pd.read_csv(datafile.csv', encoding = 'utf-8-sig') try: doc = doc[['column1', 'column2', 'column3']] #원하는 컬럼만 추출하기(doc에) except: doc = doc[[''column01', 'column02', 'column3']] #컬럼명이 다른 경우에 동일 컬럼 추출하기 doc.columns = ['column1', '.. 2023. 3. 6.
JSON 형식 파일 읽기 / json.load() JSON 라이브러리 불러오기 import json **라이브러리가 불러와지지 않으면 터미널에 pip install json 입력 json.load() 함수 ▶︎ json.load() 함수로 문자열 데이터를 사전처럼 다룰 수 있음 문자열 데이터 예 : '{"key" : "contents", "key2" : :contents2".....}' ▶︎ 아래 예제에서 json_data[' key 값'] 입력시 value 값 반환 import json with open('master/data/real_name.json', 'r', encoding='utf-8-sig') as json_file: json_data = json.load(json_file) [참고] ▶︎ json 파일을 불러올 때 with 사용하는 방법 .. 2023. 3. 6.
[주피터] 파일 불러오기 - 상대 경로와 절대 경로 주피터에서 파일을 불러오는 방법에는 상대경로와 절대경로가 있다. 절대경로 파일의 시작점부터 경유한 모든 경로를 기입 맥의 경우 '/' (슬래시)부터 시작해서 전 경로를 기입 맥 예시 : /Users/Mydocs/file.txt 상대경로 현재 파일을 오픈한 폴더(파일을 찾는 위치) 기준, 상대적인 경로를 기입 예시 : /Users/Mydocs (현 위치) 현재 폴더보다 하위 폴더(data 폴더) 에 있는 파일을 찾는 경우 : 하위폴더명/파일명 의 형식으로 작성 (예: /Users/Mydocs/data/file.txt) 현재 폴더보다 상위 폴더(Users 폴더)에 있는 파일을 찾는 경우 : ../ 의 형식으로 작성 (예: ../file.txt) 상대경로가 너무 길 경우 : 문자열을 변수에 지정 + 로 연결 .. 2023. 3. 6.
728x90