본문 바로가기

전체 글339

[Feature Selection] BorutaPy & SHAP BorutaPy의 주요 특징랜덤 포레스트 기반 부트 스트랩 표본 사용 : 원래 데이터셋에서 무작위로 샘플링하여 모델을 여러번 학습하고 평균 중요도를 계산변수 중요도 평가 : 특정 특성의 중요도와 랜덤하게 생성된 그룹의 중요도를 평가변수 선택 : 모델에 가장 적합한 특성 세트를 찾을 수 있음 사용 과정1. 데이터 준비, 특성과 타겟 변수를 정의 : 실제 특성과 쉐도우 특성 생성📍 쉐도우 특성(shadow feature)이란?- 원본 데이터셋의 특성과 비슷한 특성을 생성하는 것👉 데이터의 무작위성을 유지하기 위해 원본 특성들과 동일한 분포를 가지도록 생성됨👉 원본 특성과 동일한 수의 특성이지만, 실제 데이터와는 무관하게 무작위로 생성됨- 만약 원본 특성이 예측에 중요하다면, boruta 알고리즘은 쉐도.. 2024. 5. 26.
Wilcoxon rank sum test (윌콕슨 순위 합 검정) 🎯 윌콕슨 순위 합 검정윌콕슨 순위합 검정(종종 윌콕슨 맨-휘트니 검정)이라고도 불리며, 두 독립적인 그룹 간의 차이를 평가하기 위한 비모수적 방법이다.데이터를 정규분포로 가정하지 않고, 데이터의 순위를 사용하여 두 그룹간 차이를 검정한다.주로 두 그룹의 중앙값의 차이를 비교하는데 사용된다. 보통 많은 경우, 샘플 데이터들이 정규 분포로부터 추출되었다고 보거나, 샘플 수가 많으면 샘플 평균은 정규 분포를 따르기 때문에(중심극한정리에 따라) t-test나 ANOVA가 널리 쓰인다.그런데, 이런 가정을 만족하지 못하는 경우에는 모수 검정법이 아닌 비모수 검정법을 사용해야 한다.  ▶︎ 모집단의 분포가 정규 분포라고 확신하기 어려운 경우▶︎ 데이터 샘플 수가 너무 적은 경우 이런 경우 independent.. 2024. 5. 20.
[BigQuery] QUALIFY 구문 🎯 QUALIFY일반적으로 윈도우 함수와 함께 사용됨특정 조건을 충족하는 행을 선택하거나 제거하는 데 사용됨윈도우 함수의 결과를 기반으로 행을 필터링 하는데 유용함 예시 쿼리(1) : with 절과 where 사용order_id(주문 아이디), amount(주문 금액)으로 이루어진 테이블(orders)에서 주문 아이디별로 가장 높은 가격의 물건만 보고 싶은 경우, 다음과 같이 with 절을 이용해 서브쿼리로 결과를 출력할 수 있다.where 절로 조건을 거는 경우WITH max_amount_per_order AS ( SELECT order_id, amount, MAX(amount) OVER (PARTITION BY order_id) AS max_amount FROM orders.. 2024. 5. 20.
[지표 위계] Metric Hierarchy 📍본 포스팅은 [인프런] 카일스쿨의 PM을 위한 데이터 리터러시 강의를 기반으로 요약 / 실습했습니다. Metric Hierarchy 왜 필요할까? 회사와 제품에 중요한 지표에 집중할 수 있음 우선순위를 선정할 때 도움이 됨 데이터 기반 문화의 기초! 회사 전체 단위로 작성할 수도 있고, 세부 Product 별로 설정할 수도 있음 Metric Hierarchy 장점 회사의 전체적인 Metric 구조를 파악할 수 있음 중립적인 관점에서 작성된 형태로 전사적으로 같은 관점을 바라볼 수 있음 L1, L2 Metric을 통제할 수 있는 지표로 잘 선정하면 어떤 Action을 해야 할지 판단하기 수월함 L1, L2 Metric 레벨로 가면 조직별, 개인별로 지표를 담당 L2 Metric의 개선이 Focus Met.. 2024. 4. 15.
데이터 로그 설계(4) - Amplitude 마켓컬리 이벤트 로그 설계 예시 🎯 아래와 같이 마켓컬리 웹사이트에 진입하여 특정 상품을 선택했을 때 이벤트로그를 예시로 살펴본다 👉 이커머스 웹사이트에 진입해서, 인기 상품을 탐색하고 카트에 담기까지 주요 여정에서 어떤 이벤트와 property가 수집되는지 확인하며 이벤트 로그 설계의 예를 확인할 수 있다 :) 👉 비로그인 상태에서 진행하여 User에 대한 정보는 담기지 않았음! 1. 홈화면 진입 → 뷰티 사이트 클릭 Event name : select_site Event Id 30 Time 4/14/24, 2:32:04 pm GMT+0900 Device Id 0g0OJFklnL2tMJFozZW-ET User Id null(비로그인 상태) Session Id 1713070446958 Platform Web 👇 Event Propert.. 2024. 4. 14.
프로젝트 회고(Retrospect) 📍본 포스팅은 [인프런] 카일스쿨의 PM을 위한 데이터 리터러시 강의를 기반으로 요약 / 실습했습니다. 회고의 효과 회고를 통해 과거의 경험보다 나은 경험을 할 수 있음 중간에 방향성을 확인할 수 있음 개인의 감정 상태를 확인해, 좋은 팀워크를 유지할 수 있음 그 다음 Action Item을 발굴할 수 있음 → 목적 지향적 사고! 회고 방법론 : KPT 🎯 K → P → T 순서로 공유하며, Action Item이 나오는 것이 핵심! K (Keep) : 계속 유지할 것 P (Problem) : 잘 되지 않거나, 문제가 있는 것 T (Try) : P를 해결하기 위해 시도할 것 회고 시 주의사항 회고에서 중요한 것은 방법론이 아니라 회고의 목적과 구성원들의 마음가짐! 회고 경험을 긍정적으로 만들어 감으로써,.. 2024. 4. 14.
데이터 로그 설계(3) - 데이터 QA 📍본 포스팅은 [인프런] 카일스쿨의 PM을 위한 데이터 리터러시 강의를 기반으로 요약 / 실습했습니다. 데이터 QA 👉 데이터의 품질을 향상하기 위한 활동으로, 데이터 QA를 진행하지 않고 배포하면 나중에 분석 시 데이터가 잘못 기록되는 상황을 인지할 가능성 존재! 데이터 QA로 확인하는 것 1. 데이터 로그가 기록되고 있는가 2. 지정한 이름과 지정된 값(Value)로 기록되고 있는가 3. 지정한 데이터 타입대로 기록되는가 4. 의도한 시점에 Trigger 되는가 5. Android, iOS가 동일하게 데이터가 저장되는가 데이터 QA 방법 1 (GA, Firebase 기반 예시) ▶︎ 하나씩 직접 실행하면서 확인 : 데이터 로그 설계한 Tracking Plan을 보면서 진행 ▶︎ 저장된 데이터를 쿼리해.. 2024. 4. 14.
[Programmers] 상품을 구매한 회원 비율 구하기 문제 2021년에 가입한 전체 회원들 중 상품을 구매한 회원수와 상품을 구매한 회원의 비율 👉 (=2021년에 가입한 회원 중 상품을 구매한 회원수 / 2021년에 가입한 전체 회원 수)을 년, 월 별로 출력하는 SQL문을 작성 - 상품을 구매한 회원의 비율은 소수점 두번째자리에서 반올림하고, - 전체 결과는 년을 기준으로 오름차순 정렬해주시고 년이 같다면 월을 기준으로 오름차순 정렬할 것! https://school.programmers.co.kr/learn/courses/30/lessons/131534 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr 풀.. 2024. 4. 9.
[Programmers] 특정 기간동안 대여 가능한 자동차 대여 비용(풀이) 문제 https://school.programmers.co.kr/learn/courses/30/lessons/157339 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr 풀이 📍 조건 - 자동차 종류가 '세단' 또는 'SUV'인 자동차 중 - 2022년 11월 1일부터 2022년 11월 30일까지 대여 가능하고 - 30일간의 대여 금액이 50만 원 이상 200만 원 미만인 자동차에 대해서 - 자동차 ID, 자동차 종류, 대여 금액(칼럼명: FEE) 리스트 출력 - 대여 금액 내림차순, 자동차 종류 오름차순 정렬, 자동차 ID를 기준으로 내림차순 📍 1차 조.. 2024. 4. 9.
728x90