프로덕트 분석

[그로스 해킹 시작하기 1] 업무 환경과 데이터 파이프라인 구축

ISLA! 2024. 3. 9. 14:07

그로스 해킹 시작 단계

  • 1단계 : 데이터를 활용할 수 있는 업무 환경 만들기
  • 2단계 : 데이터 파이프라인 구축하기
  • 3단계 : 데이터 활용을 위한 역량과 문화 갖추기
  • 4단계 : 성장 실험

1. 데이터를 활용할 수 있는 업무 환경 만들기

👉 클라우드 분석 환경, ETL 자동화서비스, BI 서비스를 잘 조합하면 최소한의 엔지니어링 리소스만으로도 데이터를 활용할 수 있는 업무 환경을 비교적 손쉽게 구축할 수 있음

 

(1) 클라우드 분석 환경 

  • 아마존의 EMR(Elastic MapReduce), 구글의 GCP(Google Cloud Platform), 마이크로소프트의 Azure 등이 대표적인 클라우드 플랫폼으로 알려져 있음
  • 데이터 수집, 저장, 전처리에 이르는 많은 프로세스를 간단한 몇 가지 설정만으로 쉽게 구현
  • 아마존의 Redshift, 구글 BigQuery 등 클라우드 데이터베이스의 성능도 훌륭한 편

(2) ETL 자동화서비스

  • ETL : 산재돼 있는 데이터를 수집하고, 분석하기 편한 형태로 변환하고, 원하는 데이터베이스에 최종적으로 적재하는 일련의 과정
  • Fivetran, Stitch 등의 ETL 자동화 서비스는 수십 가지 광고 플랫폼, 어트리뷰션, CRM, 기타 데이터 분석 서비스와의 연동을 통해 필요한 형태로 데이터를 적재하고 전처리하는 과정을 쉽고 편리하게 구축해 줌

(3) BI 서비스

  • 태블로, 구글 데이터 스튜디오, 수퍼셋(Superset), 리대시(Redash) 등 오픈 소스를 기반으로 한 BI(Business Intelligence) 서비스로 간단한 시각화 가능

 

2. 데이터 파이프라인 만들기

 

  • 데이터 파이프라인 : 데이터를 쌓고, 필요한 형태로 가공하고, 추출하고, 의사결정에 활용할 수 있는 프로세스를 만드는 일
  • 데이터 파이프라인을 설계하는 과정에서 고려할 것
    • 어떤 데이터를 쌓을 것인가?
    • 어떤 형태로 쌓을 것인가?
    • 어디에 쌓을 것인가?
    • 어떻게 꺼내서 볼 것인가?

 

(1) 행동 로그 분석을 위한 데이터 파이프라인

  • 서비스 로그 : 트랜잭션(transaction)의 결과를 기록하는 로그
    • 가입, 예약, 결제를 하는 것처럼 하나의 트랜잭션이 완려되면 각각에 대한 서비스 로그가 남음(예 : 회원가입, 구매)
    • 기본적인 서비스 운영을 위해 필수적으로 관리해야함
    • 모든 변경분을 다 쌓을지 최종 수정된 내용만 남길지, 혹은 분석용 데이터베이스를 실시간으로 스트리밍으로 적재할지, 일 배치로 적재할지 정도만 고려해도 일단 충분
  • 행동 로그 : 트랜잭션에 이르기까지 사용자가 서비스에서 하는 하나하나의 액션에 대한 로그(예 : 특정상품을 클릭, 검색 / 배너를 스와이프 하는 등의 액션)
    • 수집이나 활용이 상대적으로 까다로우므로 잘 설계해야 함

 

(2) 이벤트와 속성

  • 행동 로그 설계의 핵심은 이벤트의 속성(Property)을 어떤 수준으로 함께 남길 것인가를 정의하는 부분
  • 이벤트의 속성 : 특정 이벤트가 발생했을 때 함께 남길 수 있는 세부 정보
  • 예) 상품 클릭이라는 ‘이벤트’ 발생 시
    • 이벤트 속성 : 카테고리, 상품명, 가격, 섹션명, 평점 (키key, 값value 으로 구성)
    • 사용자 속성 : 가입일, 누적 구매 건수, 성별, 쿠폰 보유 여부 등
  • 속성을 기록하는 수준에 따라 얻을 수 있는 인사이트 수준이 크게 차이남

 

(3) 행동 로그 설계하고 적재하기

  • 분석에 필요한 이벤트를 정확하기 적재하는 것이 핵심
  • 📑 이벤트 스키마 설계서 : 이벤트를 어떤 기준으로 쌓아서 볼것인지 정의하는 문서
    • 어떤 화면의 어떤 이벤트를 기록할지
    • 그 이벤트가 발생하는 정확한 조건이 무엇인지
    • 이벤트와 함께 기록해야 하는 속성에는 어떤 것이 있는지
    • 각 속성의 데이터 타입은 어떤 타입으로 기록해야하는지
    • 해당 이벤트가 처음 기록되기 시작한 시점은 언제인지 등을 포함

출처 : <그로스 해킹>

 

  • 구글 애널리틱스나 앰플리튜드 등의 로그 분석 시스템을 활용 : 정의된 이벤트 스키마에 따라 적재된 데이터를 손쉽게 확인할 수 있음
  • 이벤트 로그를 자체적으로 관리하는 데이터베이스에 쌓는 방법 : 아마존 레드시프트나 구글 빅쿼리 등의 클라우드 데이터베이스는 많은 데이터를 적재하고 처리하는 데 최적화돼 있음

 

 

---

본 포스팅은 도서 <그로스 해킹>을 참고하여 작성했습니다 👍 (도서를 직접 읽어보시는 것을 추천합니다)

https://product.kyobobook.co.kr/detail/S000001766457

728x90