구글 클라우드 플랫폼에서 가상환경을 만들고, 방화벽을 설정한 다음
자바, 스칼라, 스파크 3가지의 기본적인 환경을 설정하는 과정
https://console.cloud.google.com/welcome/new?hl=nl&project=lateral-goods-402208
로그인 후, 콘솔 클릭
프로젝트 확인
- 프로젝트 이름 누르면 현재 생성된 프로젝트 나타남
- 프로젝트 메뉴 >> New Project
VM instances 생성하기
- 메뉴 : Compute Engine > VM instances
- Create Instance
instance ; 기본 서버 만들기
- Machine Configuration(기본 설정) : E2, e2-medium (4GB 메모리)
- Boot disk(부팅 디스트) 설정 : change >> ubuntu >> select
- Firewall(방화벽) : 이미지와 같이 설정 (Allow HTTP traffic & Allow HTTPS traffic)
- 만들기(create) 클릭
방화벽 규칙 설정
- 방화벽 접속 방법 1 : 아래와 같이 접속하거나
- 방화벽 접속 방법 2 : 인스턴스 화면에서 바로 접속할 수 있음
- 메뉴 : 방화벽 클릭 >> 방화벽 정책이 나타나는지 확인(간단)
- 방화벽 만들기(Create Firewall Rule) 클릭
- 아래와 같이 설정(방화벽이름은 원하는 대로) 하고, 만들기(CREATE) 클릭
SSH 접속
- 다시 compute Engine >> VM instances
- SSH >> Open in browser Window
- SSH 브라우저 확인
미니콘다 설치
SSH 브라우저에서 >> opt 경로로 이동
$ pwd
$ cd ../../opt
- 미니콘다 홈페이지에서 (아래와 같은) 리눅스용 설치 명령어 복붙
- 미니콘다 홈피 : https://docs.conda.io/projects/miniconda/en/latest/
👉 1차 복붙
mkdir -p ~/miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh
bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3
rm -rf ~/miniconda3/miniconda.sh
👉 2차 복붙
~/miniconda3/bin/conda init bash
~/miniconda3/bin/conda init zsh
SSH 끄고 재접속하여 확인
- 아이디 앞에 (base)가 생겨있으면 된 것!
- ls 로 미니콘다 설치 여부 체크
$ cd $HOME
$ ls
>> miniconda3 확인
(2) 자바 설치
- 다시 opt로 돌아가, 아래 명령어로 자바 설치
$ sudo apt update
$ cd ../../opt
$ sudo apt install openjdk-8-jdk -y
환경변수 세팅
# vi편집기 접속
$ vi ~/.bashrc
- 맨 밑으로 내려가서 conda initialize까지 확인
- i 를 눌러 insert 활성화
- 다음 내용 복붙 후, 저장하고 나오기 : esc >> :wq!
# JAVA ENV SET
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$JAVA_HOME/bin:$PATH
export CLASS_PATH=$JAVA_HOME/lib:$CLASS_PATH
# 환경변수 설정 마무리
$ source ~/.bashrc
(2) Scala 설치
- 터미널에 차례로 입력
$ sudo apt-get install scala -y
환경변수 세팅
- vi ~/.bashrc로 편집기 진입, 아래 내용 맨 밑에 삽입 후
- source ~/.bashrc로 마무리
# SCALA ENV SET
export SCALA_HOME=/usr/bin/scala
export PATH=$SCALA_HOME/bin:$PATH
(3) Spark 설치
- 참고로 아래는 스파크 3.1.1 이라는 버전이므로, 최신버전을 다운받고 싶다면 공식 홈페이지에 접속하여 경로를 수정해준다.
- 참고 포스팅 : https://everyday-joyful.tistory.com/241
# opt 위치에서 시작
(base) /opt$ sudo wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
(base) /opt$ sudo tar xvf spark-3.1.1-bin-hadoop2.7.tgz
(base) /opt$ sudo mkdir spark
(base) /opt$ sudo mv spark-3.1.1-bin-hadoop2.7/* /opt/spark/
(base) /opt$ cd spark
(base) /opt/spark$ ls
환경변수 세팅
- cd $home/
- ls 에서 이름 확인 >> {your_id} 자리에 입력
- vi ~/.bashrc : vi 편집기에 아래 내용 추가하고
- source ~/.bashrc 로 마무리
# SPARK ENV SET
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export PYSPARK_PYTHON=/home/{your_id}/miniconda3/bin/python
(4) pySpark 설치
- 아래와 같이 설치하고 확인
# 버전 맞춰서 파이스파크 설치
$ pip install pyspark==3.1.1
$ cd $HOME
$ pyspark
아래와 같이 나타나면 설치가 잘 된 것이다 👍
(5) 주피터 노트북 설정
$ conda install jupyter notebook
# >>>> y 입력
$ jupyter notebook --generate-config
$ cd $HOME
# tab을 사용해서 해당 경로로 이동, vi 편집기 열기
$ vi ~/.jupyter/jupyter_notebook_config.py
▶︎ 찾기 모드(/) 로 /.allow_root -> 엔터
▶︎ i 누르고 다음과 같이 바꿔줌 : 주석처리 해제, True로
▶︎ 다시 esc, 누르고 다음을 찾기 : /.ip =
>>> 엔터
▶︎ local host 부분을 다음과 같이 수정
▶︎ Esc 누르고 >> :wq! (저장 및 종료)
▶︎ 주피터랩 접속해서 토큰 확인
$ jupyter lab
▶︎ token을 복사 후, 외부IP:8888 경로로 웹 페이지 접속
- 복사한 토큰을 복붙하고 pw 설정해서 주피터 노트북 접속
▶︎ 주피터 노트북 생성, 아래 코드로 pyspark 확인
import pyspark
pyspark.__version__
from pyspark.sql import Row
from pyspark.sql.types import *
from pyspark.sql import SparkSession
spark = (SparkSession.builder.appName("Authors").getOrCreate())
spark
pyspark 접속
- 아래 이미지처럼 Ip:4040으로 접속
🔍 참고자료
https://dschloe.github.io/gcp/2023/09/spark_installation_gcp/
728x90
'Programming Basics' 카테고리의 다른 글
[Google Cloud Platform] BigQuery & Looker Studio 시작하기 (0) | 2023.10.18 |
---|---|
구글 클라우드 플랫폼과 깃허브 연동하기 (0) | 2023.10.17 |
spark 원하는 버전으로 설치하기 (설치 경로따기) (0) | 2023.10.17 |
VS Code 로 AWS EC2 접속 (1) | 2023.10.16 |
👩🏻💻 AWS 시작 & mac 원격 서버 접속 & 가상환경 설치 (0) | 2023.10.16 |