스파크로 데이터 분석할 때 유용한 툴인 Zepplin을 소개하고자 합니다.
이번 포스팅에서는 설치와 실행 관하여 다루고 이후 제플린 사용에 대해 이어서 쓸 예정입니다.
제플린에 대한 설명은 잘 정리된 글이 있어 참고하고, 본 포스팅에서는 설치 방법에 포커스를 둡니다.
1. Zeppelin 다운로드
아래 링크로 제플린 설치 파일을 다운로드합니다.
https://zeppelin.apache.org/download.html
- 저는 Binary package with all interpreters는 여러 인터프리터와 연동할 수 있는 패키지로 받았습니다.
- 적절한 경로에 Zeppelin 압축을 풉니다.
2. 환경설정
- 제플린 압축을 푼 폴더 > conf 폴더
- zeppelin-site.xml.template의 카피본 zeppelin-site.xml 생성
- zeppelin-env.sh.template의 카피본 zeppelin-env.sh 생성
- zeppelin-site.xml을 열어 zeppelin.server.port 를 편집합니다. 저는 서버 포트를 9999로 변경했습니다.
- zeppelin-env.sh을 열어 아래 항목을 편집합니다. 시스템 환경 변수 설정에 입력한 경로를 똑같이 입력하면 됩니다.
저는 아래와 같이 설정했습니다.
- export JAVA_HOME=C:\Program Files\Java\jdk1.8.0_201
- export SPARK_HOME=C:\HadoopEco\spark-2.4.7-bin-hadoop2.7
- export PYSPARK_PYTHON=C:\HadoopEco\spark-2.4.7-bin-hadoop2.7\python
- export PYTHONPATH=C:\HadoopEco\spark-2.4.7-bin-hadoop2.7\python
3. 실행
- 제플린 압축을 푼 폴더 > bin 폴더 > zepplelin.cmd 실행
- zepplelin.cmd 실행한 다음, zepplelin-deamon.sh 실행
- 웹 브라우저에서 http://localhost:9999로 접속하면 아래와 같이 화면이 뜹니다. 9999는 제가 재설정한 서버 포트입니다.
'Data_Analysis > Spark, Zeppelin' 카테고리의 다른 글
[Spark] 구조적 API 기본 연산2 - 로우 (0) | 2020.12.26 |
---|---|
[Spark] 구조적 API 기본 연산1 - 컬럼 (0) | 2020.12.26 |
[Spark] 구조적 API 개요 (0) | 2020.12.23 |
[Spark] 아파치 스파크 들어가기 (0) | 2020.12.23 |
[Spark] Window 10에 Spark설치 (0) | 2020.12.18 |
댓글