스파크로 데이터 분석할 때 유용한 툴인 Zepplin을 소개하고자 합니다.
이번 포스팅에서는 설치와 실행 관하여 다루고 이후 제플린 사용에 대해 이어서 쓸 예정입니다.
제플린에 대한 설명은 잘 정리된 글이 있어 참고하고, 본 포스팅에서는 설치 방법에 포커스를 둡니다.
오픈소스 일기 2: Apache Zeppelin 이란 무엇인가?
이번시간엔 필자가 Contribute하고 있는 오픈소스 프로젝트인 아파치 제플린(Apache Zeppelin)에 대해서 다뤄보도록 하겠다. 이미 잘 알고 계시는 분들보다 이것이 뭔지 잘 모르는 분들의 이해를 돕고
medium.com
1. Zeppelin 다운로드
아래 링크로 제플린 설치 파일을 다운로드합니다.
https://zeppelin.apache.org/download.html
Download
Note: From Zeppelin version 0.6.2, Spark interpreter in binary package is compatible with Spark 2.0 & Scala 2.11 and Spark 1.6(or previous) & Scala 2.10. You can use even different version of Spark at the same time if you set different SPARK_HOME in interp
zeppelin.apache.org
- 저는 Binary package with all interpreters는 여러 인터프리터와 연동할 수 있는 패키지로 받았습니다.
- 적절한 경로에 Zeppelin 압축을 풉니다.
2. 환경설정
- 제플린 압축을 푼 폴더 > conf 폴더
- zeppelin-site.xml.template의 카피본 zeppelin-site.xml 생성
- zeppelin-env.sh.template의 카피본 zeppelin-env.sh 생성
- zeppelin-site.xml을 열어 zeppelin.server.port 를 편집합니다. 저는 서버 포트를 9999로 변경했습니다.
- zeppelin-env.sh을 열어 아래 항목을 편집합니다. 시스템 환경 변수 설정에 입력한 경로를 똑같이 입력하면 됩니다.
저는 아래와 같이 설정했습니다.
- export JAVA_HOME=C:\Program Files\Java\jdk1.8.0_201
- export SPARK_HOME=C:\HadoopEco\spark-2.4.7-bin-hadoop2.7
- export PYSPARK_PYTHON=C:\HadoopEco\spark-2.4.7-bin-hadoop2.7\python
- export PYTHONPATH=C:\HadoopEco\spark-2.4.7-bin-hadoop2.7\python
3. 실행
- 제플린 압축을 푼 폴더 > bin 폴더 > zepplelin.cmd 실행
- zepplelin.cmd 실행한 다음, zepplelin-deamon.sh 실행
- 웹 브라우저에서 http://localhost:9999로 접속하면 아래와 같이 화면이 뜹니다. 9999는 제가 재설정한 서버 포트입니다.
'Data_Analysis > Spark, Zeppelin' 카테고리의 다른 글
[Spark] 구조적 API 기본 연산2 - 로우 (0) | 2020.12.26 |
---|---|
[Spark] 구조적 API 기본 연산1 - 컬럼 (0) | 2020.12.26 |
[Spark] 구조적 API 개요 (0) | 2020.12.23 |
[Spark] 아파치 스파크 들어가기 (0) | 2020.12.23 |
[Spark] Window 10에 Spark설치 (0) | 2020.12.18 |
댓글