본문 바로가기

Spark2

[Spark] Window 함수 [window 함수] - 특정 윈도우를 대상으로 고유의 집계 연산을 수행합니다. - 윈도우는 현재 데이터에 대한 참조를 사용해 정의하고,윈도우 명세는 함수에 전달될 로우를 결정합니다. - groupBy 함수를 사용하면 모든 로우 레코드가 단일 그룹으로만 이동하는 반면, 윈도우 함수는 프레임(로우 그룹 기반의 테이블)에 입력되는 모든 로우에 대해 결괏값을 계산합니다. 코드 예제를 통해 window 함수를 살펴보겠습니다. - 데이터 셋팅 // 데이터 셋팅 val retail=spark.read.format("csv") .option("header","true") .option("inferSchema","true") .load("C:/data/retail-data/by-day/2011-01-30.csv") r.. 2021. 3. 11.
[Spark] Window 10에 Spark설치 인터넷을 찾아보면 가상 환경에 Spark 설치한 예시는 많은데 로컬에 설치한 예시는 많지 않아서 포스팅해봅니다. Spark설치를 위해서 python, java, scala, Winunit 등을 함께 설치해야 합니다. 또한, 하둡 없이 설치했습니다. 1. 프로그램 설치 1) Java, Python, Scala - 저는 Python과 Java가 미리 설치되어 있었습니다. java와 Python은 아래 경로로 접속하여 다운로드할 수 있습니다. 자세한 내용은 이미 다른 블로그에 잘 정리되어있어 생략합니다. - 다만 python 2 버전은 spark 지원하지 않는다고 하니, python은 버전 3 이상으로 받는 것이 좋습니다. - Spark의 메인 언어인 scala도 함께 설치합니다. 저는 Scala2.11버전으.. 2020. 12. 18.