본문 바로가기

스파크 집계 연산1

[Spark] 집계 연산 [집계 함수] 스파크는 모든 데이터 타입을 다루는 것 외에도 그룹화 데이터 타입 생성도 가능합니다. 그룹화된 결과는 지정된 집계 함수에 따라 Relational Grouped Dataset을 반환합니다. 1. count / countDistinct / approx_count_distinct 2. first / last / min / max 3. sum / sumDistinct 4. 평균 / 분산 / 표준편차 / 왜도 / 첨도 / 공분산 / 상관관계 5. 복합 데이터 타입 (collect_list, collect_set) 먼저 예시로 사용할 데이터 셋을 불러옵니다. // 데이터 셋팅 val retail_all=spark.read.format("csv") .option("header","true") .opt.. 2021. 3. 7.

이전 1 다음

티스토리툴바