스파크 그룹화1 [Spark] 그룹화 [그룹화] - 데이터 그룹 기반의 집계는 단일 컬럼의 데이터를 그룹화하고, 해당 그룹의 다른 여러 컬럼을 사용해서 계산하기 위해 카테고리형 데이터를 사용합니다. - 그룹화 작업은 아래와 같은 단계로 이뤄집니다. (1) 하나 이상의 컬럼을 그룹화 (Relational Grouped Dataset 반환) (2) 집계 연산을 수행 (DataFrame 반환) - 그룹화 코드 (1) 기본적인 그룹화 // 그룹화 retail_all.groupBy("InvoiceNo","CustomerId").count().show() (2) 표현식을 활용한 그룹화 retail_all.groupBy("InvoiceNo").agg( //agg 메서드로 여러 집계 처리를 한 번에 지정 count("Quantity").alias("qua.. 2021. 3. 9. 이전 1 다음