본문 바로가기

Data_Analysis54

[Spark] 구조적 API 기본 연산1 - 컬럼 Spark 포스트는 책 「스파크 완벽 가이드 : 스파크를 활용한 빅데이터 처리와 분석의 모든 것」를 바탕으로 쓴 것임을 알려드립니다. 또한, Scala 코드 위주로 작성한 점 참고 바랍니다. 스파크 완벽 가이드 스파크 창시자가 알려주는 스파크 활용과 배포, 유지 보수의 모든 것. 오픈소스 클러스터 컴퓨팅 프레임워크인 스파크의 창시자가 쓴 스파크에 대한 종합 안내서다. 스파크 사용법부터 배포, 유 www.aladin.co.kr 지난 포스팅에서 구조적 API의 예로 DataFrame을 언급했습니다. DataFrame은 컬럼과 로우로 구성된 로우와 컬럼을 가지는 분산 테이블 형태의 컬렉션입니다. 그러므로 DataFrame 핸들링도 로우와 컬럼에 대한 트랜스포메이션을 위주로 살펴보고자 합니다. [DataFram.. 2020. 12. 26.
[Spark] 구조적 API 개요 Spark 포스트는 책 「스파크 완벽 가이드 : 스파크를 활용한 빅데이터 처리와 분석의 모든 것」를 바탕으로 쓴 것임을 알려드립니다. 또한, Scala 코드 위주로 작성한 점 참고 바랍니다. 스파크 완벽 가이드 스파크 창시자가 알려주는 스파크 활용과 배포, 유지 보수의 모든 것. 오픈소스 클러스터 컴퓨팅 프레임워크인 스파크의 창시자가 쓴 스파크에 대한 종합 안내서다. 스파크 사용법부터 배포, 유 www.aladin.co.kr 1. 구조적 API 종류 구조적 API에는 다음과 같은 분산 컬렉션 API가 있습니다. - Dataset - DataFrame - SQL 테이블과 뷰 2. DataFrame과 DataSet 1) DataFrame과 DataSet 모두 로우와 컬럼을 가지는 분산 테이블 형태의 컬렉션... 2020. 12. 23.
[Spark] 아파치 스파크 들어가기 Spark 포스트는 책 「스파크 완벽 가이드 : 스파크를 활용한 빅데이터 처리와 분석의 모든 것」를 바탕으로 쓴 것임을 알려드립니다. 또한, Scala 코드 위주로 작성한 점 참고 바랍니다. 스파크 완벽 가이드 스파크 창시자가 알려주는 스파크 활용과 배포, 유지 보수의 모든 것. 오픈소스 클러스터 컴퓨팅 프레임워크인 스파크의 창시자가 쓴 스파크에 대한 종합 안내서다. 스파크 사용법부터 배포, 유 www.aladin.co.kr 1. 아파치 스파크 : 빅데이터를 위한 통합 컴퓨팅 엔진과 라이브러리 집합 아파치 스파크는 "빅데이터를 위한 통합 컴퓨팅 엔진과 라이브러리 집합"이라고 설명할 수 있습니다. 여기서 통합이란 데이터 분석 작업이 다양한 처리 유형과 라이브러리를 결합하여 수행한다는 것을 뜻합니다. 스파크.. 2020. 12. 23.
[Zeppelin] Zepplelin 설치 및 실행 스파크로 데이터 분석할 때 유용한 툴인 Zepplin을 소개하고자 합니다. 이번 포스팅에서는 설치와 실행 관하여 다루고 이후 제플린 사용에 대해 이어서 쓸 예정입니다. 제플린에 대한 설명은 잘 정리된 글이 있어 참고하고, 본 포스팅에서는 설치 방법에 포커스를 둡니다. https://medium.com/apache-zeppelin-stories/%EC%98%A4%ED%94%88%EC%86%8C%EC%8A%A4-%EC%9D%BC%EA%B8%B0-2-apache-zeppelin-%EC%9D%B4%EB%9E%80-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80-f3a520297938 오픈소스 일기 2: Apache Zeppelin 이란 무엇인가? 이번시간엔 필자가 Contribute하고 있는 .. 2020. 12. 20.
[Spark] Window 10에 Spark설치 인터넷을 찾아보면 가상 환경에 Spark 설치한 예시는 많은데 로컬에 설치한 예시는 많지 않아서 포스팅해봅니다. Spark설치를 위해서 python, java, scala, Winunit 등을 함께 설치해야 합니다. 또한, 하둡 없이 설치했습니다. 1. 프로그램 설치 1) Java, Python, Scala - 저는 Python과 Java가 미리 설치되어 있었습니다. java와 Python은 아래 경로로 접속하여 다운로드할 수 있습니다. 자세한 내용은 이미 다른 블로그에 잘 정리되어있어 생략합니다. - 다만 python 2 버전은 spark 지원하지 않는다고 하니, python은 버전 3 이상으로 받는 것이 좋습니다. - Spark의 메인 언어인 scala도 함께 설치합니다. 저는 Scala2.11버전으.. 2020. 12. 18.
[Pandas] 파일 불러오기 - Encoding python으로 데이터를 다룰 때 주로 외부에 저장된 csv, text, excel 등 형태의 파일을 불러와서 사용합니다. 이때, 파일을 불러오는 방법을 2가지 정도 소개하고자 합니다. 한글이 포함된 파일을 불러올 때 필요한 인코딩 방법 위주로 작성했습니다. 1. pandas.read_csv() - 기본적으로 read_~~메서드는 "경로/파일명.확장자"만 포함해서 파일을 불러올 수 있다. - encoding이 필요한 경우 encoding="utf-8" 옵션을 추가한다. import pandas as pd # csv형태의 ratings 파일 불러오기. "경로/파일명.확장자" data=pd.read_csv("C:/ratings.csv",encoding="utf-8") 다음은 엑셀 파일을 불러온 것이다. - .. 2020. 12. 17.
[SAS] 자료 행 분할 데이터 행이 너무 많아서 25% 정도 잘라서 사용하려고 합니다. SAS에서 데이터 행 분할하는 쉬운 방법을 몰라 제가 시도한 몇 가지 방법을 소개하려고 합니다. 아래 소개한 방법 외에 좀 더 간단한 방법이 있다면 공유 부탁드립니다~! :) - 데이터: 캐글의 Credit Card Approval Prediction - 기준 열 : app데이터의 ID열 1. SQL로 자르기 # 방법1 ) SQL PROC SQL; CREATE TABLE dataset.app_1 AS SELECT * FROM dataset.app WHERE ID 2020. 12. 1.