본문 바로가기
728x90
반응형

스파크 데이터프레임2

스파크 기본 명령어, 스파크 데이터프레임 명령어 (스파크 정리 4) 전편 ☞ 2022.09.22 - [Data Engineering/스파크] - 스파크 Structured API - Datasets, DataFrames, SQL tables (스파크 정리 3) 이번 포스팅에서는 DataFrames를 조작할 수 있는 여러 기본 명령어들을 알아본다. 언어는 스칼라와 파이썬 두 개를 사용하였다. 실습을 위해 전 포스팅(2022.09.16 - [Data Engineering/스파크] - 스파크란? 스파크 기본 개념 (스파크 정리 2))을 참고해 데이터를 다운받은 후 데이터 하나를 읽어오자. // in scalar val df = spark.read.format("json") .load("/data/flight-data/json/2015-summary.json") # in pyt.. 2022. 9. 24.
스파크 Structured API - Datasets, DataFrames, SQL tables (스파크 정리 3) 전편 ☞ 2022.09.16 - [Data Engineering/스파크] - 스파크란? 스파크 기본 개념 (스파크 정리 2) 1. Structured API 스파크의 Structured API는 하이레벨 API로 각종 데이터(CSV 파일에서부터 Parquet 파일까지)를 조작할 수 있는 툴이다. 해당 API에는 세가지 종류, Datasets, DataFrames, SQL tables & views가 있다. 쉽게 말해 우리가 스파크에서 트랜스포메이션이나 액션을 적용할 수 있는 자료구조이다. DataFrames와 Datasets은 로우와 컬럼으로 이루어진 테이블 구조이다. 모든 컬럼은 같은 수의 로우를 가지고 있어야 하며 각 컬럼의 타입은 로우마다 동일해야 한다. 또한 SQL tables와 views는 자바.. 2022. 9. 22.
728x90
반응형