본문 바로가기
728x90
반응형

Data Engineering27

스파크 정규표현식 (스파크 정리 8) 전편 ☞ 2022.09.29 - [Data Engineering/스파크] - 스파크 repartition, coalesce, collect (스파크 정리 7) 이번 실습을 진행하기 위해서 이전 포스팅(2022.09.16 - [Data Engineering/스파크] - 스파크란? 스파크 기본 개념 (스파크 정리 2))을 참고하여 데이터를 다운 받은 후 spark.read()를 이용하여 데이터프레임으로 데이터를 읽어오자. // in Scala val df = spark.read.format("csv") .option("header", "true") .option("inferSchema", "true") .load("/data/retail-data/by-day/2010-12-01.csv") df.printSc.. 2022. 9. 27.
스파크 filter, where, sort, sample, split, union (스파크 정리 6) 전편 ☞ 2022.09.25 - [Data Engineering/스파크] - 스파크 select, selctExpr, lit, distinct, limit (스파크 정리 5) 이번 실습을 진행하기 위해서 이전 포스팅(2022.09.16 - [Data Engineering/스파크] - 스파크란? 스파크 기본 개념 (스파크 정리 2))을 참고하여 데이터를 다운 받은 후 spark.read()를 이용하여 데이터프레임으로 데이터를 읽어오자. // in Scala val df = spark.read.format("json") .load("/data/flight-data/json/2015-summary.json") # in python df = spark.read.format("json").load("/data/f.. 2022. 9. 27.
스파크 select, selctExpr, lit, distinct, limit (스파크 정리 5) 전편 ☞ 2022.09.24 - [Data Engineering/스파크] - 스파크 기본 명령어, 스파크 데이터프레임 명령어 (스파크 정리 4) 아마도 스파크에서 가장 많이 쓰일 명령어 select. 타겟 데이터프레임에서 보고 싶은 컬럼을 선택할 때 사용된다. 기본적인 기능이나 사용법은 SQL의 SELECT와 유사하다. 이번 포스팅도 역시 스칼라와 파이썬을 사용한다. 모듈이나 패키지를 가져오는 부분 빼고는 스칼라와 파이썬의 코드는 동일하다. 실습을 위한 데이터는 스파크 정리 2 포스팅(2022.09.16 - [Data Engineering/스파크] - 스파크란? 스파크 기본 개념 (스파크 정리 2))을 참고하면 다운받을 수 있다. 일단 데이터 아래 코드처럼 데이터를 읽어서 데이터프레임으로 저장하자. //.. 2022. 9. 25.
스파크 기본 명령어, 스파크 데이터프레임 명령어 (스파크 정리 4) 전편 ☞ 2022.09.22 - [Data Engineering/스파크] - 스파크 Structured API - Datasets, DataFrames, SQL tables (스파크 정리 3) 이번 포스팅에서는 DataFrames를 조작할 수 있는 여러 기본 명령어들을 알아본다. 언어는 스칼라와 파이썬 두 개를 사용하였다. 실습을 위해 전 포스팅(2022.09.16 - [Data Engineering/스파크] - 스파크란? 스파크 기본 개념 (스파크 정리 2))을 참고해 데이터를 다운받은 후 데이터 하나를 읽어오자. // in scalar val df = spark.read.format("json") .load("/data/flight-data/json/2015-summary.json") # in pyt.. 2022. 9. 24.
728x90
반응형