본문 바로가기
728x90
반응형

Data Engineering/스파크9

스파크란? 스파크 vs 맵리듀스 1. 스파크란? 스파크는 클러스터 환경에서 데이터를 병렬적으로 처리하기 위한 라이브러리 집합이다. 하둡의 맵리듀스와 같은 역할을 하는 프레임워크라고 보면 되는데 다른 점이 몇가지 있다. 그리고 이 다른 점이 많은 사람들이 스파크를 쓰는 이유이다. 1) 스파크는 통합엔진이다. 스파크가 통합엔진이라는 것은 간단하게 말해 아주 다양한 라이브러리를 지원해준다는 뜻이다. 아래 그림을 보면 스파크는 spark core외에도 머신러닝을 위한 MLlib, 그래프 연산을 위한 GraphX 등 다양한 기능을 제공한다. 스파크 이전에는 이런 기능들을 쓰기 위해 각기 다른 프레임워크를 사용해야 했다(하이브, 마홋, ...). 하지만 이 모든 기능을 제공해주는 스파크가 등장하면서 사람들은 스파크 하나로 모든 것을 해결할 수 있.. 2024. 2. 10.
스파크 NULL 처리 (스파크 정리 9) 전편 ☞ 2022.09.27 - [Data Engineering/스파크] - 스파크 정규표현식 (스파크 정리 8) 이번 실습을 진행하기 위해서 이전 포스팅(2022.09.16 - [Data Engineering/스파크] - 스파크란? 스파크 기본 개념 (스파크 정리 2))을 참고하여 데이터를 다운 받은 후 spark.read()를 이용하여 데이터프레임으로 데이터를 읽어오자. // in Scala val df = spark.read.format("json") .load("/data/flight-data/json/2015-summary.json") # in python df = spark.read.format("json").load("/data/flight-data/json/2015-summary.json".. 2022. 10. 8.
스파크 repartition, coalesce, collect (스파크 정리 7) 전편 ☞ 2022.09.27 - [Data Engineering/스파크] - 스파크 filter, where, sort, sample, split, union (스파크 정리 6) 이번 실습을 진행하기 위해서 이전 포스팅(2022.09.16 - [Data Engineering/스파크] - 스파크란? 스파크 기본 개념 (스파크 정리 2))을 참고하여 데이터를 다운 받은 후 spark.read()를 이용하여 데이터프레임으로 데이터를 읽어오자. // in Scala val df = spark.read.format("json") .load("/data/flight-data/json/2015-summary.json") # in python df = spark.read.format("json").load("/data.. 2022. 9. 29.
스파크 정규표현식 (스파크 정리 8) 전편 ☞ 2022.09.29 - [Data Engineering/스파크] - 스파크 repartition, coalesce, collect (스파크 정리 7) 이번 실습을 진행하기 위해서 이전 포스팅(2022.09.16 - [Data Engineering/스파크] - 스파크란? 스파크 기본 개념 (스파크 정리 2))을 참고하여 데이터를 다운 받은 후 spark.read()를 이용하여 데이터프레임으로 데이터를 읽어오자. // in Scala val df = spark.read.format("csv") .option("header", "true") .option("inferSchema", "true") .load("/data/retail-data/by-day/2010-12-01.csv") df.printSc.. 2022. 9. 27.
728x90
반응형