본문 바로가기

728x90

스파크4

스파크 repartition, coalesce, collect (스파크 정리 7) 전편 ☞ 2022.09.27 - [Data Engineering/스파크] - 스파크 filter, where, sort, sample, split, union (스파크 정리 6) 이번 실습을 진행하기 위해서 이전 포스팅(2022.09.16 - [Data Engineering/스파크] - 스파크란? 스파크 기본 개념 (스파크 정리 2))을 참고하여 데이터를 다운 받은 후 spark.read()를 이용하여 데이터프레임으로 데이터를 읽어오자. // in Scala val df = spark.read.format("json") .load("/data/flight-data/json/2015-summary.json") # in python df = spark.read.format("json").load("/data.. 2022. 9. 29.

스파크 정규표현식 (스파크 정리 8) 전편 ☞ 2022.09.29 - [Data Engineering/스파크] - 스파크 repartition, coalesce, collect (스파크 정리 7) 이번 실습을 진행하기 위해서 이전 포스팅(2022.09.16 - [Data Engineering/스파크] - 스파크란? 스파크 기본 개념 (스파크 정리 2))을 참고하여 데이터를 다운 받은 후 spark.read()를 이용하여 데이터프레임으로 데이터를 읽어오자. // in Scala val df = spark.read.format("csv") .option("header", "true") .option("inferSchema", "true") .load("/data/retail-data/by-day/2010-12-01.csv") df.printSc.. 2022. 9. 27.

스파크 filter, where, sort, sample, split, union (스파크 정리 6) 전편 ☞ 2022.09.25 - [Data Engineering/스파크] - 스파크 select, selctExpr, lit, distinct, limit (스파크 정리 5) 이번 실습을 진행하기 위해서 이전 포스팅(2022.09.16 - [Data Engineering/스파크] - 스파크란? 스파크 기본 개념 (스파크 정리 2))을 참고하여 데이터를 다운 받은 후 spark.read()를 이용하여 데이터프레임으로 데이터를 읽어오자. // in Scala val df = spark.read.format("json") .load("/data/flight-data/json/2015-summary.json") # in python df = spark.read.format("json").load("/data/f.. 2022. 9. 27.

주피터 노트북에서 스칼라와 스파크 사용하기 (스파크 정리 1) 이제부터 하둡과는 당분간 바이하고 스파크 정리를 시작한다. 스파크 완벽 가이드, 스파크 공식문서, 구글링 등 다양한 내용이 짬뽕되어있다. 개념 정리에 앞서 일단 스파크를 설치하자. 스파크를 처음에 배울 때는 보통 터미널을 통해서 스파크쉘을 실행시켜서 실습을 한다. 스파크쉘은 특별한 건 아니고 파이썬 인터프리터 같은 거다. 근데 다들 파이썬 인터프리터를 써봤으면 알 것 같은데 불편하다! 그래서 좀 더 편하게 실습할 수 있는 방법이 없을까 고민하다 주피터 노트북에서 스파크를 사용할 수 있게 해주는 패지지인 spylon을 발견했다. 참고로 파이스파크가 아니다. 주피터 노트북에서 스칼라(scala)를 사용해서 스파크를 실습하는 것이다. 주피터 노트북에서 스칼라 & 스파크 사용하기 1. 필요 요건: 파이썬, 스칼.. 2022. 9. 8.

이전 1 다음

728x90

티스토리툴바