이제부터 하둡과는 당분간 바이하고 스파크 정리를 시작한다. 스파크 완벽 가이드, 스파크 공식문서, 구글링 등 다양한 내용이 짬뽕되어있다.
개념 정리에 앞서 일단 스파크를 설치하자. 스파크를 처음에 배울 때는 보통 터미널을 통해서 스파크쉘을 실행시켜서 실습을 한다. 스파크쉘은 특별한 건 아니고 파이썬 인터프리터 같은 거다. 근데 다들 파이썬 인터프리터를 써봤으면 알 것 같은데 불편하다! 그래서 좀 더 편하게 실습할 수 있는 방법이 없을까 고민하다 주피터 노트북에서 스파크를 사용할 수 있게 해주는 패지지인 spylon을 발견했다. 참고로 파이스파크가 아니다. 주피터 노트북에서 스칼라(scala)를 사용해서 스파크를 실습하는 것이다.
주피터 노트북에서 스칼라 & 스파크 사용하기
1. 필요 요건: 파이썬, 스칼라, 스파크는 미리 설치되어 있어야 한다
1) JRE 사용 가능
2) 아나콘다 설치됨
3) 스파크 설치됨
2. 파이썬 spylon-kernel 패키지 설치
pip install spylon-kernel
3. 주피터 노트북에서 사용할 kernel spec 생성
python -m spylon_kernel install
4. 주피터 노트북 실행
jupyter-notebook
5. 스파크 kernel 실행
주피터 노트북 화면 오른쪽의 New -> spylon-kernel
6. 실행 확인
처음에는 Initalizing Scala interpreter가 뜨면서 로딩에 시간이 조금 걸린다. 너무 오래 걸린다 싶으면 중지하고 다시 실행해보자. 그래도 무한로딩에 걸린다면 스파크랑 스칼라가 설치 제대로 설치 안된 것이니 다시 확인해야 한다.
1분 정도 로딩 후에...실행!
이제 아주 간편하게 주피터 노트북으로 스칼라를 사용하여 스파크 실습을 할 수 있다.
다음편
☞ 2022.09.16 - [Data Engineering/스파크] - 스파크란? 스파크 기본 개념 (스파크 정리 2)
'Data Engineering > 스파크' 카테고리의 다른 글
스파크 정규표현식 (스파크 정리 8) (0) | 2022.09.27 |
---|---|
스파크 filter, where, sort, sample, split, union (스파크 정리 6) (0) | 2022.09.27 |
스파크 select, selctExpr, lit, distinct, limit (스파크 정리 5) (0) | 2022.09.25 |
스파크 기본 명령어, 스파크 데이터프레임 명령어 (스파크 정리 4) (0) | 2022.09.24 |
스파크 Structured API - Datasets, DataFrames, SQL tables (스파크 정리 3) (0) | 2022.09.22 |
댓글