본문 바로가기
728x90
반응형

Data Engineering27

데이터 엔지니어링 로드맵 (feat. 현실적) 개발자를 꿈꾸는 사람들이라면 다들 OOO 로드맵은 한번 씩 쳐봤을 것이다. 데이터 엔지니어링 로드맵도 치면 특정한 이미지가 나오는데 이미지만 봐도 아득해져서 접어놨다. 더보기 이게 로드맵인지 포기 유도 이미지인지 모르겠다. 그래서 좀 더 현실적인 로드맵은 없을까 찾던 중에 외국의 좋은 글들을 찾게되어 공유한다. 첫 번째 로드맵은 FAANG의 데이터 엔지니어가 적은 데이터 엔지니어링 로드맵 2021이다. 이것도 역시 영어가 되면 본문을 읽는 걸 추천한다. 해당 로드맵은 컴공에 대한 지식이 별로 없는 사람이 참고하면 좋을 것 같다. 데이터 엔지니어링 관련 내용 뿐만 아니라 개발자라면 필수로 지니고 있어야 할 지식(리눅스, API 등)도 최소한으로 소개해 놓았다. 참고로 이 사람은 udemy나 freecode.. 2022. 9. 13.
데이터 엔지니어링 강의 데이터 엔지니어링의 기술 스택은 매우 넓다. 특히 빅데이터 부흥 이후에는 새로운 기술들이 계속 나오고 있다. 데이터 엔지니어링이 커버하는 범위도 꽤나 넓어서 각자 속한 회사와 팀에 따라 쓰는 기술이 모두 다르다. 내가 속한 팀은 주로 하둡과 스파크를 쓰는데 어느 곳은 SQL를 주로 쓰기도 하고 아니면 로우 레벨로 데이터 플랫폼을 관리하는 곳도 있다. 일을 하기 위해서라면 내가 쓰는 기술만 익혀도 괜찮지만 보다 큰 그림을 보고 싶어서 데이터 엔지니어링의 여러 분야에 대한 정보를 항상 찾아다닌다. 그렇게 찾고 정리한 개념이나 외국 양질의 글을 포스팅 하면 좋을 것 같아서 해당 카테고리를 만들었다. 주로 외국의 글을 번역한 내용이 많으니 어디 가져갈 때에는 출처를 정확히 밝혀주길 바란다. 1. 데이터 엔지니어.. 2022. 9. 12.
주피터 노트북에서 스칼라와 스파크 사용하기 (스파크 정리 1) 이제부터 하둡과는 당분간 바이하고 스파크 정리를 시작한다. 스파크 완벽 가이드, 스파크 공식문서, 구글링 등 다양한 내용이 짬뽕되어있다. 개념 정리에 앞서 일단 스파크를 설치하자. 스파크를 처음에 배울 때는 보통 터미널을 통해서 스파크쉘을 실행시켜서 실습을 한다. 스파크쉘은 특별한 건 아니고 파이썬 인터프리터 같은 거다. 근데 다들 파이썬 인터프리터를 써봤으면 알 것 같은데 불편하다! 그래서 좀 더 편하게 실습할 수 있는 방법이 없을까 고민하다 주피터 노트북에서 스파크를 사용할 수 있게 해주는 패지지인 spylon을 발견했다. 참고로 파이스파크가 아니다. 주피터 노트북에서 스칼라(scala)를 사용해서 스파크를 실습하는 것이다. 주피터 노트북에서 스칼라 & 스파크 사용하기 1. 필요 요건: 파이썬, 스칼.. 2022. 9. 8.
Maven 뽀개기 4 - Maven Goals, Maven Plugins 전편 ☞ 2022.08.22 - [Data Engineering/Maven] - Maven 뽀개기 3 - POM 1. Maven Goals 메이븐을 보다보면 계속 골골 거리는데 처음에는 페이즈, 플러그인과 헷갈렸다. 메이븐에서 골이란 처리해야할 태스크를 의미한다. 골은 0개, 또는 한개 이상의 페이즈와 관련되어있다. (페이즈도 마찬가지로 여러개의 골과 관련되어 있을 수 있다.) 골, 플러그인, 페이즈의 관계를 정리하면 다음과 같다. Goals 처리해야할 태스크를 의미한다. Phase 라이프 사이클에서 특정 골을 달성하기 위해 거치는 단계이다. Plugin 골들의 집합 https://maven.apache.org/guides/introduction/introduction-to-the-lifecycle.ht.. 2022. 8. 27.
728x90
반응형