728x90 반응형 Data Engineering27 스파크 Structured API - Datasets, DataFrames, SQL tables (스파크 정리 3) 전편 ☞ 2022.09.16 - [Data Engineering/스파크] - 스파크란? 스파크 기본 개념 (스파크 정리 2) 1. Structured API 스파크의 Structured API는 하이레벨 API로 각종 데이터(CSV 파일에서부터 Parquet 파일까지)를 조작할 수 있는 툴이다. 해당 API에는 세가지 종류, Datasets, DataFrames, SQL tables & views가 있다. 쉽게 말해 우리가 스파크에서 트랜스포메이션이나 액션을 적용할 수 있는 자료구조이다. DataFrames와 Datasets은 로우와 컬럼으로 이루어진 테이블 구조이다. 모든 컬럼은 같은 수의 로우를 가지고 있어야 하며 각 컬럼의 타입은 로우마다 동일해야 한다. 또한 SQL tables와 views는 자바.. 2022. 9. 22. 파이썬 코딩 컨벤션 - 네이밍 컨벤션 오늘은 깔끔한 파이썬 코드 작성을 위한 코딩 컨벤션 중 네이밍 컨벤션에 대해 알아보자. 1. PEP 8 첫 번째로 파이썬 코딩 컨벤션 공식(?) 문서인 PEP8의 네이밍 컨벤션은 다음과 같다. 1) 모든 글자는 ASCII여야 한다. 2) Module 이름은 모두 소문자여야 하고 짧은 이름이 좋다. 3) Class 이름은 PascalCase를 따른다. - PascalCase: 새로운 단어 첫글자는 대문자, 나머지는 소문자 4) 상수는 대문자여야 한다. 5) 함수, 메소드, 변수 이름은 소문자여야 한다. 6) 메소드의 첫 번째 아규먼트는 self (소문자)여야 한다. 7) 클래스 메소드의 첫 번째 아규먼트는 cls (소문자)여야 한다. 8) 클래스에서 private attribute은 언더스코어(_)로 시작.. 2022. 9. 22. 데이터 웨어하우스란? 데이터 레이크, 데이터베이스와 차이 데이터 엔지니어링을 접하다 보면 다양한 텀들이 나오고 그 중 헷갈리는 텀들이 많다. 오늘은 그 중에 데이터OOO 3대장인 데이터 웨어하우스, 데이터베이스, 데이터 레이크에 대해 정리하고 차이점을 알아보자. 이번 포스팅에서는 최대한 쉽게 어려운 개념을 빼고 예시를 들어 설명했다. 아래 그림이 데이터 베이스와 데이터 웨어하우스의 관계도이다. 내가 쇼핑몰을 운영한다고 하자. 그러면 쇼핑몰의 상품에 관한 정보가 들어있는 상품 데이터와 고객에 관한 정보가 들어있는 고객 데이터가 있다. 그리고 마지막으로 매일 쌓이는 매출 데이터가 있다. 이 데이터의 집합을 우리는 데이터베이스라 부른다. 데이터베이스를 관리하는 여러 유용한 프로그램이 있는데 대표적인 예로 MariaDB, MySQL, MongoDB 등이 있다. 또한 .. 2022. 9. 17. 데이터 엔지니어링 초보자 가이드 (A Beginner's Guide to Data Engineering) 블로그 이전으로 아래 링크로 글을 옮겼습니다. https://happy-it-day.blogspot.com/2022/11/blog-post_1.html 데이터 엔지니어링 초보자 가이드 (A Beginner's Guide to Data Engineering) 아래 링크는 데이터 엔지니어링 초보자 가이드라는 제목으로 medium에 올라온 아주 유명한 세편짜리 글이다. 초보자 가이드다 보니 상당히 포괄적이고 개념 하나가 자세하진 않지만 정말 좋은 내 happy-it-day.blogspot.com 2022. 9. 15. 이전 1 2 3 4 5 6 7 다음 728x90 반응형