728x90 반응형 분류 전체보기50 스파크 기본 명령어, 스파크 데이터프레임 명령어 (스파크 정리 4) 전편 ☞ 2022.09.22 - [Data Engineering/스파크] - 스파크 Structured API - Datasets, DataFrames, SQL tables (스파크 정리 3) 이번 포스팅에서는 DataFrames를 조작할 수 있는 여러 기본 명령어들을 알아본다. 언어는 스칼라와 파이썬 두 개를 사용하였다. 실습을 위해 전 포스팅(2022.09.16 - [Data Engineering/스파크] - 스파크란? 스파크 기본 개념 (스파크 정리 2))을 참고해 데이터를 다운받은 후 데이터 하나를 읽어오자. // in scalar val df = spark.read.format("json") .load("/data/flight-data/json/2015-summary.json") # in pyt.. 2022. 9. 24. SK C&C, 엔씨소프트 면접 후기 - 개발자 취준일기 24 전편 ☞ 2022.09.21 - [취준일기] - 2022년 신한은행 IT 면접 후기 - 개발자 취준일기 23 오늘은 내가 지원했던 회사 중에 채용 연계형 인턴 전형이었던 SK C&C랑 엔씨소프트 면접 후기다. 모든 회사가 그런지는 모르겠지만 인턴을 뽑는 거라 그런지 면접은 직무면접 하나로 끝이었다. SK C&C 면접은 즐겁고 좋은 기억으로 남아있고 엔씨소프트 면접은 그냥 그랬다. 결론적으로는 둘다 합격했지만 내가 메일을 지워서 인증은 SK C&C만... 그럼 자세한 후기~ SK C&C 면접 1. 면접 방식 - 면접: 직무면접 20분 - 대면/비대면: 온라인 비대면 - 시간: 오전 9시 30분 - 플랫폼: Zoom 2. 면접 후기 1) 면접 진행 - 2:1 (두분 다 실무진) - 직무관련 질문 20분 - .. 2022. 9. 23. 스파크 Structured API - Datasets, DataFrames, SQL tables (스파크 정리 3) 전편 ☞ 2022.09.16 - [Data Engineering/스파크] - 스파크란? 스파크 기본 개념 (스파크 정리 2) 1. Structured API 스파크의 Structured API는 하이레벨 API로 각종 데이터(CSV 파일에서부터 Parquet 파일까지)를 조작할 수 있는 툴이다. 해당 API에는 세가지 종류, Datasets, DataFrames, SQL tables & views가 있다. 쉽게 말해 우리가 스파크에서 트랜스포메이션이나 액션을 적용할 수 있는 자료구조이다. DataFrames와 Datasets은 로우와 컬럼으로 이루어진 테이블 구조이다. 모든 컬럼은 같은 수의 로우를 가지고 있어야 하며 각 컬럼의 타입은 로우마다 동일해야 한다. 또한 SQL tables와 views는 자바.. 2022. 9. 22. 파이썬 코딩 컨벤션 - 네이밍 컨벤션 오늘은 깔끔한 파이썬 코드 작성을 위한 코딩 컨벤션 중 네이밍 컨벤션에 대해 알아보자. 1. PEP 8 첫 번째로 파이썬 코딩 컨벤션 공식(?) 문서인 PEP8의 네이밍 컨벤션은 다음과 같다. 1) 모든 글자는 ASCII여야 한다. 2) Module 이름은 모두 소문자여야 하고 짧은 이름이 좋다. 3) Class 이름은 PascalCase를 따른다. - PascalCase: 새로운 단어 첫글자는 대문자, 나머지는 소문자 4) 상수는 대문자여야 한다. 5) 함수, 메소드, 변수 이름은 소문자여야 한다. 6) 메소드의 첫 번째 아규먼트는 self (소문자)여야 한다. 7) 클래스 메소드의 첫 번째 아규먼트는 cls (소문자)여야 한다. 8) 클래스에서 private attribute은 언더스코어(_)로 시작.. 2022. 9. 22. 이전 1 ··· 3 4 5 6 7 8 9 ··· 13 다음 728x90 반응형