본문 바로가기
728x90
반응형

분류 전체보기63

빅데이터란? 하둡(Hadoop)이란? 하둡 설치 1. 빅데이터란?빅데이터는 쉽게 말해 "기존의 전통적인 방법(RDBMS)으로는 다룰 수 없는 아주 많은 양의 데이터"를 의미한다. 왜 기존의 방법으로 다룰 수 없을까? RDBMS는 빅데이터를 다루는 데 있어 세가지 문제점을 가지고 있다. 첫 번째로 RDBMS는 scalability(확장성)이 떨어진다. 한 테이블에 몇 테라바이트가 되는 데이터를 저장하고, SQL문을 통해 저장된 데이터를 조작하거나 다른 테이블과 합치는 등의 연산을 하는 것은 불가능에 가깝다. 두 번째로 RDBMS는 어마어마한 양의 데이터를 저장하기에는 너무 비싸다. 마지막으로 RDBMS는 데이터가 엄격한 스키마를 지키기를 요구하는데 대부분의 빅데이터는 이 조건을 만족시키지 못한다. 따라서 빅데이터를 다루기 위해서는 RDBMS가 아닌 새로.. 2024. 2. 9.
파이썬 *args, **kwargs (파이썬 클린 코드 #4) 전편 ☞ 파이썬 *args, **kwargs란? 파이썬 코드를 보다보면 함수 정의의 파라미터 부분에서 *args, **kwargs를 쓰는 것을 볼 수 있다. 또 해당 함수를 호출 할 때는 아규먼트에 *, ** 연산자를 쓰는 것도 자주 볼 수 있다. 이번 포스팅에서는 *args, **kwargs가 도대체 무엇인지 알아보자. 1. *args 함수 파라미터에 *args를 쓰면 임의의 개수의 파라미터를 넘겨받을 수 있다. 즉, 아래와 같은 코드가 가능하다. def func(*args): for arg in args: print(arg) # 함수 호출 func('인자1', '인자2', 1, 2) 여기서 유의할 점은 함수가 임의의 개수의 파라미터를 받을 수 있게 해주는 연산자는 *이고, 뒤에 args는 그냥 파라미.. 2022. 10. 18.
파이썬 String 합치기, String concatenation, join 함수 (파이썬 클린 코드 #3) 전편 ☞ 2022.10.11 - [Data Engineering/파이썬] - 파이썬 클린 코드 #2: 딕셔너리 사용법 (get(), setdefault(), defaultdict()) 파이썬 String을 효율적으로 합치는 방법 파이썬에서 여러개의 String을 합칠 때는 보통 '+' 오퍼레이터를 사용한다. 이 방법은 String의 개수가 적을 때는 괜찮지만 아주 많은 수의(>1000) String을 합칠 때는 비효율적인 방법이다. 1. String을 합칠 때 '+'를 사용하는 게 비효율적인 이유 String은 immutable 객체이다. 따라서 우리가 '+' 오퍼레이터를 사용하면 기존의 String 값이 바뀌는 게 아니라 새로운 String 객체가 생성된다. 따라서 다음과 같은 코드는 루프를 돌면서 총.. 2022. 10. 12.
2022년 삼성전자 면접 준비 - 개발자 취준일기 29 전편 ☞ 2022.09.19 - [취준일기] - 2022년 KB국민카드 데이터개발 면접 후기 - 개발자 취준일기 22 지난 포스팅에는 삼성전자 면접 후기를 썼는데 이번에는 삼성전자 면접을 어떻게 준비했는지 좀 더 상세하게 쓰려고 한다. 내가 본 면접 중에 삼성전자랑 현재 회사 면접을 제일 열심히 준비했으니 이번 편을 본다면 면접 준비를 어떻게 해야할 지 대충 감이 올 거라 생각한다. 참고로 나는 삼성전자 메모리사업부에 지원했고 결과는 최합이었다. 지난 포스팅에서는 내가 지원한 직무가 소수직무라 밝히지 않겠다고 했지만 이미 새로운 공채가 진행 중인데 뭐... 내가 지원한 직무는 평가 및 분석이었다. 왜 평가 및 분석이었냐, 라고 한다면 아래 사진처럼 세부 직무 중에 데이터사이언스가 있었기 때문이다. 면접 .. 2022. 10. 11.
728x90
반응형