본문 바로가기
728x90
반응형

Data Engineering27

빅데이터란? 하둡(Hadoop)이란? 하둡 설치 1. 빅데이터란?빅데이터는 쉽게 말해 "기존의 전통적인 방법(RDBMS)으로는 다룰 수 없는 아주 많은 양의 데이터"를 의미한다. 왜 기존의 방법으로 다룰 수 없을까? RDBMS는 빅데이터를 다루는 데 있어 세가지 문제점을 가지고 있다. 첫 번째로 RDBMS는 scalability(확장성)이 떨어진다. 한 테이블에 몇 테라바이트가 되는 데이터를 저장하고, SQL문을 통해 저장된 데이터를 조작하거나 다른 테이블과 합치는 등의 연산을 하는 것은 불가능에 가깝다. 두 번째로 RDBMS는 어마어마한 양의 데이터를 저장하기에는 너무 비싸다. 마지막으로 RDBMS는 데이터가 엄격한 스키마를 지키기를 요구하는데 대부분의 빅데이터는 이 조건을 만족시키지 못한다. 따라서 빅데이터를 다루기 위해서는 RDBMS가 아닌 새로.. 2024. 2. 9.
파이썬 *args, **kwargs (파이썬 클린 코드 #4) 전편 ☞ 파이썬 *args, **kwargs란? 파이썬 코드를 보다보면 함수 정의의 파라미터 부분에서 *args, **kwargs를 쓰는 것을 볼 수 있다. 또 해당 함수를 호출 할 때는 아규먼트에 *, ** 연산자를 쓰는 것도 자주 볼 수 있다. 이번 포스팅에서는 *args, **kwargs가 도대체 무엇인지 알아보자. 1. *args 함수 파라미터에 *args를 쓰면 임의의 개수의 파라미터를 넘겨받을 수 있다. 즉, 아래와 같은 코드가 가능하다. def func(*args): for arg in args: print(arg) # 함수 호출 func('인자1', '인자2', 1, 2) 여기서 유의할 점은 함수가 임의의 개수의 파라미터를 받을 수 있게 해주는 연산자는 *이고, 뒤에 args는 그냥 파라미.. 2022. 10. 18.
파이썬 String 합치기, String concatenation, join 함수 (파이썬 클린 코드 #3) 전편 ☞ 2022.10.11 - [Data Engineering/파이썬] - 파이썬 클린 코드 #2: 딕셔너리 사용법 (get(), setdefault(), defaultdict()) 파이썬 String을 효율적으로 합치는 방법 파이썬에서 여러개의 String을 합칠 때는 보통 '+' 오퍼레이터를 사용한다. 이 방법은 String의 개수가 적을 때는 괜찮지만 아주 많은 수의(>1000) String을 합칠 때는 비효율적인 방법이다. 1. String을 합칠 때 '+'를 사용하는 게 비효율적인 이유 String은 immutable 객체이다. 따라서 우리가 '+' 오퍼레이터를 사용하면 기존의 String 값이 바뀌는 게 아니라 새로운 String 객체가 생성된다. 따라서 다음과 같은 코드는 루프를 돌면서 총.. 2022. 10. 12.
파이썬 올바른 딕셔너리 사용법: get, setdefault, defaultdict (파이썬 클린 코드 #2) 전편 ☞ 2022.10.07 - [Data Engineering/파이썬] - 파이썬 클린 코드 #1: enumerate, with, is, R-String, F-String 전편에 이은 파이썬 클린코드, 오늘은 딕셔너리 편이다. 파이썬 딕셔너리 사용 가이드 1. get()과 setdefault()를 쓰기 딕셔너리에서 키를 통해 밸류에 접근하는 법은 get()을 쓰는 법과 []를 쓰는 법 두가지가 있다. 하지만 []를 쓰면 해당하는 키다 없는 경우에는 KeyError가 뜨게된다. 하지만 get()을 쓰면 키가 없을 때 반환할 밸류를 설정할 수 있다. 아래 코드는 'cat'이라는 키가 딕셔너리에 없을 경우 0을 반환한다. # get(key, defulat value) numOfCat = numOfAnimal.. 2022. 10. 10.
728x90
반응형