본문 바로가기
728x90
반응형

하둡 HDFS2

하둡 HDFS (Hadoop Distributed File System) 1. HDFS (Hadoop Distributed File System) 하둡에서 제공하는 분산 파일시스템으로 하둡에서 제공하는 여러 파일시스템 중 대표적인 파일시스템이다. 2. HDFS의 특징 1) 아주 큰 파일을 관리할 수 있다. 2) 스트리밍 방식의 데이터 접근을 지원한다. 따라서 응답시간은 느릴 수 있어도 처리량이 많다. 3) 한번 쓴 데이터는 수정할 수 없다. (append는 가능) 4) 장애 복구, 데이터 무결성 등을 지원한다. 3. HDFS 블록 HDFS는 블록 단위로 데이터를 관리한다. 블록 단위의 관리를 통해 서브시스템을 단순하게 유지하고 데이터의 복제(레플리케이션)를 용이하게 한다. HDFS에서 블록의 사이즈는 기본적으로 128MB로 비교적 크다. 블록 사이즈가 큰 이유는 서치타임과 블.. 2024. 2. 9.
빅데이터란? 하둡(Hadoop)이란? 하둡 설치 1. 빅데이터란?빅데이터는 쉽게 말해 "기존의 전통적인 방법(RDBMS)으로는 다룰 수 없는 아주 많은 양의 데이터"를 의미한다. 왜 기존의 방법으로 다룰 수 없을까? RDBMS는 빅데이터를 다루는 데 있어 세가지 문제점을 가지고 있다. 첫 번째로 RDBMS는 scalability(확장성)이 떨어진다. 한 테이블에 몇 테라바이트가 되는 데이터를 저장하고, SQL문을 통해 저장된 데이터를 조작하거나 다른 테이블과 합치는 등의 연산을 하는 것은 불가능에 가깝다. 두 번째로 RDBMS는 어마어마한 양의 데이터를 저장하기에는 너무 비싸다. 마지막으로 RDBMS는 데이터가 엄격한 스키마를 지키기를 요구하는데 대부분의 빅데이터는 이 조건을 만족시키지 못한다. 따라서 빅데이터를 다루기 위해서는 RDBMS가 아닌 새로.. 2024. 2. 9.
728x90
반응형