빅 데이터와 함께 주목받은 것이 바로 "하둡(Hadoop)"이다. 더그 커팅과 마이크 카파렐라에 의해 개발된 하둡은 간단히 말해 방대한 양의 데이터를 분산 처리하여 빠른 시간 내 결과를 제공하는 오픈소스 기반 데이터 관리 기술로 분산시스템에서 대량의 자료를 처리하는 자유 자바 소프트웨어 프레임 워크다.
하둡의 뿌리는 구글과 맞닿아 있다. 이는 구글이 설립 초기부터 대규모 자료를 검색하고 분석하는데 사용한 분산 파일 시스템 GFS(Google File System)과 분산 처리 시스템 MapReduce에 대한 논물을 접한 더그 커팅이 이를 참고로 구현한 것이기 때문인데, 하둡은 구글 파일 시스템(GFS)을 대체할 수 있는 하둡 분산 파일 시스템(HDFS)과 맵리듀스(MapReduce)* 알고리즘을 구현한 오픈소스 프레임 워크인 것이다. '하둡'이란 명칭은 더그 커팅의 아들이 가지고 놀던 장난감 코끼리의 이름을 따서 지어졌다고 전해지는데, 그 때문에 하둡의 심볼 역시 노란 코끼리다.
대표적인 Hadoop 솔루션 업체로는 클라우데라(Cloudera)와 호튼웍스(Hortonworks)가 있다.
그중에서 나는 클라우데라에 대해 알아 보았는데.
클라우데라(Cloudera)는 빅 데이터와 클라우드 시장의 교육 및 기술자원을 제공하고 있다.
클라우 데라는 아파치 하둡 기반의 소프트웨어 및 서비스 분야의 리더이자, 모든 데이터를 보고 기업과 조직에게 강력한 새로운 데이터 플랫폼을 제공한다.
클라우 데라는 엔터프라이즈 코어 하둡을 위한 가장 포괄적인 솔루션과 데이터 센터의 빅 데이터를 위한 기초를 제공하고 있다. 클라우데라 매니저, CDH, 하둡 및 관련 프로젝트에 대한 클라우 데라에서 제공하는 오픈 소스 배포판 구성 및 운영등, 사용자들이 하둡과 관련된 필요한 기술들을 제공한다.
CDH는 사용자들의 요구 사항을 충족시키기 위해 특별히 제작된 하둡 및 관련 프로젝트의 오픈 소스 배포판으로써
확장 가능한 스토리지 및 분산 컴퓨팅 기능 뿐만 아니라, 보안, 가용성, 광범위한 통합등 하둡의 핵심요소들을 제공한다.
클라우데라에서는 무료로 다운로드를 받을수 있으며, 넓은 범위에 걸쳐 사용 사례 또한 많다.
현재 금융서비스, 정부, 통신, 미디어, 웹, 광고, 소매, 에너지, 생물 정보학, 의료, 대연 연구, 게임,등 여러 분야에서 CDH 가 널리 사용되고 있다.
'하둡(Hadoop)' 카테고리의 다른 글
hadoop의 jdk 설치 (0) | 2013.08.27 |
---|---|
hadoop에 필요한 JDK 설치전 설치여부확인하기 (0) | 2013.06.14 |
하둡의 종류 (0) | 2013.06.14 |
하둡 설치 (0) | 2013.06.14 |
CDH 설정 변경이 안되는 경우 (0) | 2013.06.14 |