로그인회원가입장바구니고객센터마이페이지회사소개
kangcom
전체
Home >   >   > 

하둡 완벽 가이드: 클라우드 컴퓨팅 구축을 위한 실전 안내서(개정3판)

   
지은이 톰 화이트   |   출판사 한빛미디어  |   발행일 2013년 06월 01일
 
클릭하시면 큰 도서이미지를 보실 수 있습니다.
판매가 44,000원43,120원 2%
마일리지 0% 0원
발행일 2013-06-01
ISBN 8968480206 | 9788968480201
기타정보 번역서 | 812쪽 | 일반
예상출고일 1~2일 이내 (근무일기준)
배송비 무료배송
   
데이터베이스관리
종합지수 3p 152 위
   
이 책의 원서
  Hadoop: The Definitive Guide
O'Reilly Media | Tom White
 

이 책이 제시하는 핵심 내용
이 책은 구글의 알고리즘을 구현한 최고의 클라우드 컴퓨팅 기술인 하둡에 대해 다룬다. 특히 하둡 2.x와 맵리듀스 2를 다룬 최초의 책이다. 사실 하둡 2.x와 얀으로 불리는 맵리듀스 2는 기존 버전과 많이 다르다. 새로 추가된 기능들은 기존 버전에서 아쉬웠던 부분을 메꿔주기 때문에 반드시 도입해야 한다. 커미터가 직접 쓴 이 책을 밑거름 삼아 더 성공적인 클라우드 컴퓨팅 시스템을 구현하자!

이 책의 특징과 장점
하둡 프로젝트의 커미터이자 핵심 설계자인 톰 화이트가 저술한 이 책은 하둡을 가장 완벽하게 다루고 있다. 저자는 하둡 창시자인 더그 커팅을 비롯한 각기 전문가의 강력한 조언을 받았고 이를 본서에 충실하게 반영했다. 이 책은 하둡은 물론이고 하둡과 연동해서 사용할 수 있는, 아파치 하둡 프로젝트의 서브 프로젝트인 피그, 주키퍼, HBase, 하이브, 스쿱, 에이브 등에 대해서도 다룬다. Last.fm, 페이스북, 랙페이스의 하둡 활용 사례를 통해 어떻게 하둡을 활용해야 하는지 배울 수 있다. 본 한글판은 역자주를 통해 하둡 최신 정보를 반영했다.

어떤 독자를 위한 책인가?
- 클라우드 컴퓨팅 분야의 학자, 개발자, 기술 기획자
- 데이터 마이닝 등 데이터 분석 및 알고리즘 학자, 개발자

개정판에서 새로워진 내용
3판 아파치 하둡의 새로운 버전 0.22와 2.x(이전에는 0.23)뿐만 아니라, 1.x(이전에는 0.20) 모두를 다룬다. 이 책의 예제는 몇 가지 예외 사항(책에서 별도로 표시)을 제외하고 모든 버전을 위해 작성되었다. 각 버전에 대한 특성들은 1장 ‘하둡 릴리즈’에서 상세히 다룬다.
이번 개정판은 새로운 맵리듀스 API를 대부분의 예제에 사용한다. 그럼에도 이전 API가 여전히 폭넓게 활용되고 있기 때문에 새로운 API가 나올 때 함께 논의된다. 이 책에서 제시한 웹 사이트에서 새로운 API에 대응하는 이전 API의 소스 코드가 제공될 것이다.
하둡 2.0의 주요 변화는 얀(YARN)으로 명명된 새로운 분산 리소스 관리 시스템으로 구현된 새로운 맵리듀스(맵리듀스 2)다. 얀 기반의 맵리듀스는 6장과 9장에서 각각 작동 방식 및 실행 방식에 대해 다룬다.
맵리듀스에 대한 더 많은 내용도 다룬다. 메이븐으로 맵리듀스 잡 패키징, 사용자의 자바 클래스 경로 설정, MRUnit으로 테스트 코드 작성과 같은 개발에 필요한 실질적인 내용은 5장에 포함되어 있다. 출력 커미터, 분산 캐시, 태스크 메모리 모니터링과 같은 깊이 있는 맵리듀스 특성은 8장과 9장에서 각각 다룬다. 에이브로 데이터 처리를 위한 맵리듀스 잡 작성은 4장에 새롭게 추가되었고, 오지Oozie를 활용한 간단한 맵리듀스 워크플로우 실행은 5장에 새로 추가되었다.
HDFS 고가용성과 HDFS 통합은 기존 HDFS를 다루었던 3장에 새롭게 추가되었고, WebHDFS와 HttpFS 같은 새로운 파일시스템도 3장에서 함께 다룬다.
피그, 하이브, 스쿱, 주키퍼의 각 장들도 최신 릴리즈의 특성과 변화를 반영하여 내용을 새롭게 추가했다.
이와 더불어 책 전반에 걸쳐 내용에 대한 정정과 개선이 이뤄졌다.

2판 하이브와 스쿱에 관한 두 개의 새로운 장(12장과 15장), 에이브로를 다루는 새로운 절(4장), 하둡의 새로운 보안 속성에 대한 소개(9장), 하둡을 사용한 대규모 네트워크 그래프 분석에 대한 새로운 사례분석이 추가되었다.

대용량 데이터에 관한 가장 완벽한 책(개정판)!
하둡 프로젝트의 커미터이자 핵심 설계자인 톰 화이트가 저술한 이 책은 하둡을 가장 완벽하게 다루고 있다. 하둡의 개념과 사용법은 물론 Last.fm, 페이스북, 랙페이스의 하둡 활용 사례를 통해 어떻게 하둡을 활용해야 하는지 배울 수 있다. 개정판에서는 최신 변경 내용을 반영하고 하이브, 스쿱, 에이브로 내용을 추가했다.

- 얀 기반의 맵리듀스
- 오지(Oozie)를 활용한 맵리듀스 워크플로우 실행
- 대규모 데이터셋 저장을 위해 하둡 분산파일시스템(HDFS)
- 맵리듀스를 통한 분산 연산 작업
- 데이터 압축, 정합성, 직렬화, 영속성을 위한 입출력 빌딩 블록
- 전용 하둡 클러스터 설계, 구축, 운영 방법
- 대규모 데이터 처리를 위한 피그
- 구조화된 데이터와 반-구조화된 데이터를 처리하는 HBase
- 분산 시스템 구축을 위한 주키퍼
- 하이브-하둡 데이터웨어하우징 시스템

1장 하둡과의 만남
1.1 데이터!
1.2 데이터 저장소와 분석
1.3 다른 시스템과의 비교
1.4 하둡의 역사
1.5 아파치 하둡과 하둡 생태계
1.6 하둡 릴리즈

2장 맵리듀스
2.1 기상 데이터셋
2.2 유닉스 도구로 데이터 분석하기
2.3 하둡으로 데이터 분석하기
2.4 분산형으로 확장하기
2.5 하둡 스트리밍
2.6 하둡 파이프

3장 하둡 분산 파일시스템
3.1 HDFS 설계
3.2 HDFS 개념
3.3 명령행 인터페이스
3.4 하둡 파일시스템
3.5 자바 인터페이스
3.6 데이터 흐름
3.7 데이터 이관을 위한 플룸과 스쿱
3.9 하둡 아카이브

4장 하둡 I/O
4.1 데이터 무결성
4.2 압축
4.3 직렬화
4.4 에이브로
4.5 파일 기반 데이터 구조

5장 맵리듀스 프로그래밍
5.1 환경 설정 API
5.2 개발 환경 설정하기
5.3 MRUnit으로 유닛 테스트 작성하기
5.4 로컬에서 실행하기
5.5 클러스터에서 실행하기
5.6 잡 튜닝하기
5.7 맵리듀스 작업 흐름

6장 맵리듀스 작동 방법
6.1 맵리듀스 잡 실행 상세분석
6.2 실패
6.3 잡 스케줄링
6.4 셔플과 정렬
6.5 태스크 실행

7장 맵리듀스 타입과 포맷
7.1 맵리듀스 타입
7.2 입력 포맷
7.3 출력 포맷

8장 맵리듀스 기능
8.1 카운터
8.2 정렬
8.3 조인
8.4 사이드 데이터 분배
8.5 맵리듀스 라이브러리 클래스

9장 하둡 클러스터 설정
9.1 클러스터 명세
9.2 클러스터 설정 및 설치
9.3 SSH 설정
9.4 하둡 환경 설정
9.5 얀 환경 설정
9.6 보안
9.7 하둡 클러스터 벤치마킹
9.8 하둡 클라우드

10장 하둡 관리
10.1 HDFS
10.2 모니터링
10.3 관리

11장 피그
11.1 피그의 설치 및 실행
11.2 예제
11.4 피그 라틴
11.5 사용자 정의 함수
11.6 데이터 처리 연산자
11.7 실전 피그 사용

12장 하이브
12.1 하이브 설치하기
12.2 예제
12.3 하이브 실행하기
12.4 전통적인 데이터베이스와의 비교
12.5 HiveQL
12.6 테이블
12.7 데이터 쿼리하기
12.8 사용자 정의 함수

13장 HBase
13.1 HBasics
13.2 개념
13.3 설치
13.4 클라이언트
13.5 예제
13.6 HBase와 RBMS
13.7 연습

14장 주키퍼
14.1 주키퍼의 설치와 실행
14.2 예제
14.3 주키퍼 서비스
14.4 주키퍼로 응용프로그램 구현하기
14.5 주키퍼 실 서비스

15장 스쿱
15.1 스쿱 얻기
15.2 스쿱 커넥터
15.3 임포트 예제
15.4 생성된 코드
15.5 데이터베이스 임포트: 자세히 살펴보기
15.6 불러온 데이터로 작업하기
15.7 대용량 객체 임포트하기
15.8 익스포트 수행하기
15.9 익스포트: 자세히 살펴보기

16장 사례 연구
16.1 Last.fm의 하둡 사용 사례
16.2 페이스북의 하둡과 하이브
16.3 너치 검색 엔진
16.4 랙스페이스에서의 로그 처리
16.5 캐스케이딩
16.6 아파치 하둡의 테라바이트 정렬
16.7 피그와 우공으로 10억 개 간선 네트워크 그래프 탐색하기

부록A_ 아파치 하둡 설치하기
부록B_ 클라우데라의 하둡 배포판
부록C_ NCDC 기상 데이터의 준비

[ 저자 ]
톰 화이트
2007년 2월부터 아파치 하둡 커미터가 되었고, 이후 아파치 소프트웨어 재단의 일원이 되었다. 현재, 하둡에 대한 지원과 트레이닝을 제공하는 회사인 클라우데라(Cloudera)에서 일하고 있다. 그전에는 독립적인 하둡 고문으로서 하둡을 설치, 사용, 확장하려는 회사와 일했다. 그는 oreilly.com, java.net, IBM’s developerWorks에 수많은 글을 썼으며, 몇몇 콘퍼런스에서 하둡에 관한 연설을 했다. 톰은 캠브리지 대학에서 문학 학사 학위를 취득하고, 영국 리즈 대학에서 과학 철학 분야의 문학 석사 학위를 취득했다. 그는 현재 가족과 함께 웨일스 포이스에 산다.

[ 역자 ]
심탁길
SK C&C의 클라우드 컴퓨팅 팀에서 기술 아키텍트를 맡고 있다. 외국계 기업, 삼성SDS, NHN 등에서 다년간 분산 플랫폼 개발 및 컨설팅 업무를 수행했으며, 2007년부터는 하둡을 다양한 분야에 활용 및 운영하고 있다. 아마존이나 구글의 플랫폼 기술에 특히 관심을 가지고 연구 활동을 하고 있으며, 글로벌 회사들이 주도하는 클라우드 컴퓨팅 분야에서 한국형 클라우드 컴퓨팅 모델을 만들기 위해 열심히 노력하고 있다.

김우현
NHN에서 분산 환경을 위한 빅데이터 플랫폼을 연구했다. 오픈 소스 coord(http://www.coord.org)로 <2009 공개 SW공모대전>에서 ‘지식경제부 장관상’을 수상했다. 초창기 KT 클라우드 구축에 참여했고, S-Core에서 차세대 클라우드 운영체제Cloud OS 개발을 진두 지휘했다. 이제 새로운 모험과 도전의 땅에서 클라우드와 빅데이터 기술의 향연을 준비하고 있다.

하둡에 대한 완벽 가이드라 할 만 합니다.
김형준님이 쓰신 서평보기 I 평점 I 조회수(303) I 공감 (0) I 블로그
정보시스템 분야에서 20여년 근무하고 있는 사람입니다.항상 새로운 기술에 대한 지식을 따라잡기에 여념이 없읍니다.  이 책을 하루만에 주마간산 격으로 모두 훑어보았습니다. 하둡에 관한 기본이 충실한 서적으로 판단되었습니다. 하둡에 관한 지식을 하루만에 알아내어 너무 기쁩니다.....
데이터아키텍처 전문가 가이드 [ 2013 Edition ]...
한국데이터진흥원
선택된 상품을 찜하실 수 있습니다. 선택된 상품을 바로구매 하실 수 있습니다.
데이터아키텍처 자격검정 실전문제 [ 2013 Edition ]...
한국데이터진흥원
선택된 상품을 찜하실 수 있습니다. 선택된 상품을 바로구매 하실 수 있습니다.
오라클 교과서...
이태호
선택된 상품을 찜하실 수 있습니다. 선택된 상품을 바로구매 하실 수 있습니다.
 
전체평균(112)
회원평점   회원서평수 1
하둡에 대한 완벽 가이드라 할 만 합니다.
김형준 님  2017-11-29
한빛미디어 출판사의 신간
스파크 완벽 가이드
빌 체임버스, 마테이 자하리아 저
43,200원
(10%↓+5%)
 
(20일 완성) 나도 일러스트레이터 할 수 있다
박혜진(삐딱대가리) 저
14,400원
(10%↓+5%)
 
오토캐드 트레이닝 북
강석창 저
26,100원
(10%↓+5%)
 
인공지능 마케팅 : 인공지능은 어떻게 미래의 마케팅을 장악하는가?
짐 스턴 저
19,800원
(10%↓+5%)
 
기계는 어떻게 생각하고 학습하는가
뉴 사이언티스트, 닉 보스트롬, 넬로 크리스티아니니, 존 그레이엄-커밍, 피터 노빅, 앤더스 샌드버그, 토비 월시 저
15,300원
(10%↓+5%)
 
이메일주소수집거부