로그인회원가입장바구니고객센터마이페이지회사소개
kangcom
전체
Home >   >   > 

『아파치 플링크: 분산 환경에서 스트리밍 데이터 처리를 위한 플랫폼』

   
지은이 탄마이 데쉬판데   |   출판사 에이콘  |   발행일 2017년 08월 31일
 
클릭하시면 큰 도서이미지를 보실 수 있습니다.
판매가 30,000원27,000원 10%
마일리지 5% 1,500원
발행일 2017-08-31
ISBN 1161750401 | 9791161750408
기타정보 번역서 | 364쪽 | 일반
예상출고일 1일 (근무일기준)
배송비 무료배송
   
데이터처리
   
 

[ 요약 ]


대용량 데이터의 한계를 넘어 스트리밍 데이터 처리/분석, CEP 등 데이터의 실시간 처리/분석이 보편화되고 있다. 이 책은 스트리밍 데이터 처리, 실시간 분석의 대표 솔루션 중 하나인 아파치 플링크에 대한 전반적인 내용을 다룬다. 기본 개념, 설치 방법, 다양한 데이터 처리 방식을 비롯해 머신 러닝 기반 분석, 그래프 데이터 처리 등 풍부하게 제공되는 확장 기능에 대한 활용 방법도 소개하고 있다.


[이 책의 대상 독자 ]

분산 데이터 환경에서 배치 데이터 처리와 실시간 데이터 처리에 관심이 많은 빅데이터 개발자를 위한 책이다. 또한 분석 솔루션을 상용화, 산업화하고자 하는 데이터 과학자에게도 적합하다.


[ 이 책의 구성 ]

1장, ‘아파치 플링크 소개’에서는 플링크에 관한 역사, 아키텍처, 특징을 소개한다. 아울러 단일 노드와 다중 노드에서 아파치 플링크를 어떻게 설치하는지도 알아본다.
2장, ‘DataStream API를 이용한 데이터 처리’에서는 플링크의 스트리밍에 대한 개념을 자세히 다룬다. DataStream API에서 사용할 수 있는 데이터 소스, 트랜스포메이션, 데이터 싱크에 대해서도 배울 것이다.
3장, ‘배치 프로세싱 API를 이용한 데이터 처리 배치’에서는 처리용 API인 DataSet API를 소개한다. DataSet API에서 사용할 수 있는 데이터 소스, 트랜스포메이션, 데이터 싱크에 대해 배운다. 또한 API에 대해 사용할 수 있는 커넥션에 대해서도 살펴본다.
4장, ‘Table API를 이용한 데이터 처리’에서는 플링크 데이터 처리 프레임워크로 SQL 개념을 어떻게 사용하는지 알아본다. 실제 사례에 이 개념을 어떻게 적용시키는지도 학습한다.
5장, ‘CEP(Complex Event Processing)’에서는 플링크 CEP 라이브러리를 이용해 CEP 문제를 어떻게 해결하는지에 관한 통찰력을 얻을 수 있을 것이다. 패턴 정의, 추적, 경고 생성에 대해서도 배운다.
6장, ‘FlinkML을 이용한 머신 러닝’에서는 머신 러닝의 개념에 대해 자세히 알아보고, 실제 사례에 다양한 알고리즘들을 어떻게 적용하는지 다룬다.
7장, ‘플링크 그래프 API – Gelly’에서는 그래프의 개념에 대해 소개하고, 플링크 Gelly가 해결할 수 있는 실제 사례를 알아본다. 이를 통해 플링크가 그래프를 처리하는 방법을 알 수 있을 것이다.
8장, ‘플링크와 하둡을 이용한 분산 데이터 처리’에서는 플링크 잡을 처리하기 위해 기존의 하둡-YARN 클러스터를 어떻게 사용하는지 자세히 다룬다. YARN에서 플링크가 어떻게 동작하는지도 상세하게 설명한다.
9장, ‘클라우드상에서 플링크 배포’에서는 클라우드에서 플링크를 배포하는 방법을 소개한다. 구글 클라우드(GCP)와 아마존 웹 서비스상에서 플링크를 어떻게 사용하는지도 자세히 설명한다.
10장, ‘모범 사례’에서는 플링크를 효율적으로 사용하기 위해 개발자들이 준수해야 할 다양한 모범 사례를 다룬다. 플링크 환경을 제어하기 위한 로깅, 모니터링에 관련된 모범 사례도 설명한다.


[ 지은이의 말]

이 책은 아파치 플링크를 통해 배치 데이터 처리와 스트림 데이터 처리를 어떻게 하는지에 대한 전반적인 가이드를 제공한다. 아파치 플링크 에코 시스템 소개를 시작으로, 배치 데이터세트와 스트림 데이터세트를 위해 DataSet API와 DataStream API의 설치와 사용법을 소개한다. 플링크에서 SQL의 장점을 극대화할 수 있도록 데이터를 쿼리하고 조작할 수 있는 Table API에 대해서도 알아본다. 책의 후반부에서는 이벤트 처리, 머신 러닝, 그래프 데이터 처리 같은 복잡한 작업을 해내는 데 필요한 아파치 에코 시스템의 구성 요소에 대해 배운다. 책의 끝에서는 다양한 주제를 다룬다. 이를테면 확장성을 고려한 플링크 활용 방안, 성능 최적화 등이 있다. 아울러 하둡, 일래스틱서치, 카산드라, 카프카 같은 다른 툴과 플링크를 어떻게 연동, 통합하는지도 다룬다.
아파치 플링크에 대해 더 깊이 있게 알고 싶거나 어떻게 하면 더 잘 활용할 수 있을지 고민하고 있다면, 이 책에서 해답을 찾을 수 있으리라 생각한다. 이 책에서는 여러 가지 실제 사례를 다루고 있으며, 이를 통해 그러한 궁금증들을 하나씩 해소할 수 있을 것이다.
1장. 아파치 플링크 소개

__아파치 플링크의 역사
__아키텍처
__분산형 실행
__주요 특징
__플링크 설치 시작
__클러스터 세팅
__예제 애플리케이션 실행 테스트
__이 장의 요약


2장. DataStream API를 이용한 데이터 처리

__실행 환경
__데이터 소스
__트랜스포메이션
__물리적 파티셔닝
__데이터 싱크
__이벤트 타임과 워터마크
__커넥터
__적용 사례 - 센서 데이터 분석
__이 장의 요약


3장. 배치 프로세싱 API를 이용한 데이터 처리

__데이터 소스
__트랜스포메이션
__브로드캐스트 변수
__데이터 싱크
__커넥터
__Iterations
__적용 사례 – 플링크 Batch API를 이용한 스포츠 데이터 분석
__이 장의 요약


4장. Table API를 이용한 데이터 처리

__테이블 등록
__등록된 테이블 액세스 방법
__주요 연산 명령어
__SQL
__활용 예제–플링크 Batch API를 이용한 스포츠 데이터 분석
__이 장의 요약


5장. CEP - Complex Event Processing

__CEP란 무엇인가?
__Flink CEP
__Pattern API
__적용 사례 – 온도 센서에 대한 CEP
__이 장의 요약


6장. FlinkML을 이용한 머신 러닝

__머신 러닝이란 무엇인가?
__FlinkML
__FlinkML에서 지원할 수 있는 알고리즘
__이 장의 요약


7장. 플링크 그래프 API - Gelly

__그래프란 무엇인가?
__Gelly – 플링크 그래프 API
__반복 수행을 통한 그래프 데이터 처리
__적용 사례 - 항공 여행 최적화 문제
__이 장의 요약


8장. 플링크와 하둡을 이용한 분산 데이터 처리

__하둡의 개요
__YARN상에서의 플링크
__이 장의 요약


9장. 클라우드상에서 플링크 배포

__구글 클라우드 기반 플링크
__이 장의 요약


10장. 모범 사례

__로깅 모범 사례
__파라미터 툴 사용
__대규모 TupleX 타입 네이밍
__사용자 시리얼라이저 등록
__메트릭스
__REST API 모니터링
__백 프레셔 모니터링
__이 장의 요약
탄마이 데쉬판데(Tanmay Deshpande)
하둡과 빅데이터 에반젤리스트(Evangelist)다. 현재 인도의 푸네(Pune)에 있는 슐룸베르거(Schlumberger)에서 빅데이터 아키텍트로 일하고 있다. 하둡(Hadoop), 하이브(Hive), 피그(Pig), NoSQL 데이터베이스, 머하웃(Mahout), 스쿱(Sqoop), 자바(Java), 클라우드 컴퓨팅 같은 광범위한 분야의 기술에 관심이 많다. 정유/천연가스, 금융, 통신, 제조, 보안, 소매업 등과 같은 다양한 산업 분야에서 애플리케이션 개발 경험을 쌓았다. 머신 러닝 문제를 해결하는 데 열중하고 있으며, 손에 잡히는 대로 다양한 책을 읽는 데 많은 시간을 할애하고 있다. 오픈소스 기술에도 지대한 관심을 갖고 있으며, 다양한 대외 발표를 통해 이에 대한 노력을 기울이고 있다. 슐룸베르거에 합류하기 전에는 시만텍(Symantec), 루미아타(Lumiata), 인포시스(Infosys)에서 근무했다. 혁신적인 사고와 다이내믹한 리더십을 통해 다양한 프로젝트를 성공적으로 완수해왔다.
개인 웹사이트(http://hadooptutorials.co.in)에서 꾸준히 블로그 활동을 하고 있다. https://in.linkedin.com/in/deshpandetanmay를 통해 링크드인 1촌 신청도 할 수 있다.
또한 수년간 팩트출판사를 통해 『Mastering DynamoDB』(2014), 『DynamoDB Cookbook』(2015), 『Hadoop Real World Solutions Cookbook-Second Edition』(2016), 『Hadoop: Data Processing and Modelling』(2016), 『Hadoop Blueprints』(2016) 등 여러 IT 기술 전문 서적을 출간했다.


★ 옮긴이의 말 ★

단순히 대용량이라는 개념을 넘어 ‘빅데이터’라는 용어가 사용된 것은 불과 10년 정도지만, 그동안 데이터 처리/분석 기술은 대단한 혁신을 이룬 듯 하다. 최근 IoT와 미디어 분야의 산업이 급속도로 커지면서, 배치(Batch) 방식을 이용한 대량 데이터 처리/분석보다 실시간, 대용량 스트리밍 데이터 처리, CEP(Complex Event Processing)의 중요성이 날로 높아지고 있다. 스트리밍 데이터 처리/분석에 대해서는 스톰(Storm), 스파크 스트리밍(Spark Streaming), 아파치 에이펙스(Apex) 등 유명한 솔루션이 많지만, 이 중에서도 아파치 플링크(Flink)는 단연 스트리밍에 최적화된 솔루션이라고 할 수 있다.
특히, 다양한 분석 기능을 제공하면서 점차 응용 분야를 확대해나가고 있는 점에도 주목할 필요가 있다.
이 책은 아파치 플링크의 기본 개념을 친절하게 소개하고 있다. 또한 플링크를 보다 빠르고 쉽게 익힐 수 있도록 다양한 기능에 관한 자세한 설명과 많은 예제 코드를 제공하고 있다. 그동안 상대적으로 플링크에 관한 서적이 거의 없었는데, 이 책이 가뭄의 단비 같은 역할을 해줄 것으로 생각된다. 아울러 플링크의 확산에도 많은 도움이 될 것으로 기대한다.


★ 옮긴이 소개 ★

남궁영환
고려대학교 컴퓨터학과(학사/석사)와 서던캘리포니아 대학교(석사)를 졸업하고, 플로리다 대학교에서 데이터 마이닝을 주제로 컴퓨터공학 박사 학위를 취득했다. 삼성SDS연구소에서 클라우드 컴퓨팅, 빅데이터 인프라 플랫폼, 데이터 과학/분석에 관한 다양한 최신 기술의 연구/개발 과제를 수행했다. 현재 아마존 웹 서비스(Amazon Web Services)에서 프로페셔널 서비스 빅데이터 컨설턴트(Professional Services Big Data Consultant)로 활동 중이다.
등록된 서평이 없습니다.
패턴인식과 기계학습(기초부터 활용까지)...
선택된 상품을 찜하실 수 있습니다. 선택된 상품을 바로구매 하실 수 있습니다.
엘라스틱서치...
김종민
선택된 상품을 찜하실 수 있습니다. 선택된 상품을 바로구매 하실 수 있습니다.
매튜 마티아...
닉 맥클루어...
티모시 마스...
 
전체평균(0)
회원평점   회원서평수 0
에이콘 출판사의 신간
『하루 만에 혼자서 배우는 언리얼 엔진 4: 한 시간씩 단계별로 배우는 언리얼 엔진 4 마스터 과정』
아람 쿡슨, 라이언 도울링소카, 클린턴 크럼플러 저
31,500원
(10%↓+5%)
 
『KVM 가상화 완전 가이드: 클라우드 컴퓨팅을 위한 리눅스 가상화 시스템』
험블 데바시 치라멀, 프라사드 머크헤드카, 아닐 베타투 저
36,000원
(10%↓+5%)
 
『일래스틱서치 고급 기능의 개념과 활용: 일래스틱서치 5를 활용한 유연하고 확장 가능한 검색 솔루션 개발』
바디 딕시트 저
31,500원
(10%↓+5%)
 
『안드로이드 웨어 애플리케이션 개발: 안드로이드 웨어 앱 개발 기초부터 테스트, 배포까지』
시디크 하메드, 자비드 치다 저
21,600원
(10%↓+5%)
 
『나를 지키는 셀프 보안: 초보 이대리의 보안 성장기』
이창현 저
18,000원
(10%↓+5%)
 
이메일주소수집거부