로그인회원가입장바구니고객센터마이페이지회사소개
kangcom
전체
Home >   >   > 
["2017년 대한민국학술원 우수학술도서"] 

빅데이터 마이닝

 [하둡을 이용한 대용량 데이터 마이닝 기법]
   
지은이 쥬어 레스코벡, 아난드 라자라만, 제프리 데이비드 울만   |   출판사 에이콘  |   발행일 2017년 02월 10일
 
클릭하시면 큰 도서이미지를 보실 수 있습니다.
판매가 40,000원36,000원 10%
마일리지 5% 2,000원
발행일 2017-02-10
ISBN 8960779539 | 9788960779532
기타정보 번역서 | 592쪽 | 일반
예상출고일 금일 가능 (근무일기준)
배송비 무료배송
   
데이터베이스관리
종합지수 0p
   
이 책의 원서
  Mining of Massive Datasets
Cambridge University Press | Anand Rajaraman
 

[요약 ]

데이터 마이닝, 통계, 빅데이터 그리고 머신 러닝이라는 주제는 서로 떼어놓고 생각할 수 없는 관계다. 이 책은 데이터 마이닝 분야에서 다뤄지는 핵심 문제들을 빅데이터에 적용 가능한 알고리즘으로 구현할 수 있는 방법에 초점을 맞추고 있다. 스탠퍼드 대학의 교재답게(http://www.mmds.org/), 데이터 마이닝의 기본 원리부터 머신 러닝까지 상세히 다루며, 흥미로운 사례로 넷플릭스와 전자상거래의 추천 시스템, 검색 엔진의 기본 원리 등을 이해하기 쉽게 설명한다. 데이터 과학자가 되고 싶다면 이 책을 중심으로 다른 부교재들을 참고하며 공부하는 것을 추천한다.


[ 이 책에서 다루는 내용]

■ 대규모 데이터를 처리할 수 있는 병렬 알고리즘을 만드는 툴인 분산 파일 시스템과 맵리듀스(map-reduce)
■ 민해시(minhash)와 지역성 기반 해시(locality-sensitive hash) 알고리즘의 핵심 기술 및 유사도 검색(similarity search)
■ 매우 빨리 입력돼 즉각 처리하지 않으면 유실되는 데이터를 다루는 데 특화된 알고리즘과 데이터 스트림 처리
■ 구글의 페이지랭크(PageRank), 링크 스팸 탐지, 허브와 권위자(hubs-and-authorities) 기법을 포함하는 검색 엔진 기술
■ 연관 규칙(association rule), 시장바구니 모델(market-baskets), 선험적 알고리즘(A-Priori Algorithm)과 이를 개선한 기법들 및 빈발 항목집합(frequent-itemset) 마이닝
■ 대규모 고차원 데이터 집합을 클러스터링하는 알고리즘
■ 웹 애플리케이션과 관련된 두 가지 문제인 광고와 추천 시스템
■ 소셜 네트워크 그래프처럼 매우 큰 구조의 분석과 마이닝을 위한 알고리즘들
■ 특이 값 분해(singular value decomposition)와 잠재 의미 색인(latent semantic indexing) 및 차원 축소(dimensionality reduction)를 통해 대규모 데이터에서 중요한 속성을 도출해내는 기법들
■ 퍼셉트론(perceptron), 서포트 벡터 머신(support vector machine), 경사 하강(gradient descent) 같은 대규모 데이터에 적용 가능한 머신 러닝 알고리즘


[ 이 책의 대상 독자 ]

데이터베이스와 웹 기술을 선도하는 학자들이 쓴 이 책은 학생과 실무자 모두를 위한 필독서다. 다음의 과정을 익힌 독자들에게 적합한 책이다.
■ SQL 및 관련 프로그래밍 시스템을 주제로 하는 데이터베이스 시스템 입문
■ 2학년 수준의 자료구조, 알고리즘, 이산수학
■ 2학년 수준의 소프트웨어 시스템, 소프트웨어 엔지니어링, 프로그래밍 언어


[ 지은이의 말 ]

이 책은 여러 해 동안 스탠퍼드(Stanford)에서 진행된 아난드 라자라만(Anand Rajaraman)과 제프 울만(Jeff Ullman) 두 교수의 강의 교육 자료에서 시작됐다. ‘웹 마이닝’이라는 제목의 CS345A 강의는 고급 대학원 과정으로 개설되긴 했지만, 우수한 학부생들도 관심을 갖게 되었고 참여가 가능했다. 이후 쥬어 레스코벡(Jure Leskovec) 교수가 스탠퍼드에 부임하게 되면서 상당히 많은 내용이 개편됐다. 그는 네트워크 분석 강의 CS224W를 새로 신설했고, CS246으로 이름이 바뀐 CS345A의 자료를 보완했다. 또한 세 교수는 대규모 데이터 마이닝 프로젝트 강의 CS341을 개설했다. 이 책은 위 세 가지 강의 자료를 바탕으로 만들어졌다.

1장. 데이터 마이닝
1.1 데이터 마이닝이란?
1.2 데이터 마이닝의 통계적 한계점
1.3 알아두면 유용한 사실들
1.4 이 책의 개요
1.5 요약
1.6 참고문헌

2장. 맵리듀스와 새로운 소프트웨어 스택
2.1 분산 파일 시스템
2.2 맵리듀스
2.3 맵리듀스를 사용하는 알고리즘
2.4 맵리듀스의 확장
2.5 통신 비용 모델
2.6 맵리듀스에 대한 복잡도 이론
2.7 요약
2.8 참고문헌

3장. 유사 항목 찾기
3.1 근접 이웃 탐색의 응용
3.2 문서의 슁글링
3.3 집합의 유사도 보존 요약
3.4 문서의 지역성 기반 해싱
3.5 거리 측정
3.6 지역성 기반 함수의 이론
3.7 기타 거리 측정법들을 위한 LSH 함수군
3.8 지역성 기반 해시 응용 분야
3.9 높은 유사도 처리 방법
3.10 요약
3.11 참고문헌

4장. 스트림 데이터 마이닝
4.1 스트림 데이터 모델
4.2 스트림 데이터의 표본추출
4.3 스트림 필터링
4.4 스트림에서 중복을 제거한 원소 개수 세기
4.5 모멘트 근사치
4.6 윈도 내에서의 카운트
4.7 감쇠 윈도
4.8 요약
4.9 참고문헌

5장. 링크 분석
5.1 페이지랭크
5.2 페이지랭크의 효율적인 연산
5.3 주제 기반 페이지랭크
5.4 링크 스팸
5.5 허브와 권위자
5.6 요약
5.7 참고문헌

6장. 빈발 항목집합
6.1 시장바구니 모델
6.2 시장바구니와 선험적 알고리즘
6.3 메인 메모리에서 더 큰 데이터 집합 처리하기
6.4 단계 한정 알고리즘
6.5 스트림에서 빈발 항목 개수 세기
6.6 요약
6.7 참고문헌

7장. 클러스터링
7.1 클러스터링 기법의 개요
7.2 계층적 클러스터링
7.3 k평균 알고리즘
7.4 CURE 알고리즘
7.5 비유클리드 공간에서의 클러스터링
7.6 스트림을 위한 클러스터링과 병렬 처리
7.7 요약
7.8 참고문헌

8장. 웹을 통한 광고
8.1 온라인 광고와 관련된 주제들
8.2 온라인 알고리즘
8.3 조합 문제
8.4 애드워즈 문제
8.5 애드워즈 구현
8.6 요약
8.7 참고문헌

9장. 추천 시스템
9.1 추천 시스템 모델
9.2 내용 기반 추천
9.3 협업 필터링
9.4 차원 축소
9.5 넷플릭스 챌린지
9.6 요약
9.7 참고문헌

10장. 소셜 네트워크 그래프 마이닝
10.1 소셜 네트워크 그래프
10.2 소셜 네트워크 그래프 클러스터링
10.3 커뮤니티의 직접적 발견
10.4 그래프 분할
10.5 겹치는 커뮤니티 찾기
10.6 유사순위
10.7 삼각형의 개수 세기
10.8 그래프의 이웃 특징
10.9 요약
10.10 참고문헌

11장. 차원 축소
11.1 고윳값과 고유벡터
11.2 주성분 분석
11.3 특이 값 분해
11.4 CUR 분해
11.5 요약
11.6 참고문헌

12장. 대규모 머신 러닝
12.1 머신 러닝 모델
12.2 퍼셉트론
12.3 서포트 벡터 머신
12.4 최근접 이웃 학습
12.5 학습 방식의 비교
12.6 요약
12.7 참고문헌

쥬어 레스코벡(Jure Leskovec)
스탠퍼드 대학교(Stanford University) 컴퓨터학과의 부교수로 재직 중이다. 주요 연구 분야는 대규모 소셜 네트워크 및 정보 네트워크 마이닝이다. 대규모 데이터, 웹과 온라인 미디어에 기인한 문제들에 관심이 많다. 이와 관련된 연구로 마이크로소프트 학술상(Microsoft Research Faculty Fellowship), 알프레드 P.슬론 학술상(the Alfred P.Sloan Fellowship), 오카와 재단 학술상(Okawa Foundation Fellowship)과 다수의 최고 논문상을 수상했다. 또한 스탠퍼드 네트워크 분석 플랫폼(SNAP, Stanford Network Analysis Platform)(http://snap.stanford.edu)과 수억 개의 노드 및 수십억 개의 에지(edge)를 갖는 대형 네트워크로 쉽게 확장 가능한 범용 네트워크 및 그래프 마이닝을 고안했다. 트위터에서 @jure로 그를 팔로우할 수 있다.

아난드 라자라만(Anand Rajaraman)
실리콘 밸리를 본사로 둔 여러 회사의 기업가, 벤처 자본가이면서 학자다. 아마존닷컴(Amazon.com)이 인수한 정글리(Junglee)와 월마트(Walmart)가 인수한 코스믹스(Kosmix)라는 스타트업의 창업자기도 하다. 벤처 캐피탈 회사인 밀리웨이즈 랩(milliways Labs)과 캄브리언 벤처스(Cambrian Ventures)의 초기 창립 파트너로서, 다수의 촉망받는 회사들의 초기 투자자였던 경험이 있다. 최근까지 월마트 글로벌 이커머스(Walmart Global eCommerce)의 부사장을 역임했으며, @WalmartLabs의 공동 책임자로서 소셜, 모바일, 커머스 융합에 힘써왔다. 학계에서는 데이터베이스 시스템, 월드와이드웹, 소셜 미디어의 융합과 관련된 연구에 관심을 두고 있다. 그의 연구 논문은 ACM SIGMOD 및 VLDB의 10년 회고 우수 논문상을 비롯해 권위 있는 학회에서 여러 차례 수상했다. 또한 아마존 메커니컬 터크(Amazon Mechanical Turk)의 공동 창안자이기도 하며, 크라우스소싱(crowdsourcing)의 개념을 고안해낸 당사자다. 트위터(@anad_raj)에서 그를 팔로우할 수 있다.

제프리 데이비드 울만(Jeffrey David Ullman)
스탠퍼드 W. 애셔먼(Stanford W. Ascherman) 컴퓨터학과 (명예)교수며 현재 그래디언스(Gradiance)의 CEO다. 데이터베이스 이론, 데이터 마이닝, 정보 구조를 활용한 교육이 주요 관심 연구 주제다. 그는 데이터베이스 이론 분야의 창시자 중 한 명으로서, 추후 데이터베이스 이론가가 된 세대 전체 학생들을 지도한 박사이자 고문이었다. 최근에는 커누스상(Knuth Prize)(2000), 시그모이드 E. F. 코드 혁신상(Sigmod E. F. Codd Innovations award)(2006)을 수상했다. 또한 그는 ‘자동화 및 언어 이론 분야의 토대 구축과 이론적 컴퓨터 과학으로의 중대한 공헌’을 발표해 2010 IEEE 존 폰 노이만 메달(John von Neumann Medal)을 (존 홉크로프트(John Hopcroft)와 함께) 공동으로 수상했다.
등록된 서평이 없습니다.
데이터아키텍처 전문가 가이드 [ 2013 Edition ]...
한국데이터진흥원
선택된 상품을 찜하실 수 있습니다. 선택된 상품을 바로구매 하실 수 있습니다.
새로 쓴 대용량데이터베이스솔루션 1...
이화식
선택된 상품을 찜하실 수 있습니다. 선택된 상품을 바로구매 하실 수 있습니다.
MySQL Troubleshooting...
스베타 스머노바
선택된 상품을 찜하실 수 있습니다. 선택된 상품을 바로구매 하실 수 있습니다.
 
전체평균(0)
회원평점   회원서평수 0
에이콘 출판사의 신간
데브옵스 2.0 툴킷
빅토르 파르시트 저
36,000원
(10%↓+5%)
 
데브옵스와 AWS
베셀린 칸세브 저
27,000원
(10%↓+5%)
 
C++와 CUDA C로 구현하는 딥러닝 알고리즘 세트
티모시 마스터즈 저
70,200원
(10%↓+5%)
 
R을 활용한 비즈니스 인텔리전스
제이 겐드론 저
21,600원
(10%↓+5%)
 
자바 람다 배우기
토비 웨슨 저
10,800원
(10%↓+5%)
 
이메일주소수집거부