로그인회원가입장바구니고객센터마이페이지회사소개
kangcom
전체
Home >   >   > 

『Pandas Cookbook: 과학 연산, 시계열 분석, 파이썬을 이용한 시각화, 정돈된 데이터 만들기』

   
지은이 시어도어 페트로우   |   출판사 에이콘  |   발행일 2018년 03월 30일
 
클릭하시면 큰 도서이미지를 보실 수 있습니다.
판매가 40,000원36,000원 10%
마일리지 5% 2,000원
발행일 2018-03-30
ISBN 1161751254 | 9791161751252
기타정보 번역서 | 620쪽
예상출고일 금일 가능 (근무일기준)
배송비 무료배송
   
일반
   
 

★ 요약 ★



Pandas가 가진 모든 기능을 친절한 예제와 설명, 실제 파이썬 코드를 통한 실습을 통해 설명한다. Pandas의 핵심인 DataFrame과 Series를 주축으로, 대부분의 함수, 메서드, 속성을 설명하고 각각이 가진 장단점과 메모리 사용량과 처리 시간도 비교해 준다. 또한 금융데이터에 있어 가장 중요한 시계열 자료를 처리하는 다양한 방법은 물론 SQL 데이터베이스와 연결하는 방법도 알려준다.

이와 함께 정돈된 데이터(Tidy data)에 대한 정의와 함께 데이터를 정돈하기 위한 방법과 절차에 대해 자세히 알아보고 matplotlib, 파이썬 plot, seaborn을 이용한 데이터 시각화에 대해 자세히 설명하고 각각의 장단점을 상세히 설명한다.





★ 이 책에서 다루는 내용 ★



■ 모든 데이터셋의 탐색이 가능하도록 해주는 Pandas의 기본 지식 마스터

■ 쿼리와 선택을 통해 데이터 중 원하는 부분만 부분집합으로 적절히 골라내는 방법

■ 데이터를 종합하거나 각 그룹으로 변환하기 전 개별 그룹으로 분할하는 방법

■ 데이터 분석 및 시각화가 용이하도록 데이터를 정돈된 형식으로 재구성

■ 정리되지 않은 실제 데이터를 머신 러닝에서 사용할 수 있도록 준비

■ SQL 유사 연산 기능을 통해 서로 다른 소스의 데이터 병합

■ 독보적인 시계열 데이터 처리 능력

■ matplitlib나 seaborn을 사용한 멋지면서도 동시에 통찰을 얻을 수 있는 시각화 기능





★ 이 책의 대상 독자 ★



이 책은 단순한 레시피에서 고급 레시피까지 거의 100가지 정도의 레시피를 다루고 있다. 모든 레시피는 최신 파이썬 문법과 구문을 사용해 작성됐다. ‘작동 원리’ 절에서는 레시피의 복잡한 각 단계에 대해 상세한 설명을 제공한다. 종종 ‘추가 사항’ 절에서 완전히 새로운 레시피에 대한 정보를 얻을 수 있다. 이 책은 방대한 Pandas 코드를 제공한다.

일반적으로 처음 6개 장의 레시피는 간단하며, 나머지 5개 장에 비해 기본적이고 근본적인 Pandas 연산에 중점을 두고 있고, 나머지 5개 장은 고급 연산과 프로젝트에 기반을 둔 레시피를 소개한다. 이 책의 난이도는 광범위하기 때문에 초보자와 숙련자 모두에게 유용하다. 따라서 Pandas를 일상적으로 사용하는 사람도 Pandas의 관용구에 익숙해지지 않으면 마스터할 수 없다. 이 점은 Pandas의 방대한 영역에서 비롯된다. 대부분 동일한 연산을 수행할 수 있는 여러 가지 방법이 존재하는데 사용자가 원하는 결과를 얻을 수는 있지만 비효율적인 방법을 사용할 가능성이 있으며, 동일한 문제를 해결하는 Pandas 솔루션의 속도 차이가 몇 제곱 이상 다른 경우도 많다.

책을 읽기 위한 필수 지식은 오직 파이썬뿐이다. 독자가 리스트, 집합, 딕셔너리, 튜플 등과 같은 파이썬의 내장 데이터 저장소에 어느 정도 익숙하다고 가정한다.





★ 이 책의 구성 ★



1장, ‘Pandas 기초’에서는 Pandas 데이터 구조를 이루는 두 구성 요소인 Series와 DataFrame를 해부하고 용어를 정리한다. 각 열은 동일한 데이터 형식을 가져야 하는데, 각 데이터 형식을 알아본다. 이를 통해 Series와 DataFrame의 메서드를 호출하고 체인시키면서 두 요소의 진정한 힘을 배우게 될 것이다.

2장, ‘DataFrame 필수 연산’에서는 데이터 분석을 위해 가장 중요하고 보편적인 연산에 대해 알아본다.

3장, ‘데이터 분석 시작’에서는 데이터를 읽어 들인 후, 해야 할 반복적인 작업을 개발하는 데 도움을 줄 것이다. 이외에 흥미로운 점도 많이 발견하게 될 것이다.

4장, ‘데이터의 부분 집합 선택’에서는 서로 다른 부분 집합 선택에 있어 혼동되는 부분 등 여러 주제에 대해 다룬다.

5장, ‘불리언 인덱싱’에서는 불리언 조건을 이용해 데이터의 부분 집합을 선택하는 쿼리 프로세스를 다룬다.

6장, ‘인덱스 정렬’에서는 아주 중요하지만 종종 잘못 이해되고 있는 인덱스(index) 객체를 다룬다. 인덱스를 잘못 다루면 수많은 잘못된 결과를 초래하는데, 6장에서는 강력한 결과를 얻기 위한 올바른 사용법에 대해 알아본다.

7장, ‘종합, 필터링, 변환을 위한 종합’에서는 데이터를 분석하는 동안 항상 필요한 강력한 그룹화 기능에 대해 다룬다. 목적에 맞는 그룹에 적용할 사용자 정의 함수를 구성할 수 있게 될 것이다.

8장, ‘데이터를 정돈된 형태로 재구성’에서는 정돈된 데이터에 대해 설명하고 왜 중요한지 알아본다. 또 서로 다른 혼란된 형태로 된 데이터를 정돈하는 법에 대해 다룬다.

9장, ‘Pandas 객체 병합’에서는 DataFrames와 Series를 수직과 수평으로 병합하는 여러 메서드에 대해 알아본다. 또 웹 스크래핑을 통해 트럼프와 오바마 대통령의 국정 수행 평가 점수를 비교하고 SQL 관계형 데이터베이스에 연결해본다.

10장, ‘시계열 분석’은 가능한 모든 시간 차원에 따라 분해를 위한 시계열 기능의 강력한 고급 기능에 대해 알아본다.

11장, ‘Matplotlib, Pandas, Seaborn을 이용한 시각화’에서는 Pandas의 모든 도식화의 기본이되는 matplotlib 라이브러리를 소개한다. 그런 다음, Pandas plot 메서드와 seaborn 라이브러리 등 Pandas에서 직접적으로 제공되지 않는 다양하고 심미적인 시각화 기능에 대해 알아본다.





★ 지은이의 말 ★



이 책은 간단명료한 레시피를 제공해, Pandas로 보편적인 데이터 조작과 과학 연산 과제를 해결하는 방법을 알려준다. 독자들은 다양한 데이터셋으로 직접 작업해보면서 효율적 데이터 가공을 통한 수많은 조작을 수행하게 된다. 이 책을 통해 Pandas DataFrames의 위력을 알게 될 것이고 불리언과 다중 인덱싱에 대해 배우게 될 것이다. 통계와 시계열 계산과 관련된 과제와 이를 금융과 과학 응용에 구현하는 방법에 대해서도 다루고 있다.

이 책을 읽고 나면 Pandas를 마스터하기에 필요한 모든 지식을 습득하게 되고 과학 연산을 한층 더 빠르고 정교하게 수행하게 될 것이다.

1장. Pandas 기초



__소개

__DataFrame 해부

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__DataFrame의 주요 구성 요소 이용

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__데이터 형식 이해하기

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__데이터 단일 열을 Series로 선택하기

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__Series 메서드 호출

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__Series에 연산자 사용하기

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__Series 메서드를 함께 사용하기

____준비 단계

____방법

____작동 원리

____추가 사항

__인덱스를 의미 있게 만들기

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__열과 행 이름 다시 짓기

____준비 단계

____방법

____작동 원리

____추가 사항

__열의 생성과 삭제

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌





2장. DataFrame 필수 연산



__소개

__DataFrame에서 복수 열 선택

____준비 단계

____방법

____작동 원리

____추가 사항

__메서드를 사용한 열 선택

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__열 이름 일목요연하게 정렬하기

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__전체 DataFrame에 대한 연산

____준비 단계

____방법

____작동 원리

____추가 사항

__DataFrame 메서드 체인으로 묶기

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__DataFrame에서 연산자 이용

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__누락값 비교

____준비 단계

____방법

____작동 원리

____추가 사항

__DataFrame 연산의 방향 바꾸기

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__대학 캠퍼스의 다양성 지수 발견

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌





3장. 데이터 분석 시작



__소개

__데이터 분석 루틴 개발

____준비 단계

____방법

____작동 원리

____추가 사항

____데이터 딕셔너리

____참고문헌

__데이터 형식 변경을 통한 메모리 절약

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__최대에서 최소 선택

____준비 단계

____방법

____작동 원리

____추가 사항

__정렬에 의해 각 그룹의 최대 선택

____준비 단계

____방법

____작동 원리

____추가 사항

__sort_values를 사용해 nlargest를 복제

____준비 단계

____방법

____작동 원리

____추가 사항

__추적 지정 주문가 계산

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌





4장. 데이터의 부분 집합 선택



__소개

__Series 데이터 선택

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__DataFrame 행 선택

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__DataFrame의 행과 열을 동시에 선택하기

____준비 단계

____방법

____작동 원리

____추가 사항

__정수와 레이블을 동시에 사용해 데이터 선택

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__스칼라 더 빠르게 선택하기

____준비 단계

____방법

____작동 원리

____추가 사항

__게으른 행 슬라이스

____준비 단계

____방법

____작동 원리

____추가 사항

__사전 순서로 슬라이스

____준비 단계

____방법

____작동 원리

____추가 사항





5장. 불리언 인덱싱



__소개

__불리언 통계량 계산

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__다중 불리언 조건 구축

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__불리언 인덱싱을 사용한 필터링

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__인덱스를 사용한 불리언 인덱싱의 복제

____준비 단계

____방법

____작동 원리

____추가 사항

__고유한 정렬된 인덱스를 사용한 선택

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__주가 전망

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__SQL WHERE 절 해석

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__주식 시장 수익률의 정규성 검정

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__query 메서드를 사용한 불리언 인덱싱의 가독성 개선

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__where 메서드를 사용한 Series 보존

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__DataFrame 행 마스크

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__불리언, 정수 위치, 레이블을 이용한 선택

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌





6장. 인덱스 정렬



__소개

__인덱스 객체 관찰

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__카디션 곱 생성

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__인덱스 폭발

____준비 단계

____방법

____작동 원리

____추가 사항

__서로 다른 인덱스에 값 채우기

____준비 단계

____방법

____작동 원리

____추가 사항

__다른 DataFrames의 열 추가

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__각 열의 최댓값 부각하기

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__메서드 체인을 사용한 idxmax 복제

____준비 단계

____방법

____작동 원리

____추가 사항

__가장 흔한 최대값 찾기

____준비 단계

____방법

____작동 원리

____추가 사항





7장. 종합을 위한 그룹화, 필터링 그리고 변환



__소개

__종합에 대한 정의

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__복수 열과 함수를 사용한 그룹화와 집계

____준비 단계

____방법

____작동 원리

____추가 사항

__그룹화 후 MultiIndex 제거

____준비 단계

____방법

____작동 원리

____추가 사항

__종합 함수 커스터마이징

____준비 단계

____방법

____작동 원리

____추가 사항

__*args와 **kwargs를 사용한 종합 함수 커스터마이징

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__groupby 객체 조사

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__소수 인종이 다수인 주 찾기

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__체중 감량 내기를 통한 변환

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__apply를 이용한 주별 가중 평균 SAT 점수 계산

____준비 단계

____

____작동 원리

____추가 사항

____참고문헌

__연속 변수에 의한 그룹화

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__도시 간 총 비행 횟수 계산

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__최장 연속 정시 비행 찾기

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌





8장. 정돈된 형태로 데이터 재구성



__소개

__stack을 이용해 변숫값을 변수 이름으로 정돈

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__복수 변수 그룹을 동시에 스태킹

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__스택된 데이터 되돌리기

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__groupby 종합 후 Unstacking

____준비 단계

____방법

____작동 원리

____추가 사항

____참고문헌

__groupby 종합으로 pivot_table 복제

____준비 단계

____방법

____작동 원리

____추가 사항

__쉬운 재구축을 위해 레벨 재명명

____준비 단계

____방법

____작동 원리

____추가 사항

__복수 변수가 열 이름으로 저장됐을 때의 정돈

____준비 단계

____방법

____작동 원리
시어도어 페트로우(Theodore Petrou)

데이터 과학자이자 탐색 데이터 분석에 중점을 두고 있는 교육 회사 던더 데이터(Dunder Data)의 설립자다. 미트업(Meetup) 그룹인 휴스턴 데이터 과학의 헤드로, 이 그룹은 2,000여 명의 멤버를 갖고 있고 같은 공간에서 데이터 과학을 학습하기 위한 공동체를 형성하는 것을 주목적으로 하고 있다. 던더 데이터를 설립하기 전에는 대규모 정유 회사인 슐룸베르거(Schlumberger)에서 데이터 과학자로 근무했는데, 대부분의 시간을 데이터 분석 업무에 할애했다.

엔지니어 텍스트로부터 부품 고장의 근본 원인을 파악하는 타깃화된 감정 분석, 커스터마이즈된 대시보드 응용, 판매 상품 가격 산정 오류를 막기 위한 실시간 웹 서비스 등의 프로젝트를 수행했다. 라이스(Rice) 대학에서 통계학으로 석사 학위를 받았고, 데이터 과학자가 되기 전에는 분석 기술을 이용해 직업 포커 게임을 하기도 했으며, 수학을 가르치기도 했다. 실습을 통한 학습을 강조하며 스택 오버플로에서 Pandas 관련 답변을 자주 하곤 한다.





★ 옮긴이의 말 ★



데이터 분석의 중요성과 데이터 과학자에 대한 필요성에 대한 목소리는 하루가 다르게 커져가고 있지만, 데이터 분석에 있어서 소위 ‘정돈된 데이터(Tidy data)’의 필요성과 데이터 전처리의 중요성에 대해서는 여전히 잘 인식하지 못하는 듯하다. 특히 파이썬을 이용해 데이터 분석을 하는 대부분의 사람들은 늘 Pandas를 사용하면서도 정작 Pandas가 가진 전체 기능에 대해 제대로 학습하려는 노력은 많이 부족한 듯하다.

이 책은 데이터를 가공하기 위해 필요한 거의 모든 기능이 구현돼 있는 Pandas의 모든 것을 알려준다. 또한 단순한 기능의 설명에 그치는 것이 아니라 그 내부 구현 방식도 별도로 설명해 데이터 처리에 드는 메모리 사용량은 물론 처리 시간이 더 유리한 방식에 대해 친절히 설명한다. 특히 수십 만개에서 수백만 개의 관측치를 가진 빅데이터를 처리해야 하는 경우 효율적인 처리 방식은 너무나 중요하다.

이 책을 통해 DataFrame과 Series 등 Pandas의 근간이 되는 데이터 구조에서 자신이 원하는 부분만 정확히 선택하되 가장 효율적인 방식으로 처리하는 방법을 풍부한 예제를 통해 배우게 될 것이다.





★ 옮긴이 소개 ★



CRAS 금융경제 연구소

머신 러닝과 통계, 블록체인에 기반한 금융 분석과 인공지능 기반의 핀테크 기법을 연구하는 곳이다. KAIST 전산학과 계산이론 연구실에서 학사와 석사학위를 취득한 이병욱 대표가 이끌고 있으며, 핀테크 관련 새로운 기술 개발은 물론 다양한 분야의 책을 저술하고 번역하며 세미나 및 강연을 겸하고 있다. 대표적인 저서나 번역서로는 에이콘출판사에서 출간한 『비트코인과 블록체인, 탐욕이 삼켜버린 기술』(2018), 『머신 러닝과 통계』(2018), 『파이썬으로 배우는 금융 분석 2/e』(2017), 『웹을 위한 머신 러닝』(2017) 『R을 활용한 머신 러닝 2/e』(2017) 등이 있다.

등록된 서평이 없습니다.
인터넷 쇼핑몰 만들기...
이시환, 고은희 공저
선택된 상품을 찜하실 수 있습니다. 선택된 상품을 바로구매 하실 수 있습니다.
시작하세요! 도커...
용찬호
선택된 상품을 찜하실 수 있습니다. 선택된 상품을 바로구매 하실 수 있습니다.
시스코 스위칭 완전 분석...
정철윤
선택된 상품을 찜하실 수 있습니다. 선택된 상품을 바로구매 하실 수 있습니다.
매튜 스카피...
마틴 클레프...
기기 사이판...
위스누 앤거...
 
전체평균(0)
회원평점   회원서평수 0
에이콘 출판사의 신간
『아파치 카프카로 데이터 스트리밍 애플리케이션 제작: 기업용 메시징 대기열 시스템의 설계와 구축 방법』
매니시 쿠마, 찬찰 싱 저
27,000원
(10%↓+5%)
 
『마이크로카피: UX 디자이너의 글쓰기』
킨너렛 이프라 저
25,200원
(10%↓+5%)
 
『엔터프라이즈 데이터 레이크 구축: 람다 아키텍처 기반의 엔터프라이즈 데이터 레이크 구축 가이드』
톰시 존, 판카이 미스라 저
36,000원
(10%↓+5%)
 
『디지털 포렌식과 사고 대응: 사이버 공격에 대응하는 현명한 방법』
제라드 요한센 저
27,000원
(10%↓+5%)
 
『블록체인 개념구축: 비트코인, 암호화폐 그리고 그 합의 방식 소개』
알조사 주드마이어, 니콜라스 스티프터, 카타리나 크롬홀츠, 에드가 웨이플 저
14,220원
(10%↓+5%)
 
이메일주소수집거부