로그인회원가입장바구니고객센터마이페이지회사소개
kangcom
전체
Home >   >   > 

『딥러닝 데이터 전처리 입문: 파이썬과 R로 배우는 데이터 다루기』

   
지은이 앨런 비소첵   |   출판사 에이콘  |   발행일 2018년 05월 24일
 
클릭하시면 큰 도서이미지를 보실 수 있습니다.
판매가 20,000원18,000원 10%
마일리지 5% 1,000원
발행일 2018-05-24
ISBN 1161751580 | 9791161751580
기타정보 번역서 | 232쪽 | 일반
예상출고일 1일 (근무일기준)
배송비 2,000원 (20,000원이상 무료배송)
   
프로그래밍언어
   
 

★ 요약 ★



실제 데이터 분석에 가장 중요한 기초 데이터 전처리를 다룬다. 데이터 전처리 과정은 머신 러닝을 통해 만든 모델의 성능을 크게 좌우한다. 데이터 분석에 입문한다면 데이터 전처리를 위한 데이터 전처리 개념과 사용 도구, 주요 파일 형식, 정규 표현식 등 꼭 알아야 할 내용을 실습을 통해 쉽게 익힐 수 있다.





★ 이 책에서 다루는 내용 ★



■ 파이썬과 R로 CSV를 읽어 데이터의 통계량 출력하기

■ 데이터 형식과 API를 활용한 데이터 추출에 필요한 프로그래밍 구조 학습

■ 데이터 정리 과정에 필요한 정규 표현식의 효과적인 사용

■ 수치 데이터 분석에 필요한 도구와 패키지 탐색

■ 더 나은 데이터 구조 제어 방법 탐색

■ 프로그래밍 방식을 통한 데이터의 읽기, 검사, 수정, 형태 변경

■ 데이터셋을 불러오고 정제하고 출력하는 프로그램 작성





★ 이 책의 대상 독자 ★



데이터를 분석해보고 싶은 데이터 과학자, 데이터 분석가, 통계학자에게 유용한 책이다. R과 파이썬을 모두 다루기 때문에 큰 도움이 될 것이다





★ 이 책의 구성 ★



1장. '데이터 프로그래밍'에서는 데이터 처리 방법을 논의하고 이 책에서 다루는 내용을 개괄한다.



섹션 1. 데이터를 다루는 일반적인 프로그래밍 방법

2장. '파이썬 프로그래밍 소개'에서는 이 책에서 가장 많이 사용하는 프로그래밍 언어인 파이썬을 소개한다.

3장. '데이터 입력, 탐색, 수정: 1부'에서는 데이터를 처리하는 방법과 JSON 데이터 형식을 소개한다.

4장. '데이터 입력, 탐색, 수정: 2부'에서는 CSV와 XML 데이터 형식을 다룬다.

5장. '텍스트 데이터 처리: 정규 표현식 소개'에서는 정규 표현식을 이용해 주소로부터 도로명을 추출해본다.



섹션 2: 정형 데이터 처리

6장. '수치 데이터 정리: R과 RStudio 소개'에서는 R을 소개하고 RStudio를 이용해 수치 데이터를 정리하는 방법을 소개한다.

7장. 'dplyr을 이용한 데이터 처리 간소화'에서는 데이터를 강력하면서도 간단하게 다룰 수 있는 R의 dplyr 패키지를 소개한다.



섹션 3: 고급 데이터 입출력 방법

8장. '웹에서 데이터 수집하기'에서는 파이썬 API를 이용해 웹에서 데이터를 추출하는 방법을 다룬다.

9장. '대용량 데이터 처리'에서는 대용량 데이터 처리 시 발생할 수 있는 문제점을 논의하고 MongoDB를 이용해 대용량 데이터를 처리해본다.





★ 지은이의 말 ★



최종 사용자용으로 가공되지 않은 데이터가 있다. 프로젝트별로 데이터의 개수가 너무 많거나, 너무 적거나, 누락돼 있거나, 잘못돼 있거나, 또는 구조화되지 않거나 부적절한 형태로 구성돼 있을 수 있다. 이 책은 사용 가능한 데이터를 모으고 출력 데이터를 구성하는 방법을 다룬다. 각 장에서는 데이터 다루기에 대한 새로운 접근법을 보여주기 위해 하나 이상의 예시를 사용한다.

1장. 데이터 프로그래밍

__데이터 처리의 이해

____데이터의 수집과 읽어오기

____데이터 정리

____데이터 형성 및 구조화

____데이터 저장

__데이터 처리 도구

____파이썬

____R

__요약





2장. 파이썬 프로그래밍 소개

__외부 리소스

__이번 장 살펴보기

____설치 요구 사항

____다른 학습 리소스

____파이썬 2와 파이썬 3의 차이점

__파이썬에서 프로그램 실행

____텍스트 편집기를 사용해 프로그램 작성 및 관리

____터미널을 사용해 프로그램 실행

____동작하지 않면 어떻게 해야 할까?

__데이터 유형, 변수, 파이썬 셸

____숫자: 정수와 실수

____문자열

____부울 데이터 형식

____print 함수

____변수

____배열(파이썬에서의 리스트)

____사전

__복합문

____복합문 문법과 들여쓰기 수준

____for문과 이터러블

____if문

____함수

__프로그램에서 주석 달기

__프로그래머 리소스

____공식 문서

____온라인 포럼과 메일링 리스트

__요약





3장. 데이터 입력, 탐색, 수정: 1부

__외부 리소스

__이번 장 살펴보기

____설치 요구 사항

____데이터

____파일시스템 설정

__기본 데이터 처리 작업 흐름 소개

__JSON 파일 형식 소개

__파이썬의 파일 I/O를 이용한 파일 열기와 닫기

____open 함수와 파일 객체

____파일 구조: 데이터 저장을 위한 좋은 방법

____파일 열기

__파일 내용 읽기

____파이썬 모듈

____json 모듈을 이용한 JSON 파일 파싱

__데이터 파일의 내용 탐색

____데이터의 주요 내용 추출

____데이터상의 모든 변수 출력

__데이터셋 수정

____원본 데이터셋에서 데이터 변수 추출

__수정된 데이터를 새 파일에 기록

__터미널에서 입출력 파일명 지정

____터미널에서 파일명 지정

__요약





4장. 데이터 입력, 탐색, 수정: 2부

__이번 장 살펴보기

____파일시스템 설정

____데이터

____pandas 설치

__CSV 형식 이해

__csv 모듈 소개

__CSV 데이터를 읽고 처리하기 위해 csv 모듈 사용

__CSV 데이터 기록을 위한 csv 모듈 사용

__데이터를 읽고 처리하기 위해 pandas 모듈 사용

____2011년 총 도로 길이 다시 계산

__비표준 CSV 인코딩과 다이얼렉트 처리

__XML 이해

____XML과 JSON 비교

__XML 데이터 파싱을 위한 xmletreeElementTree 모듈 사용

____Xpath

__요약





5장. 텍스트 데이터 처리: 정규 표현식 소개

__이번 장 살펴보기

____데이터

____파일 구조 설정

__패턴 인식의 필요성

____정규 표현식 소개

____정규 표현식 작성

____특수 문자

____공백 문자 탐색

____시작 문자 탐색

____종료 문자 탐색

____문자 또는 숫자의 범위 탐색

____여러 패턴의 탐색

____하나의 문자가 아닌 문자열 시퀀스 탐색

____패턴 결합

____문자열로부터 패턴 추출

____정규 표현식의 split() 함수

____파이썬 정규 표현식 문서

__패턴 탐색

__패턴 정량화

____도로명 주소를 탐색하는 정규 표현식 작성

____탐색 횟수 측정

____탐색 정확도 검증

__패턴 추출

____출력 결과 파일 저장

__요약





6장. 수치 데이터 정리: R과 RStudio 소개

__이번 장 살펴보기

____데이터

____디렉터리 구조

____R과 Rstudio 설치

__R과 RStudio 소개

__RStudio 연습

____R 명령어 실행

____작업 디렉터리 지정

____데이터 불러오기

____R 데이터프레임

____R 벡터

____R 데이터프레임 인덱싱

____R을 활용한 2001년 데이터 분석

__기본적인 이상치 탐지 및 제거

__NA 값 처리

____결측치 제거

____결측치를 상수로 대체

____결측치 대체

__변수명과 내용

__요약





7장. dplyr을 이용한 데이터 처리 간소화

__이번 장 살펴보기

____데이터

____파일시스템 구성

____dplyr 및 tibble 패키지 설치

__dplyr 소개

__dplyr 시작하기

__명령어 체인 사용

__데이터프레임의 행 필터링

__항목별로 데이터 요약하기

__dplyr을 이용한 코드 재작성

__요약





8장. 웹에서 데이터 수집하기

__이번 장 살펴보기

____파일시스템 설정

____requests 모듈 설치

____인터넷 연결

__API 소개

__API를 통해 파이썬으로 데이터 추출하기

__결과 필터링을 위한 URL 파라미터 사용

__요약





9장. 대용량 데이터 처리

__이번 장 살펴보기

____시스템 요구 사항

____데이터

____파일시스템 설정

____MongoDB 설치

____시간 계획

____정리

__컴퓨터 메모리 이해

__데이터베이스 이해

__MongoDB 소개

__파이썬에서 MongoDB 사용하기

__요약
앨런 비소첵(Allan Visochek)

코네티컷 주 뉴 헤이븐에서 활동하고 있는 프리랜서 웹 개발자이자 데이터 분석가며, 업무 외적으로 머신 러닝과 인공지능에 관심이 많다.

지식을 가르치고 공유하기를 즐긴다. 유다시티(Udacity)의 데이터 분석 나노 학위(Nanodegree) 프로그램을 수료한 후, 유다시티에서 수개월간 포럼 멘토 및 프로젝트 검수자로 활동하면서 데이터 분석 프로젝트를 수행하는 학생들에게 도움을 줬다. learntoprogram.tv에 기술 자료를 기고하기도 한다.





★ 옮긴이의 말 ★



알파고 이후로 제4차 산업혁명, 인공지능 등의 키워드와 마찬가지로 머신 러닝이라는 용어도 많은 회사와 대중에게 더욱 친숙해지고 있다. 하지만 많은 관심을 받고 있는 머신 러닝 분야에서 데이터 전처리의 중요성은 상대적으로 강조되지 못하는 분위기다.

데이터에 맞는 머신 러닝 알고리즘과 적절한 파라미터를 선택하는 것만큼 데이터 전처리 과정 또한 매우 중요하다. 양질의 데이터를 통해 좋은 결과를 만들어낼 수 있으므로, 올바른 데이터 전처리는 필수라 해도 과언이 아니다. 데이터 전처리는 꽤 노동집약적인 작업으로, 데이터 분석가는 전처리 작업에 많은 시간을 할애하고 있다.

머신 러닝 알고리즘과 도구를 소개하는 책은 다양하지만 전처리 과정을 쉽게 접할 수 있도록 소개하는 책은 드물다.

이 책에서는 먼저 데이터를 처리하는 방법을 알아보고 가장 널리 사용되는 파이썬을 사용해 JSON, CSV, XML 파일을 처리하는 방법을 살펴본다. 다음으로 실무에 매우 유용한 정규 표현식에 대해 알아보고 수치 데이터 분석에 유리한 R과 RStudio에 대해서도 배운다. 또한 데이터 수집을 위한 웹 크롤링과 대용량 데이터 처리를 위한 MongoDB에 대해서도 간단히 다룬다. 이 책을 통해 머신 러닝을 위한 데이터 전처리 학습에 도움을 얻길 바란다.

이 책이 머신 러닝에 처음 입문하는 분들에게 조금이나마 보탬이 됐으면 하는 바람이다.



★ 옮긴이 소개 ★



김창엽

데이터 분석과 머신 러닝에 관심이 많아 현재 고려대학교 산업경영공학과 데이터 사이언스 및 비즈니스 어낼리틱스(DSBA) 연구실에서 박사 과정을 밟고 있다. 이전에는 안랩에서 9년간 근무하며 악성코드 대응 및 침해 사고 분석 업무를 수행했다. 에이콘출판사에서 펴낸 『텐서플로 入門』(2016), 『리눅스 바이너리 분석』(2016), 『모의 해킹을 위한 메타스플로잇』(2014), 『케라스로 구현하는 딥러닝과 강화학습』(2017) 등을 번역했다.



강병호

한양대학교 공과대학 컴퓨터공학부 및 동 대학원 컴퓨터·소프트웨어학과를 졸업했으며, 현재 한국전자통신연구원(ETRI)에 근무하고 있다. 관심 분야는 컴퓨터 보안과 머신 러닝이다.

등록된 서평이 없습니다.
SQL 전문가 가이드 [The Guide for SQL Professional](2013 Edition)...
한국데이터베이스진흥원
선택된 상품을 찜하실 수 있습니다. 선택된 상품을 바로구매 하실 수 있습니다.
Python과 Pygame으로 게임 만들기...
알 슈베이가르트
선택된 상품을 찜하실 수 있습니다. 선택된 상품을 바로구매 하실 수 있습니다.
파이썬 웹 프로그래밍: 실전편...
김석훈
선택된 상품을 찜하실 수 있습니다. 선택된 상품을 바로구매 하실 수 있습니다.
 
전체평균(0)
회원평점   회원서평수 0
에이콘 출판사의 신간
『메이저리그 야구 통계학 : 빅데이터 분석의 시작 R』
김재민 저
27,000원
(10%↓+5%)
 
『코틀린을 이용한 안드로이드 개발: 안드로이드 앱을 개발하며 배우는 코틀린』
마르친 모스칼라, 이고르 워다 저
27,000원
(10%↓+5%)
 
『일래스틱 스택 6 입문: 일래스틱서치, 로그스태시, 키바나, 엑스팩 활용 가이드』
파라나브 슈클라, 샤랏 쿠마 저
29,700원
(10%↓+5%)
 
『Akka 쿡북: 다양한 레시피로 아카를 쉽게 배워보기』
헥터 베이가 오르티즈, 피유시 미시라 저
29,700원
(10%↓+5%)
 
『움직이는 증강 현실 게임 개발: 현실 속에서 이동하고 포획하며 즐기는 유니티 AR 게임』
마이클 랜햄 저
27,000원
(10%↓+5%)
 
이메일주소수집거부