한빛출판네트워크

IT/모바일

처음 배우는 데이터 과학

통계, 수학, 머신러닝, 프로그래밍까지 데이터 과학자를 꿈꾸는 히치하이커를 위한 최고의 안내서

한빛미디어

번역서

절판

처음 배우는 데이터 과학
좋아요: 12
  • 저자 : 필드 케이디
  • 역자 : 최근우
  • 출간일 : 2018-02-19
  • 페이지 : 420쪽
  • ISBN : 9791162240472
  • 물류코드 :10047

합계 : 25,200

  • 데이터 과학자가 알아야 하는 거의 모든 것

    프로그래밍 경험은 많지만 통계나 데이터 분석을 잘 모르거나, 반대로 이론은 잘 알지만 실제로 데이터를 다루는 프로그래밍 경험이 없다면 데이터 과학을 어떻게 공부해야 할지 막막하기 마련입니다. 

     

    이 책은 데이터 과학자의 실무에 필요한 컴퓨터 공학 및 프로그래밍을 자세히 소개합니다. 또 널리 사용하는 머신러닝 알고리즘에 대한 직관적 설명, 수학적 배경, 실제 사례를 다룹니다. 데이터 과학에서 필수인 시각화 방법과 도구, 데이터를 해석하는 데 필요한 확률과 통계도 다룹니다. 마지막으로 데이터 과학 업무 결과를 정리하고 소통하는 노하우를 소개합니다. 

     

    이 책은 데이터 과학자가 알아야 하는 내용을 빠르고 체계적으로 전달하는 최고의 안내서입니다.

     

    undefined

     

     

  • [저자] 필드 케이디

    앨런 인공지능 연구소(Allen institute for artificial intelligence)에서 데이터 과학자로 종사 중입니다. 미국 스탠퍼드 대학교에서 수학과 물리학을 전공하고 워싱턴 대학교에서 응용수학 석사 학위를 받았습니다. 이후 카네기 멜런 대학교에서 컴퓨터공학으로 박사 과정을 밟다가 중퇴했습니다. 싱크빅 애널리틱스(Think Big Analytics)와 본인이 세운 홀리 애널리틱스(LLCHolly Analytics LLC)에서 다양한 분야에 빅데이터 컨설팅을 했습니다. 

    [역자] 최근우

    영국 퀸 메리 런던 대학교(Queen Mary University of London)의 디지털음악연구소(Centre for Digital Music)에서 박사 과정을 밟으며 버즈뮤직에서 딥러닝 연구를 맡고 있습니다. http://keunwoochoi.blogspot.com/과 https://keunwoochoi.wordpress.com/에 우리말과 영문으로 연구 관련 블로그를 운영 중입니다. 서울대학교 전기컴퓨터공학부에서 학사 및 석사 학위를 받았고 한국전자통신연구원(ETRI) 오디오연구실에서 음악 및 음향신호처리 연구를 수행했습니다.

  • CHAPTER 1 데이터 과학 유니콘이 되자!

    1.1 데이터 과학자는 단지 연봉이 높은 통계학자일 뿐이다?

    1.2 왜 파이썬을 쓰나요?

    1.3 한마디 더

     

    [Part 1 데이터 과학 필수 요소]

     

    CHAPTER 2 큰 그림으로 보는 데이터 과학

    2.1 문제 파악

    2.2 데이터 분석 및 이해 - 기초

    2.3 데이터 분석 및 이해 - 전처리

    2.4 데이터 분석 및 이해 - 데이터 탐험

    2.5 특징값 추출

    2.6 모델 수집 및 분석

    2.7 결과 정리 및 발표

    2.8 코드 배포

    2.9 반복 작업

    2.10 주요 용어

     

    CHAPTER 3 프로그래밍 언어

    3.1 왜 프로그래밍 언어를 사용해야 하나요? 다른 대안은 없나요?

    3.2 데이터 과학에서 사용하는 프로그래밍 언어

    3.3 파이썬 속성 코스

    3.4 문자열 데이터

    3.5 함수 정의하기

    3.6 파이썬의 공학용 라이브러리

    3.7 개발 환경 및 라이브러리 소개

    3.8 파이썬 관련 문서 및 참고 자료

    3.9 더 알아보기

    3.10 주요 용어

     

    CHAPTER 4 데이터 먼징 : 문자열 다루기, 정규표현식, 데이터 정리하기

    4.1 생애 최악의 데이터셋

    4.2 실수를 예방하는 방법

    4.3 데이터 자체의 문제

    4.4 데이터 형식 문제

    4.5 데이터 형식 정리 예제

    4.6 정규표현식

    4.7 실제 현장 이야기

    4.8 더 알아보기

    4.9 주요 용어

     

    CHAPTER 5 시각화와 대푯값

    5.1 파이썬의 시각화 도구

    5.2 아이리스 데이터셋

    5.3 원형 차트

    5.4 막대그래프

    5.5 히스토그램

    5.6 평균, 표준편차, 중간값, 백분위

    5.7 상자그림

    5.8 산포도

    5.9 산포도와 로그 축

    5.10 산포 행렬

    5.11 히트맵

    5.12 상관관계

    5.13 안스콤 쿼텟 데이터셋과 대푯값의 한계

    5.14 시계열 데이터

    5.15 더 알아보기

    5.16 주요 용어

     

    CHAPTER 6 머신러닝 개론

    6.1 역사적 맥락

    6.2 지도학습과 비지도학습

    6.3 학습 데이터, 시험 데이터, 과적합

    6.4 더 알아보기

    6.5 주요 용어

     

    CHAPTER 7 특징값 추출

    7.1 일반 특징값

    7.2 데이터 표본 여러 개의 대푯값

    7.3 복잡한 특징값

    7.4 어떤 특징값을 예측할지 결정하기

     

    CHAPTER 8 머신러닝과 분류

    8.1 분류기란?

    8.2 현실적인 고려사항

    8.3 이진 분류와 다범주 분류

    8.4 예제 코드

    8.5 다양한 분류기의 특징

    8.6 분류기 평가하기

    8.7 분류 기준값 정하기

    8.8 더 알아보기

    8.9 주요 용어

     

    CHAPTER 9 의사소통과 문서화

    9.1 일반적인 원칙

    9.2 슬라이드 작성

    9.3 보고서 작성

    9.4 발표하기

    9.5 코드 문서 작성하기

    9.6 더 알아보기

    9.7 주요 용어

     

    [Part 2 데이터 과학 확장팩]

     

    CHAPTER 10 비지도학습 : 군집화와 차원 축소

    10.1 고차원의 저주

    10.2 아이겐페이스와 차원 축소 예제

    10.3 주성분 분석

    10.4 스크리 도표와 차원 이해하기

    10.5 요인 분석

    10.6 주성분 분석의 한계

    10.7 군집화

    10.8 더 알아보기

    10.9 주요 용어

     

    CHAPTER 11 회귀

    11.1 당뇨 진행 상황 예측 예제

    11.2 최소제곱법

    11.3 비선형 커브피팅

    11.4 커브피팅 평가 : R2과 상관관계

    11.5 오차의 상관관계

    11.6 선형 회귀

    11.7 라소 회귀와 특징값 선정

    11.8 더 알아보기

    11.9 주요 용어

     

    CHAPTER 12 데이터 인코딩과 파일 형식

    12.1 일반적인 데이터 형식

    12.2 CSV 파일

    12.3 JSON 파일

    12.4 XML 파일

    12.5 HTML 파일

    12.6 Tar 묶음 파일

    12.7 Gzip 파일

    12.8 Zip 파일

    12.9 이미지 파일 형식

    12.10 바이트 데이터

    12.11 정수형

    12.12 실수형

    12.13 텍스트 데이터

    12.14 더 알아보기

    12.15 주요 용어

     

    CHAPTER 13 빅데이터

    13.1 빅데이터가 정확히 뭔가요?

    13.2 하둡과 하둡 파일시스템

    13.3 HDFS 사용하기

    13.4 파이스파크 예제 코드

    13.5 스파크 둘러보기

    13.6 스파크 연산

    13.7 파이스파크를 실행하는 두 가지 방법

    13.8 스파크 설정하기

    13.9 파이스파크 : 더 깊이 살펴보기

    13.10 스파크 : 팁과 주의사항

    13.11 맵리듀스 패러다임

    13.12 성능 개선을 위한 고려사항

    13.13 더 알아보기

    13.14 주요 용어

     

    CHAPTER 14 데이터베이스

    14.1 관계형 데이터베이스와 MySQL

    14.2 키-값 저장소

    14.3 와이드 컬럼 저장소

    14.4 문서 저장소

    14.5 더 알아보기

    14.6 주요 용어

     

    CHAPTER 15 좋은 프로그래밍 습관 기르기

    15.1 코딩 스타일

    15.2 버전 관리와 깃

    15.3 테스트 코드

    15.4 테스트 주도 개발 방법론

    15.5 애자일 방법론

    15.6 더 알아보기

    15.7 주요 용어

     

    CHAPTER 16 자연어 처리

    16.1 자연어 처리가 필요한 상황

    16.2 언어와 통계

    16.3 주식 관련 신문 기사의 감정 분석 예제

    16.4 자연어 처리 소프트웨어 및 데이터셋

    16.5 토큰화

    16.6 BoW 특징값

    16.7 단어 빈도와 문서 빈도 역수

    16.8 n-그램

    16.9 불용어

    16.10 표제어 추출과 공통부분 추출

    16.11 동의어 처리

    16.12 품사 태깅

    16.13 그 외 문제들

    16.14 자연어 처리 심화과정

    16.15 더 알아보기

    16.16 주요 용어

     

    CHAPTER 17 시계열 데이터 분석

    17.1 위키피디아 조회수 예측 예제

    17.2 시계열 데이터 분석 순서

    17.3 시계열 데이터와 타임스탬프 데이터 비교

    17.4 내삽법과 외삽법

    17.5 신호 스무딩

    17.6 간단한 데이터 전처리

    17.7 추세와 주기성

    17.8 윈도 적용

    17.9 시계열 데이터의 특징값 추출

    17.10 특징값 추출 심화 과정

    17.11 푸리에 분석

    17.12 시계열 데이터와 특징값

    17.13 더 알아보기

    17.14 주요 용어

     

    CHAPTER 18 확률

    18.1 동전 던지기와 베르누이 확률변수

    18.2 다트 던지기와 균등확률변수

    18.3 균등분포와 유사난수

    18.4 비이산 불연속 확률변수

    18.5 표기법, 기댓값, 표준편차

    18.6 종속성, 주변확률, 조건부확률

    18.7 확률분포의 꼬리

    18.8 이항분포

    18.9 푸아송 분포

    18.10 정규분포

    18.11 다차원 정규분포

    18.12 지수분포

    18.13 로그 정규분포

    18.14 엔트로피

    18.15 더 알아보기

    18.16 주요 용어

     

    CHAPTER 19 통계

    19.1 데이터 과학과 통계학

    19.2 베이지언과 빈도론자의 비교

    19.3 가설검정

    19.4 다중 가설검정

    19.5 매개변수 추정

    19.6 t 검정

    19.7 신뢰구간

    19.8 베이지안 통계학

    19.9 나이브 베이즈

    19.10 베이지안 네트워크

    19.11 선험적 확률 추정

    19.12 더 알아보기

    19.13 주요 용어

     

    CHAPTER 20 프로그래밍 언어의 주요 개념

    20.1 프로그래밍 방법론

    20.2 컴파일과 인터프리팅

    20.3 자료형 체계

    20.4 더 알아보기

    20.5 주요 용어

     

    CHAPTER 21 알고리즘의 성능과 메모리 관리

    21.1 예제 코드

    21.2 알고리즘의 성능과 빅오표기법

    21.3 정렬 알고리즘과 이진검색

    21.4 평균복잡도와 분할상환분석

    21.5 오버헤드 줄이기, 메모리 관리

    21.6 팁 : 수치연산 라이브러리를 이용하자

    21.7 팁 : 사용하지 않는 대용량 객체를 삭제한다

    21.8 팁 : 가능하면 내장 함수를 사용한다

    21.9 팁 : 불필요한 함수 호출을 자제한다

    21.10 팁 : 덩치가 큰 객체는 가급적 새로 만들지 않는다

    21.11 더 알아보기

    21.12 주요 용어

     

    [Part 3 데이터 과학 특수 분야]

     

    CHAPTER 22 컴퓨터 메모리와 자료구조

    22.1 가상 메모리

    22.2 C 언어 예제

    22.3 자료형과 배열

    22.4 구조체

    22.5 포인터, 스택, 힙

    22.6 주요 자료구조

    22.7 더 알아보기

    22.8 주요 용어

     

    CHAPTER 23 최대 우도 추정과 최적화

    23.1 최대 우도 추정

    23.2 커브피팅 예제

    23.3 로지스틱 회귀 예제

    23.4 최적화

    23.5 경사 하강법과 볼록 최적화

    23.6 볼록 최적화

    23.7 확률 경사 하강법

    23.8 더 알아보기

    23.9 주요 용어

     

    CHAPTER 24 고급 분류기

    24.1 라이브러리 선정

    24.2 딥러닝 기초

    24.3 합성곱신경망

    24.4 텐서

    24.5 MNIST 숫자 필기 인식

    24.6 순환신경망

    24.7 베이지안 네트워크

    24.8 학습 및 예측

    24.9 마르코프 연쇄 몬테카를로 방법

    24.10 파이엠시 예제

    24.11 더 알아보기

    24.12 주요 용어

     

    CHAPTER 25 확률 과정

    25.1 마르코프 연쇄

    25.2 마르코프 연쇄의 종류

    25.3 마르코프 연쇄 몬테카를로

    25.4 은닉 마르코프 모델

    25.5 비터비 알고리즘

    25.6 랜덤워크

    25.7 브라운 운동

    25.8 ARMA 모델

    25.9 연속 마르코프 과정

    25.10 푸아송 과정

    25.11 더 알아보기

    25.12 주요 용어

  • ★ 이 책에서 다루는 내용

    데이터 과학 분야에서 필요한 다양한 능력과 기술을 책 한 권에 모두 담았습니다. 당장 해결해야 하는 문제가 있어서 빠르게 필요한 지식을 습득해야 하는 경우나, 체계적으로 데이터 과학을 배워 데이터 과학자가 되길 희망하는 경우에 이 책이 도움이 될 겁니다.

     

    이 책은 다음과 같은 내용을 다룹니다.

    - 파이썬과 각종 파이썬 라이브러리 예제 코드 수록

    - 빅데이터의 장단점 및 사용 방법 소개

    - 각종 알고리즘의 직관적인 해설 

    - 현업에서 볼 수 있는 다양한 사례 연구

    - 데이터셋 분석, 시간 관리, 업무 계획, 필요한 지식에 대한 실용적인 조언

     

    이 책은 총 3부로 이루어져 있으며, 부별 내용은 다음과 같습니다.

    [1부_ 데이터 과학 필수 요소]

    현업에서 분야를 막론하고 거의 모든 경우에 사용하는 데이터 과학의 가장 핵심적인 내용을 다룹니다. 여기서 다루는 내용은 꼭 데이터 과학자가 아니더라도 간단한 데이터 과학 지식이 필요한 사람들이라면 아주 유용하게 쓸 수 있는 기법입니다.

     

    [2부_ 데이터 과학 확장팩]

    1부와 마찬가지로 데이터 과학의 핵심 내용을 다루지만 더 심도 있는 기법을 소개합니다. 예를 들어 군집화 알고리즘은 현업에서 자주 사용되기 때문에 1부에서 다뤄도 될 법한 주제지만 여기서 다룹니다. 반면 자연어 처리같이 특정 분야에서만 주로 사용하는 주제도 같이 소개합니다. 데이터 과학자라면 2부까지는 확실하게 알아두어야 합니다.

     

    [3부_ 데이터 과학 특수 분야]

    꼭 알아야 하는 내용은 아니지만 알아두면 좋은 기법을 소개합니다. 여기서는 1, 2부에서 설명한 내용 중 일부를 골라 이론적 배경 등을 더 깊게 살펴봅니다. 그 외에도 자주 사용하지는 않지만 어쩌다 맞닥뜨릴 수 있는 내용도 다룹니다.

     

    ★ 이 책을 읽는 방법

    이 책은 다음 세 가지 유형의 독자를 가정하고 썼습니다. 자신에게 맞는 방법으로 읽으시면 됩니다.

     

    [데이터 과학의 기본기를 튼튼하게 다지고 싶은 독자]

    이 책을 처음부터 끝까지 순서대로 읽기 바랍니다. 그러고 나면 곧바로 현업에서 데이터 과학을 활용할 수 있을 겁니다. 컴퓨터공학이나 수학의 기초를 갖추고 있는 독자라면 이미 알고 있는 내용도 조금 나옵니다.

     

    [특정 주제를 알고자 하는 독자]

    이 책은 각 장을 따로따로 읽어도 되도록 썼습니다. 급하게 찾아볼 내용이 있다면 필요한 장을 찾아서 읽으면 됩니다.

     

    [프로젝트를 시작하는 독자]

    데이터 과학 알고리즘을 구현하다 막히는 경우에는 이 책의 풍부한 예제 코드를 참고하기 바랍니다.






    • 이책은 생각보다 책 두깨가 엄청 두껍지는 않치만



      데이터 과학에 필요한 모든 내용을 책에서 부족함 없이 다루고 있다.



      1. 데이터 분석 기초



      2. 파이썬에 대한 문법 및 데이터 처리방법



      3. 머신러닝에 대한 이론과 학습방법



      4. 컴퓨터 메모리 구조까지 다루고 있다.



      https://github.com/keunwoochoi/data-science-handbook












      친절히 역자의 소스 코드를 github에서 제공하고있어서 실행하기도 편했다.






      파이썬 학습














      파이썬 소스코드











      파이썬에 대해서는 별도로 다른책을 공부하지 않아도 이책만 학습해도 편안하게 공부를 학습할수있을 정도의 내용을 다루고 있다.






      머신러닝














      데이터를 통해 머신러닝 학습사례











      전반적으로 책을 쭉 따라가다 보면 어느새 머신러닝으로 데이터를 분석하는 단계 까지 학습할수 있다.



      자연어 처리














      자연어 처리














      자연어 처리를 통해 긍정적인 기사와 부정적인 기사를 분류하는 내용이 소개되어있다.






      머신러닝 고급 분류방법














      다양한사례로 데이터 분석한 차트











      여러 머신러닝 분류방법으로 데이터를 추출해볼수있었으며, 여러 분률방법을 통해 데이터 에 따라 어떤 분류가 적합한지 실행해 볼수 있었다.






      요약



      전반적으로 학습후에는 데이터 과학에 필요한 어느정도의 필수요소의 기술과 학습을 충분히 할수가 있었으며, 책이 400페이지가 넘는 분량으로 , 생각보다 내용이 많았다.



      실무에 필요한 내용으로 다루고있고, 이론과 실습이 적절하여 어려운 내용을 다룸에도 전혀 지루하지않고, 재미있었다.



      말그대로 데이터 과학에 입문하기에는 좋은책이라 생각한다.














       









       

    • ‘처음 배우는 데이터 과학’ 이 책은 목차만 봐도 데이터 과학에 필요한 다양한 내용에 압도되는 그런 책입니다. 컴퓨터로 데이터를 다루는 거의 모든 분야(빅데이터, 머신러닝, 딥러닝 등)를 다루는 책입니다.


       


      이 책에도 데이터 과학자가 뭔지 설명하지만 제 생각으론 컴퓨터로 통계를 좀 더 잘하려고 노력하다보니 데이터 과학으로 발전한게 아닌가 싶네요. 물론 최근에 급격하게 늘어나는 데이터가 이 분야를 급격하게 발전시키고 있는 것 같습니다. 


       


      엄청난 양의 데이터를 사람이 직접 처리할 수는 없기 때문에 데이터 과학에서 코딩은 필수라고 말합니다. 저자는 다른 프로그래밍 언어도 많지만 파이썬을 강력하게 추천하고 있습니다. 추천에서 끝나는게 아니라 파이썬 기초를 설명해주고 이 책에 등장하는 거의 모든 이론을 파이썬 코드로 보여주고 있습니다. 


       


      이 책은 우선 데이터를 다듬는 방법부터 설명합니다. 먼저 눈으로 데이터를 보면서 문제가 없는지 살펴본 후 프로그래밍으로 쓸모있게 변경하는 작업입니다. 아무리 통계, 머신러닝, 딥러닝을 할 수 있어도 데이터에 문제가 있으면 그 결과값도 의미가 없기 때문에 이 부분부터 잘 배워야겠습니다. 


       


      데이터를 나름 심도있게 다루는 책이라 그런지 (이런 것까지 알아야하는 소리가 절로 나오는)복잡한 수학공식, 코드도 다소 포함되어 있습니다. 모두 다 이해하면 좋겠지만 왜 쓰는지 이유만 알아도 초보에게는 큰 문제가 될 것 같지 않습니다. 이 분야 박사가 되는게 목표가 아니라 데이터 잘 다루는게 중요하기 때문에 그 정도로도 충분하다 생각합니다. 


       


      다루는 내용이 방대한 만큼 여기서 사용되는 라이브러리, 프레임워크도 다양합니다. 예로 빅데이터에서는 하둡, 스파크를 만지고, 딥러닝에서는 (텐서플로보다 쉬운) 케라스를 다루는 식입니다. 분야별로 좀 더 깊게 공부하기 위해서는 전문적인 책이나 구글링을 하면 될 것 같습니다. 


       


      이 책을 보면서 오랜만에 컴퓨터 분야에서 참 좋은 책을 만났다는 생각이 들었습니다. 프로그래밍으로 데이터를 다듬는 작업부터 시작해서 통계, 빅데이터, 머신러닝, 딥러닝 등 데이터 과학에 필요한 거의 모든 분야를 입문할 수 있었습니다.

    • 프로그래밍, 수학, 머신러닝....

       



      한 책에서 이렇게 많은 부분을 소개할 수 있을 까 하는 의구심이 들었는데..


       



      읽고 나면 데이터 과학이라면 이렇게 공부해야 하는 구나 하는 생각이 든다.


       



      너무 많은 분야를 다루다 보니 깊이가 조금 부족한 느낌이지만. 그래도 데이터 과학에 대해 궁금하다면 읽어 볼 좋은 입문서 인듯하다.


       


    • 데이터 과학이 무엇인지, 그 데이터 과학에 대한 기본적인 개념부터 실제 프로그래밍 기법까지 폭넓게 배울 수 있는 책입니다.


       


      데이터 과학은 위에서 정의한 것처럼 다양한 분야를 광범위하게 포함하고 있습니다.


      처음 데이터 과학을 접하는 사람이라면 어디서부터 시작해야 할지 난감할 수밖에 없는데요.


       



      이 책은 이런 분들에게 가벼운 마음으로 입문할 수 있는 책이라고 보면 될 것 같은데요.



      프로그래밍, 통계, 빅데이터, 머신러닝을 모두 담았다고 보면 되겠습니다. 


       


      제4차 산업혁명 시대의 키워드 중 빅데이터는 그 중요성이 날로 커지고 있는데요.


      그 빅데이터를 다루는 데이터 과학이야말로 앞으로 4차 산업혁명의 유망한 직업이 될 것으로 보입니다.


       



      제4차 산업혁명을 대비하기 위한 데이터 과학이 기본기를 배우고 싶거나, 데이터 과학의 특정 주제에 대해서 공부하고 싶은 사람, 데이터 과학자가 되고 싶은 사람들에게 추천할 만한 내용이네요.


       



      앞으로 20여 년이 지나면 통계학, 데이터 과학, 머신러닝이 합쳐져서 큰 분야를 이룰 거라는 저자의 이야기처럼 새로운 학문 분야로 자리매김을 할 것으로 보이는데요.



      빅데이터에서 유니콘이 되는 훌륭한 데이터 과학자가 우리나라에도 많이 배출되었으면 좋겠습니다.


       

    • 책 표지에 나와 있듯이, 데이터 과학자들을 위한 안내서라고 대놓고 써져 있다. 


      이렇게 자신감 있게 표지에 쓰기 힘든데, 어떤 자신감으로 썼는지 많이 궁금증을 일으켰다.





       


      책이 얇아 보여서 몇 페이지 안되겠지 했다가, 무려 400 페이지가 넘는 양에 일단 놀라고, 내용을 읽으면서 다시 한 번 놀라게 되었다. 왜냐면, 요즘 가장 미래에 유망한 직업 중에 하나인 데이터 과학자가 되기 위한 입문서로서 추천할 만한 책이기 때문이다. 다양한 분야에서 데이터 과학자가 되기 위해서 지원을 많이 하시는데, 이런 부분은 꼭 알고 있었으면 하는 부분들이 이 책에 거의 다 담겨져 있기 때문이다.





       



      그 중에 9장은 왜 9장에 두었는지 조금 아쉬움이 남았다. 아예 처음이나 맨 마지막에 다시 한 번 강조를 하는게 좋지 않았을까 생각이 들었다. 많은 개발자 분들이 "개발만 잘 하면 되지 머" 또는 "개발자는 코드로 말하는 거야" 라고 말씀들을 하시는데, 개발을 많이 하다가 보면 개발자들과 소통하는 시간보다 비 개발자분들(영업, 마케팅, 회사의 보스)에게 설명해야 되는 시간이 직급이 올라감에 따라 점점 많아 지게 된다.


      특히, 데이터 과학의 경우 대부분이 수치로 나타나게 되는데, 같은 수치를 가지고 다양한 표현이 가능하게 된다. 이때, "보기 좋은 게 먹기 좋다"는 속담처럼 보기 좋게 한 눈에 볼 수 있게 문서를 잘 만드는게 아주 중요하다.


      (일 다 잘해 놓고, 마지막에 문서 못 만들고, PT 못해서 맨 마지막에 탈락하는 분들을 많이 보았다.)





       


      처음 입문하시는 분들 중에 조금 더 공부하고 싶은데라고 생각하신 분들에게 도움이 되도록 노력한 흔적을 챕터마다 볼 수 있다.


       





      위의 사진처럼 중요한 단어를 다시 한 번 정리해 줌으로써 다시 한번 학습하는데 도움을 주고 있다.


       





       


      관련 도서와 예제 소스 위치를 보여줌으로써 책의 마지막으로 정리하고 있다.


       


      이 책은 근래에 읽은 데이터 과학 관련 서적 중에 가장 맘에 드는 책으로 입문을 생각하시는 분들에게 제일 먼저 추천을 해 드리고 싶은 서적이지만, 조금 아쉬움 점이 있다면 코드가 조금 더 많았으면 하는 생각이 들었고, 그래도 전체적인 흐름과 공부의 방향성을 잡는데 큰 도움이 되는 책으로 "강추"한다.







      단, 이 책 하나로 다 알 수 있을 꺼란 생각은 기대를 하지 말기 바란다.


       


    • 데이터 과학이란 무엇인가.
      요즘 대학교에는 Data Science라는 학과가 있기도 하다.
      석사 전공 지도 교수님께서 현재 모교의 Data Science 학과장으로 계시며,
      그 곳에서 현재 매년 석사들이 배출되고 있다.

      기사로는 자주 접한 데이터 과학.
      대강 어떤 일들을 하는 지는 알겠는데, 뭐라고 딱히 정의하기는 어렵다.
      시대의 흐름과 기술 발전에 따라 생겨한 학문이긴 하지만
      수학, 화학, 물리학 등 기초 학문과 나란히 두기에는 좀 애매한 느낌도 있다.

      데이터 과학을 전공, 배우고 나서 데이터 과학자가 되면 어떤 일을 하게 되는 것일까?
      그들의 Role은 무엇인가.

      이러한 궁금증들을 이 책에서 명쾌하게 이야기해주고 있다.

      데이터 과학자가 해야할 것들은 상당히 광범위하다.
      이 책을 읽기 전 내가 생각했던 데이터 과학자보다 저자가 이야기 하는 데이터 과학자의 Role은 훨씬 더 거대하다.

      저자가 말하는 데이터 과학자는 

      원본 데이터의 정제부터 시작하여 이를 가공, 특징점을 추출하여 의미있는 값을 얻어 발표, 보고서 혹은 코드 형태로 결과를 도출하여 비즈니스에 반영시키는 사람이다.

      위의 모든 작업은 데이터 과학자 혼자서 할 수 있는 수준의 것은 아니다.
      일련의 팀을 꾸려 각 작업들을 전체적으로 관리, 감독하는 사람이 바로 데이터 과학자일 것이다.
      물론 우리 나라 대기업 식의 관리, 감독이 아니다.
      각 작업에 대해 디테일하게 기술적으로 알고 접근할 수 있어야 한다.
      데이터 정제, 특징점 추출, 사용된 알고리즘들의 적합성 체크, 코드 리뷰 등 모든 것을 꿰어야 한다.
      그런 점에서 석사 2년을 Data Science 전공을 했다고 하더라도 "나는 데이터 과학자입니다"라고 말하기는 어렵다.

      그만큼 데이터 과학자가 되는 것은 무척이나 어려운 길이다.
      그 어려움을 좀더 수치적으로 살펴보고 싶다면 본 도서의 목차를 보면 된다.
      목차만 봐서는 이 책 한권만 읽고 나면 IT 계열의 슈퍼 스타가 될 것 같은 환상에 사로 잡히기도 한다.
      파이선, 머신러닝, 빅 데이터 (하둡, 스파크), 데이터베이스, 자연어 처리, 확률, 통계 그리고 그 외 훨씬 더 많은 분야와 주제를 다루고 있다.
      목차만 봐서는 거의 컴공 4년 과정 + @를 담고 있는 것 같기도 하다.
      하지만 정신을 차리고 생각해보면 420페이지에 이 모든 것을 담을 수는 없다.

      오해하지 말자

      이 책의 제목은 "처음 배우는 데이터 과학"이다.
      앞서 말했든 데이터 과학은 알아야 할게 굉장히 많은 분야이다.
      그래서 데이터 과학자를 목표로 한다면 어디서 부터 무엇을 공부해야 할지도 알기 어렵다.
      이 책은 그런 점에서 멘토와 같다고 할 수 있다.
      데이터 과학자가 되기 위해서 최소한 알고 있어야 하는 것들을,
      A부터 Z까지 쭈욱 소개해주는 오리엔테이션이라고 할까?
      하지만 단순 오리엔테이션이라고 하기에는 사실 쉽지 않은 것도 사실이다.
      각종 확률, 통계와 머신러닝 알고리즘 등에서 나오는 용어들만 봐도 머리가 아프다.
      파이선에 대한 기초 문법을 설명해주지만 파이선에 익숙하지 않다면 사실 예제 코드를 따라가기도 쉽지만은 않다.
      그런 점에서는 완전 생 초보가 처음 읽기에는 쉬운 책은 아니다.

      첫 숟갈에 배부를 생각은 접어두고 이 책을 읽는 것이 좋을 것 같다.

      이 책을 읽고 감을 잡게 되면,
      이제 데이터 과학자가 되기 위한 여정을 시작할 준비가 되었다고 보면 될 것 같다.
      다시 말하지만 이 책의 목차만 보고 현혹되면 안된다.
      각 목차마다 관련 도서가 몇 권씩 나와 있다.
      진정한 데이터 과학자가 되고 싶다면, 각 목차 별 해당 도서를 하나씩 각개 격파하는 심정으로 학습을 이어 나가야 할 것이다.


       

    • 빅데이터, 머신러닝, 인공지능이란 단어가 생활에서 자주 보이고 있습니다. 많은 사람들이 관심을 가지며 좋은 책들도 계속 나오고 있습니다.


       


      많은 분들이 홍콩 과기대 김성훈 교수님의 강의로 시작을 하곤 합니다. 또한  밑바닥부터 시작하는 딥러닝이란 책도 같이 보곤 하지요!!


       


      하지만 위에 언급된 강의와 책은 "딥러닝"에 초점이 맞춰진 책들입니다. 데이터 사이언스 전반에 대해 자세히 알려주는 책들은 있었지만, 무언가 부족한 점들이 많았습니다.


       


      이번에 나온 처음 배우는 데이터 과학이란 책은, 데이터 사이언스의 입문자분들이 보면 정말 좋은 내용들로 구성되어 있습니다!


       


      목차를 보면 데이터 과학의 큰 그림을 보여주며, 프로그래밍 언어, 데이터 먼징, 시각화, 각종 머신러닝 이론, 인코딩 관련 챕터, 하둡, 데이터베이스, 스파크, 프로그래밍 습관, 자연어 처리, 시계열 데이터, 확률, 통계, 자료구조 등 정말 다양한 분야를 커버하고 있습니다. 다양한 분야를 커버한다는 것은 내용이 깊지 않다고 생각할 수 있습니다. 맞습니다. 깊이는 객관적으로 깊진 않습니다. 그러나 다양한 분야를 알려주며 이 책이 끝난 후, 어떤 것들을 공부해야 하는지 알려주는 이정표로 생각해볼 수 있을 것 같습니다!! ( 모든 분야를 책으로 만드려면 1,000쪽도 넘을 정도로 방대한 분야기 때문에 컴팩트하게 알려주는 책도 정말 좋다고 생각합니다 )


       


      이 책은 혼자 공부하기보다, 스터디를 만들어 진행하면 좋을 것 같습니다. 각각의 파트를 책 내용 + @ 내용으로 스터디 자료를 각자 만든 후, 진행한다면 더욱 더 유익할 수 있을 것 같습니다 :)

    •  


      데이터 과학이라는 말도 어느덧 익숙해져 버린 2018년이다. 사실 데이터 과학이 본격적으로 대두하기 전에도 비슷한 일은 많았다. 빅데이터 이전에도 큰 데이터는 많았듯이 말이다. 그런데 데이터 과학은 공부할 범위를 잡기가 굉장히 모호하다. 데이터를 분석해서 가치 있는 정보를 뽑아내는 모든 일을 통칭하기 때문이다. 심지어 요즘에는 인공지능을 활용한 빅데이터 분석까지 가세하여 나날이 범위가 넓어지고 있다. 


       


      이 책은 데이터 과학에 입문하기 위한 가장 기초적이고 핵심적인 내용을 폭넓게 다룬다. 저자가 스탠퍼드-카네기멜런 대학교 졸업이라는 훌륭한 학업 배경을 가져서인지는 몰라도, 중요한 내용을 잘 뽑아내서 탄탄하게 구성되어 있다. 복잡한 이론의 나열 대신, 핵심을 찌르는 설명을 먼저 제시하고 예제로서 간결한 파이썬 코드를 제시하는 부분이 특히 좋다. 데이터 과학 도서임에도 평범한 사람이라면 겁을 집어먹기 쉬운 수학/통계학 수식도 거의 나오지 않기 때문에, 내용 대부분을 저자의 설명과 예제 코드만으로 이해할 수 있다. 


       


      이 책은 데이터 과학 업무를 수행하는 데 필요한 다양한 능력과 기술을 책 한 권에 모두 담았다는 점이 돋보인다. 파이썬과 각종 데이터 관련 라이브러리뿐만 아니라 사례 연구까지 틈틈이 제시하며, 심지어는 시간 관리와 업무 계획에 대한 조언까지 날려주는 저자의 글쓰기 역량에는 감탄을 금할 수 없다. 수학, 확률, 통계, 데이터베이스, 빅데이터, 인공지능, 컴퓨터 메모리와 자료구조, 알고리즘, 좋은 프로그래밍 습관에 기르기까지 그야말로 몇 년에 걸쳐서 갈고 닦아야만 하는 과정을 400페이지에 압축하여 즐겁게 훑어볼 수 있다는 건 대단한 매력이다. 


       



      이 책의 원제는 이다. 즉, 데이터 과학자가 되려는 사람을 위한 핸드북이다. 따라서 이 책의 소스코드는 독자의 이해에 중점을 두어 구성되었다. 데이터 과학 실무에서 조언을 얻기 위한 책을 기대하는 독자라면 중/고급 분석 이론서나 데이터 과학 실무 소스코드가 실린 쿡북(CookBook) 스타일의 다른 책을 찾아보는 게 좋겠다. 


       


      사실 이 책의 최대 장점은 자연스러운 번역에 있다. 영미권에 거주하고 있는 역자의 언어 능력인지 아니면 편집진의 열혈 교정 덕인지는 모르겠지만, 얇지 않은 책이 물 흐르듯 읽힌다. 영어 원서 번역으로는 올해 읽은 책 중에 가장 자연스러운 문장 흐름이다. 저자의 문체도 지루하지 않고 가독성이 좋아서 데이터를 다루고 싶은 학생이나 개발자 모두에게 단연코 추천할만한 양서이다. 


       


    • 한빛소프트에서 내놓은 처음 배우는 시리즈의 데이터 과학편입니다. 표지부터 데이터의 느낌이 나는 깔끔한 디자인을 보여줍니다.


       



      이 책은 총 3부로 구성되어 있고 1부에서는 데이터 과학의 가장 핵심적인 내용을 다루고 2부에서는 더 심도 있는 기법을 소개하며 3부에서는 꼭 알아야 하는 내용은 아니지만 알아두면 좋은 기법을 소개합니다.



       



      기본기를 확실히 하고싶은 독자나 급하게 책에서 필요한 정보만 찾으려는 독자, 프로그래밍을 하다가 필요한 부분만 예제 코드에서 쏙쏙 빼서 사용하려는 분에게 추천하는 책입니다.






      책을 보니 다양한 파이썬 코드들이 있었고 모든 예시드르은 파이썬 3.4를 기준으로 작성되었습니다. 데이터 과학에서 잘쓰는 scikit-learn, matplotlib, numpy, scipy, pandas 라이브러리를 바탕으로 하고있습니다.






      머신러닝의 기본적인 설명과 unsupervised learning, regression등 필요한 개념들을 설명하고 json, xml 등 데이터 파일들 관련해서도 설명이 잘되어있습니다. 기본적인 데이터베이스 다루는 법도 설명되어있구요






      코드설명과 함께 그림도 잘 설명되어있습니다.


       



      데이터 과학에 입문하려는 분이 읽으면 정말 좋은 책인 것 같습니다.


       



      기본적인 개념을 빠르게 습득하고 비교적 알아듣기 어려운 coursera강의를 들어도 참 좋을 것 같습니다.


       

    • 개인적으로 머신러닝(딥러닝)이 화두로 떠오른 이후로, 가벼운 관련 서적들을 읽어보고 있다. 이 책도 그런 입문서의 하나로 볼 수 있을 것 같다.



      통계, 수학, 머신러닝, 프로그래밍까지 데이터 과학자를 꿈꾸는 히치하이커를 위한 최고의 안내서



      표지에 있는 문구인데, 굳이 밑줄을 그어보라고 하면 “안내서”가 적당할 것이다.


      원서가 어떤 책인가 싶어 검색해보니 아마존의 별점은 그리 나쁘진 않았다. 별 4개 미만의 후기들은 “다루는 영역이 넓은 만큼 깊이가 부족하다”는 의견이었다.



      이 책의 장점이라면 “안내서”로서의 제 역할을 한다는 것이 아닐까. 나와 같이 데이터 과학이라는 분야가 생소한 사람들에겐 다음으로 나아가기 위한 “안내서”로써의 역할은 충분히 하는것 같다. 각 챕터별 마지막에 ‘주요용어’를 정리해주고 있고, 깊지는 않지만 나름 쉬운 설명으로 개념을 전달해준다. (물론 설명을 읽어도 잘 이해가 안가는 부분도 있기마련…)


      아마 데이터 과학 분야의 대부분의 큰 주제는 다 다루는게 아닌가 싶을 정도다. 그게 오히려 아쉬운 부분으로 다가오기도 했다. 데이터베이스 SQL에 대한 내용에서 부터 “의사소통과 문서화”, 프로그래밍 습관과 프로그래밍 언어의 주요 개념, 메모리 관리, 자료구조까지… 이런 부분도 충분히 중요한 내용이라 할 수 있겠지만, 이보다는 그 외의 주제들에 대해 반발자국만 더 들어가는 내용이었으면 어땠을까 하는 아쉬움이 남는다.


      개인적으로 파이썬을 다시 보는 중이라 책의 예제들도 작성하면서 pandas나 matplotlib 라이브러리를 어떤 때 어떻게 쓰는지도 볼 수 있어 좋았다. 다만, 책 중반 이상을 지나가면서 주제가 어려워져서 그런지 “위키피디아 조회수 예측 예제”, “주식 관련 신문 기사의 감정 분석 예제” 와 같이, 참고할만한 예제 코드를 담고 있지만 코드와 관련한 설명이 없다보니 다소 힘을 잃는 느낌이다.


       


       



    • IT인들 들에게도 빅데이터, 데이터과학은 일상에서도 심심치 않게 들려오는 단어일 이다.  



      이미 IT업계에서는 오래전부터 핫한 분야로 자리 잡고있다.  



      그렇기 때문에 많은 사람들이 데이터과학에 흥미를 가지고 도전하려한다.  



      하지만 방대하게만 느껴지는 수학과, 통계, SQL등이 발목을 잡는다.  



      어디서부터 어떻게 시작해야할지 막막하기만하게 느껴진다.  



      "처음배우는 데이터 과학" 그에 대한 해결책을 제시해준다.     


    • 데이터 과학 'ㅅ') 요즘 좀 많이 들려오는 단어...
      데이터 과학의 트렌드 바람이 살랑살랑 불어 오고 있... 은지는 꽤 오래 되었구먼..

      '데이터 과학, 통계, 머신러닝' 은 Front-end 개발자인 내 입장에서는 버거울 정도로 큰 이슈로 느껴지는데,
      이것은 수학에, 프로그래밍에, 데이터 수집에, 개념 공부에... 
      공부의 범위에 제한이란 것이 없다고 생각되기 때문이다. 'ㅅ'); 게다가 그 하나하나의 주제가 제대로 습득하는데 상당한 시간이 걸린다고 예상되기 때문이기도 하다. 
      // 최종 보스가 여러 마리인 셈이지 킁. 하나도 무서운데 몇 마리나 더 튀어나올지도 모르겠고, 시간이 지나면 각자 x켓몬처럼 진화하고 있는거임. 'ㅅ'); 젠장.

      지금의 나에게 '데이터 과학' 에 대한 학습은 '그럼에도 불구하고 계속 해야만 하는 것' 이나, 
      보이지 않는 대상을 장님 코끼리 만지듯 더듬어가는 상황으로 버겁게 느껴진다.

      보통 이런 상황에서 내가 취하는 방법은, 길잡이 책과 이해하기 쉬운 책을 보고 일단 대왕초초초보 수준을 벗어난 뒤, 이후 마음 가는대로 흥미 따라 특정 부분을 골라 파는 것이다. 'ㅅ') 그러다 보면, 여기저기 퍼즐 조각이 맞춰지면서 두루두루 알 수 있게, 할 수 있게 된다. 
      // 이 방법은 얼마나 걸릴지 모르는게 함정 'ㅅ')/ 캬캬. 게다가 나중에는 예전에 공부한 지식이 잘 생각 안 나므로, 반전의 이중 트랩임 'ㅅ')/ 캬캬캬


       



      이 책은 데이터 과학을 공부하는데 최선의 책인지는 모르겠지만, 지금의 내 상황에 꽤 적합한 도서로 보였다.
      두껍지 않는 두께의 책인데, 다루는 주제의 범위는 매우 방대하다.

      파이썬 프로그래밍을 위한 지식, 통계 관련 지식, 그와 연관된 시각화를 위한 라이브러리, 머신러닝 관련 이론, 데이터 과학자의 커뮤니케이션을 위한 조언, 관련 용어와 알고리즘, 알고리즘, 자료구조, 빅데이터, 데이터베이스, 프로그래밍 조언 등...

      이 책에서 나오는 모든 것을 지대루 익히는데는 상당한 시간이 걸릴 것이나, 
      '데이터 과학' 이라는 이름을 달고 있는 녀석들이 어떤 분야인지, 어떠한 지식을 습득해 나가야 하는지에 대한 길잡이 책으로는 이만한 책도 별로 없을 듯 하다 'ㅅ')! 
      // 라고 혼자 생각해본다. 이 글을 한빛미디어 담당자 분이 발견하여 기분이 좋아지셨다면, 다음에 출판되는 '데이터 과학' 관련 책들을 굳이 보내주셔도 매우 환영하는 바이다. 'ㅅ') 아니, 어쩌면 관련 담당자분들이 한놈 지대로 걸렸다고 쾌재를 부르며, 저녁에 회식을 하러 나가실지도...

      본인처럼 데알못 개발자에게 추천해본다. 'ㅅ') 
      하지만, 당신이 이 책을 붙잡는 순간 분명 본인과 같은 고민에 빠지게 될 것이다. 
      '이걸 언제 다 공부하지. 그냥 지금 하던거나 더 제대로 해야 되나' 하는 생각과 
      본인의 능력, 가용 시간, 심지어 현재의 직장, 공교육, 국적에 대한 깊은 한숨을 내뱉게 만드는 무시무시한 어둠의 책인 것이다. 'ㅅ') 
      // 본인이 너무 나간 것일 수도 있다. 후후.


       

    • 파이썬 라이브러리를 활용한 데이터 분석(수정보완판)

      웨스 맥키니(Wes Mckinney)

    • 텐서플로 첫걸음

      조르디 토레스

    • 처음 배우는 머신러닝

      김승연 , 정용주

    • 헬로 데이터 과학 : 삶과 업무를 바꾸는 생활 데이터 활용법

      김진영

닫기

해당 상품을 장바구니에 담았습니다.
장바구니로 이동하시겠습니까?