한빛출판네트워크

IT/모바일

파이썬 데이터 분석 입문

엑셀 및 CSV 파일 처리부터 데이터베이스, 시각화, 통계분석, 자동화까지

한빛미디어

번역서

판매중

파이썬 데이터 분석 입문
좋아요: 52
  • 저자 : 클린턴 브라운리
  • 역자 : 한창진 , 이병욱
  • 출간일 : 2017-10-25
  • 페이지 : 368쪽
  • ISBN : 9791162240144
  • 물류코드 :10014

합계 : 24,300

  • 엑셀의 한계를 넘어 파이썬을 이용한 데이터 분석으로

     

    엑셀은 쉽고 직관적이지만 수백 개의 파일을 다루기는 무리다. 파이썬을 이용하면 엑셀의 한계를 넘어 다양한 형식의 데이터를 가공하고 수많은 파일을 분석할 수 있다. 이 책은 일반인을 위한 파이썬 기초부터 CSV, 엑셀, 데이터베이스의 데이터를 분석하는 파이썬 코드 작성법까지 친절하게 알려준다. 파일 파싱, 그룹화, 통계 산출, 시각화에 필요한 각종 파이썬 라이브러리도 함께 알아본다. 데이터 분석 고수가 되겠다는 의지가 있다면 프로그래밍 경험은 필요 없다.

     

    undefined

     

  • [저자] 클린턴 브라운리

    금융 서비스를 제공하는 파운드와이즈(PoundWise)의 수석 데이터 과학자. 이전에는 4년간 페이스북 데이터 과학자로 근무하며 데이터 파이프라이닝, 통계 모델링, 데이터 시각화 프로젝트 등을 수행하여 데이터 기반 의사결정에 기여했다. 미국통계학회(ASA) 샌프란시스코 베이 에어리어 지부장을 역임한 바 있고, 세계 최대 경영과학 전문가 모임인 경영과학학회(INFORMS)의 CPMS 위원이다. 카네기 멜런 대학교에서 석사학위를, 아메리칸 대학교에서 박사학위를 취득했다.

    [역자] 한창진

    서울대학교 융합과학기술대학원에서 석사학위를 취득했다. 게임 회사에서 데이터 분석 업무를 시작했다. SBS 데이터저널리즘팀 ‘마부작침’을 결성했고, 현재 SBS 편성기획팀에서 시청률 분석 및 방송 콘텐츠 관련 빅데이터 분석을 담당하고 있다. 서울대학교 연합전공 정보문화학 교수진이기도 하다. 『그것이 알고 싶다』(엘릭시르, 2015) 집필에 참여했다.

    [역자] 이병욱

    고려대학교 컴퓨터학과에서 컴퓨터전파통신학 석사학위를 취득했다. 현재 다음소프트의 마이닝랩에서 소셜 데이터 분석과 서비스 플랫폼 개발을 수행하고 있다. 분산처리 시스템을 활용한 머신러닝에 관심이 크다.

  • CHAPTER 1 파이썬 기초

    __1.1 파이썬 스크립트를 생성하는 방법 

    __1.2 파이썬 스크립트 실행 방법 

    __1.3 명령 줄에서 유용한 팁 몇 가지 

    __1.4 파이썬 기본 구성 요소 

    __1.5 텍스트 파일 읽기 

    __1.6 glob을 이용해 다수의 텍스트 파일 읽기 

    __1.7 텍스트 파일 쓰기 

    __1.8 print 문 

    __1.9 연습 문제 

     

    CHAPTER 2 CSV 파일

    __2.1 기본 파이썬 대 팬더스 

    __2.2 CSV 파일 읽고 쓰기(파트1) 

    __2.3 기본 문자열 파싱이 실패하는 경우 

    __2.4 CSV 파일 읽고 쓰기(파트2) 

    __2.5 특정 행을 필터링하기 

    __2.6 특정 열 선택하기 

    __2.7 연속된 행 선택하기 

    __2.8 헤더 추가하기 

    __2.9 여러 개의 CSV 파일 읽기 

    __2.10 여러 파일의 데이터 합치기 

    __2.11 파일에서 데이터 값의 합계 및 평균 계산하기 

    __2.12 연습 문제 

     

    CHAPTER 3 엑셀 파일

    __3.1 엑셀 통합 문서 내부 살펴보기 

    __3.2 단일 워크시트 처리 

    __3.3 통합 문서의 모든 워크시트 읽기 

    __3.4 엑셀 통합 문서에서 워크시트 집합 읽기 

    __3.5 여러 개의 통합 문서 처리하기 

    __3.6 연습 문제 

     

    CHAPTER 4 데이터베이스

    __4.1 파이썬 내장 모듈 sqlite3 

    __4.2 MySQL 데이터베이스 

    __4.3 연습 문제 

     

    CHAPTER 5 응용 작업

    __5.1 대량의 파일에서 원하는 집합 찾기 

    __5.2 CSV 파일에서 카테고리별 통계치 계산하기

    __5.3 텍스트 파일에서 카테고리별 통계치 계산하기 

    __5.4 연습 문제 

     

    CHAPTER 6 데이터 시각화

    __6.1 matplotlib 

    __6.2 팬더스 

    __6.3 ggplot 

    __6.4 seaborn 

     

    CHAPTER 7 기술통계와 모델링

    __7.1 데이터셋 

    __7.2 와인 품질 데이터셋 

    __7.3 고객 이탈 데이터셋 

     

    CHAPTER 8 스크립트 자동 실행 예약하기

    __8.1 작업 스케줄러(윈도우) 

    __8.2 크론 유틸리티(맥 OS 및 유닉스) 

     

    CHAPTER 9 더 공부할 것들

    __9.1 추가 표준 라이브러리 모듈과 내장 함수 

    __9.2 파이썬 패키지 인덱스(PyPI) 추가 모듈 

    __9.3 추가 자료구조 

    __9.4 더 공부해야 할 것들 

  • 프로그래밍 경험이 없는 입문자를 위한 파이썬 데이터 분석 A to Z 

     

    데이터 분석가가 프로그래밍을 배우면 수작업이 불가능한 방대한 규모의 데이터를 처리하고 분석하는 것이 가능해진다. 파이썬을 활용하면 대용량 파일과 다량의 파일을 빠르고 효율적으로 처리할 수 있다. 여기에 작업 스케줄러 등을 이용하면 파이썬 스크립트를 정해진 주기에 자동으로 실행하는 것도 가능하므로 단순 반복 작업을 줄여 소중한 시간을 아낄 수 있다.

    이 책은 데이터 분석을 하고 있지만 프로그래밍 경험은 전혀 없는 사람들을 대상으로 한다. 먼저 프로그래밍 경험이 전혀 없는 독자를 위해 텍스트 파일에서 코드를 작성하는 아주 기초적인 단계부터 시작한다. 그다음 CSV 파일, 엑셀 파일, 데이터베이스를 소스로 삼아 파일을 파싱하거나 데이터를 불러온 다음 처리하고 분석하고 출력하는 예제를 만들어본다. 이 과정에서 데이터 분석 실무에 자주 사용되는 주요 파이썬 패키지 사용법을 함께 익히며, 특히 팬더스를 사용한 코드와 그렇지 않은 코드를 함께 제공한다. 이러한 내용을 확장하여, 대량의 엑셀 및 CSV 파일에서 특정 레코드 찾기, CSV 파일에서 카테고리별 통계치 계산하기, 텍스트 파일을 파싱하고 카테고리별 통계치 계산하기 등 세 가지 응용 사례도 다룬다.

     

    후반부는 데이터 분석에서 빼놓을 수 없는 시각화와 통계분석을 파이썬으로 코딩하는 방법을 살펴본다. 실무에서 사용하는 주요 패키지와 그 사용법을 익히고, t 검정, 회귀분석 등 기초적인 통계분석 예제를 살펴본다. 이어서 윈도우와 맥 OS에서 작성한 파이썬 스크립트를 정해진 시간이나 주기에 자동으로 실행하는 방법을 알아보고, 마지막으로 머신러닝, 자료구조 등 이후 더 공부할 주제를 간단히 소개한다.

     

    프로그래밍 입문자를 위해, 예제는 곧바로 실행 가능한 완전한 코드로 구성했고, 주요 과정은 스크린샷을 함께 실었다. 이 책을 통해 코드가 작동하는 ‘원리’를 이해하면 이후 실무에서 마주칠 어떤 종류의 작업에도 일반화해서 활용할 수 있는 프로그래밍 기술을 익힐 수 있다.

     

    주요 내용

    • 파이썬 기본 문법을 익혀 스크립트 작성하기

    • CSV 파일 읽고 파싱하기(csv, pandas)

    • 여러 엑셀 워크시트 읽기(xlrd)

    • MySQL 데이터베이스 연산 수행하기(mysqlclient)

    • 특정 레코드 찾기, 데이터 그룹화하기, 텍스트 파일 파싱하기

    • 통계 그래프와 그림 그리기(matplotlib, pandas, ggplot, seaborn)

    • 통계치 산출, 회귀분석, 분류 문제(statsmodels)

    • 윈도우와 맥 OS에서 스크립트를 정해진 시간에 자동 실행하기




    •  



      이썬 데이터 분석 입문



      (Foundations for Analytics with Python)



      클린턴 브라운리 저 | 한창진, 이병욱 옮김



      한빛미디어


       



      CHAPTER 1 파이썬 기초


      __1.1 파이썬 스크립트를 생성하는 방법 


      __1.2 파이썬 스크립트 실행 방법 


      __1.3 명령 줄에서 유용한 팁 몇 가지 


      __1.4 파이썬 기본 구성 요소 


      __1.5 텍스트 파일 읽기 


      __1.6 glob을 이용해 다수의 텍스트 파일 읽기 


      __1.7 텍스트 파일 쓰기 


      __1.8 print 문 


      __1.9 연습 문제 


       


      CHAPTER 2 CSV 파일


      __2.1 기본 파이썬 대 팬더스 


      __2.2 CSV 파일 읽고 쓰기(파트1) 


      __2.3 기본 문자열 파싱이 실패하는 경우 


      __2.4 CSV 파일 읽고 쓰기(파트2) 


      __2.5 특정 행을 필터링하기 


      __2.6 특정 열 선택하기 


      __2.7 연속된 행 선택하기 


      __2.8 헤더 추가하기 


      __2.9 여러 개의 CSV 파일 읽기 


      __2.10 여러 파일의 데이터 합치기 


      __2.11 파일에서 데이터 값의 합계 및 평균 계산하기 


      __2.12 연습 문제 


       


      CHAPTER 3 엑셀 파일


      __3.1 엑셀 통합 문서 내부 살펴보기 


      __3.2 단일 워크시트 처리 


      __3.3 통합 문서의 모든 워크시트 읽기 


      __3.4 엑셀 통합 문서에서 워크시트 집합 읽기 


      __3.5 여러 개의 통합 문서 처리하기 


      __3.6 연습 문제 


       


      CHAPTER 4 데이터베이스


      __4.1 파이썬 내장 모듈 sqlite3 


      __4.2 MySQL 데이터베이스 


      __4.3 연습 문제 


       


      CHAPTER 5 응용 작업


      __5.1 대량의 파일에서 원하는 집합 찾기 


      __5.2 CSV 파일에서 카테고리별 통계치 계산하기


      __5.3 텍스트 파일에서 카테고리별 통계치 계산하기 


      __5.4 연습 문제 


       


      CHAPTER 6 데이터 시각화


      __6.1 matplotlib 


      __6.2 팬더스 


      __6.3 ggplot 


      __6.4 seaborn 


       


      CHAPTER 7 기술통계와 모델링


      __7.1 데이터셋 


      __7.2 와인 품질 데이터셋 


      __7.3 고객 이탈 데이터셋 


       


      CHAPTER 8 스크립트 자동 실행 예약하기


      __8.1 작업 스케줄러(윈도우) 


      __8.2 크론 유틸리티(맥 OS 및 유닉스) 


       


      CHAPTER 9 더 공부할 것들


      __9.1 추가 표준 라이브러리 모듈과 내장 함수 


      __9.2 파이썬 패키지 인덱스(PyPI) 추가 모듈 


      __9.3 추가 자료구조 


      __9.4 더 공부해야 할 것들 








      최근 들어 Google, Facebook에서 작성한 Bigdata 관련 논문들을 많이 접할 기회가 있었다.



      Graph theory, Data visualization, Web searching, Text processing 등 여러 주제들 접하게 되었는데, 이 때 발견한 책이 파이썬 데이터 분석 입문 도서이다. Bigdata에 대해 관심을 가지고 처음 공부를 시작하는 입장에서 기대를 많이 한 책이다.







      결론부터 말하면, 나에겐 맞지 않는 책이다. 그 이유를 나열하자면,







      Python 도서라기에도, Data 분석에 관한 책이라고 하기에도 제목과 맞지 않다. 처음엔 python 기초를 설명하고, 추후엔 데이터 분석보단, python을 이용해서 하나하나 시각화나 몇가지 예제를 따라해 보는 정도가 전부이다.



      데이터 분석에 대한 기초적인 이론 (Graph 이론 등)에 대해 기대한 나에게는 맞지 않는 책이였다.







      Data load에 굉장히 많은 페이지를 할애하고 있다. 분명 data를 나의 program에 load하는 것은 중요할 수 있다. 하지만 분석을 위해 CSV파일, 엑셀 파일, 데이터 베이스 등에서 데이터를 읽고 프로그램에 load 하는 정도의 설명이 100여 페이지 가량된다. 차라리 기본적으로 File I/O 등에 익숙한 python 사용자를 대상으로 책을 작성했다면, 좀 더 많은 내용을 포함 할 수 잇지 않았을까?







      데이터 시각화는 matplotlib, pandas, ggplot 등 어느 python 도서에도 포함하고 있는 내용들을 설명하고 있는데, 데이터 분석에 관한 내용이나 이론의 설명은 부족하고, 예제 코드를 실행하여 결과만 눈으로 확인하는 정도의 내용밖에 없다.






      제목과 달리 데이터 분석에 관련된 내용을 거의 책에 존재하지 않는다. 


      아쉽지만, 정말 분석 위주의 내용을 원한다면, Facebook, Google등의 논문을 살펴볼 것은 추천한다.


       





      이 글은 한빛미디어의 도서 리뷰 활동으로 작성된 글임으로 참고 바랍니다.

    • 데이터 분석이나 머신러닝을 공부하기 시작한지는 꽤 됐지만 본격적으로 깊게 공부하지는 못해서 입문서를 주로 보고 있었는데 같이 데이터 분석 책이더라도 책마다 중점적으로 다루는 내용이 조금씩 달라 결국 여러 권의 책을 다 가지고 있게 된다. 이 책도 기존에 내가 가지고 있던 책들과는 주제가 달라서 keep 해놔야 할 것 같다.


       



      ‘파이썬 데이터 분석 입문’이라는 책 제목만 보고 데이터 분석에 사용되는 알고리즘을 파이썬으로 구현하는 것을 중점적으로 설명한 책이려니 했는데, 이 책은 알고리즘 보다는 데이터 전처리에 대한 설명이 훨씬 자세히 되어있다.


       



      20171219_220626.jpg


       


      9개 챕터 중에 무려 4개의 챕터가 CSV, 엑셀, DB 등의 형태로 있는 데이터를 파이썬 프로그램에 로딩하고 분석/계산하기 좋은 형태로 가공하는 것에 대해서 설명하고 있다. 사실 데이터 분석을 공부하게 되면 데이터 분석과 관련된 통계 지식이라든지, 사용하는 알고리즘을 학습하는 데에 시간/노력을 집중하게 되는데, Coursera 등의 MOOC 강의 구성을 참고해보면 Data Science 트랙에서 빠지지 않는 것이 데이터 처리에 대한 내용이다. 지루하고 쉬워 보여서 많은 사람들이 그냥 훑어보고 지나가는 내용이지만 실제로 프로젝트를 하거나 현업에 사용하려고 하면 가장 먼저 수행해야 하는 게 데이터 전처리이기 때문에 사실 가장 노하우가 필요하고, 많이 연습해 보아야 실력이 느는 부분이기도 하다.


       


      어쨌든 4개의 챕터에서 데이터 로딩과 전처리에 대해서 설명하는데, 이 책에서 내용을 설명할 때 좋은 것 중 하나가 일반 파이썬 코드로 작성된 것과 Pandas 패키지를 사용할 때의 차이를 비교해서 설명한다는 것이다. 데이터 분석에서 주로 사용되는 파이썬 패키지에는 Numpy, Pandas 등이 있다는 것은 데이터 분석을 공부해본 사람들이면 익히 아는 내용이지만 왜 저 두 패키지가 많이 사용되는지에 대해서는 많이 고민해보지 않았을 것이다. 책에서는 Pandas를 쓸 때와 쓰지 않을 때의 코드를 비교하면서 쓰지 않았을 때 발생할 수 있는 복잡한 예외 처리를 Pandas를 사용하면 간단하게 해결할 수 있다. 합계나 평균처럼 간단한 통계치를 계산할 때도 Pandas를 사용하는 것이 훨씬 유용하다는 것을 차근차근히 설명해준다. 데이터 분석을 처음 공부하는 사람의 입장에서 비교해서 설명해주면 Pandas를 왜 사용해야 하는지, 데이터 처리를 할 때 어떤 점들을 고려해야 하는지 명확하게 알 수 있어서 도움이 많이 될 것 같다.


       


      책의 중반부까지 데이터 전처리에 대해서 설명하고 그 다음부터는 데이터 시각화와 간단한 알고리즘 등이 설명되어 있다. 데이터 시각화는 간단히 matplotlib로 그래프 그리는 방법, 그래프의 종류, 그리고 자주 사용하는 다른 그래픽 패키지, seaborn, ggplot 등이 소개되었다. 알고리즘은 선형회귀, 로지스틱 회귀 등이 설명되어 있는데, 기본적인 통계 지식이 있는 것을 가정하고 작성된 내용이라서 자세한 내용은 다루지 않고 있다.


       


      전체적으로 이 책은 입문서이긴 하지만 데이터 분석을 이제부터 공부해보려는 사람들에게는 적합하지 않은 것 같고, 대충 데이터 분석을 어떻게 하는지는 알겠는데, 인터넷에서 긁어모은 데이터를 가지고 분석을 어떻게 시작해야 할지 막막한 사람들, 아니면 데이터 전처리에 대한 내용을 인터넷에서 할 때마다 검색해서 찾기는 귀찮고 필요한 내용을 그때그때 찾아볼 책이 필요한 사람들에게 추천한다. 정독할만한 책은 아니고 정말 레퍼런스용으로 적당한 책인 것 같다.



       


    • [ 파이썬 데이터 분석 입문 ]



      파이썬에 대한 간단한 기초를 알고 있다면 쉽게 따라할 수 있는 책


       



      [ 추천합니다 ]
      1. 파이썬 막 입문한 사람도 쉽게 배울수 있는 책
      2. `엑셀 , 데이터베이스 + 파이썬` 쉽게 배울 수 있는 책



      3. pandas 간단히 배울 수 있는 책



       


       



      [ 단점 ]



      책 이름처럼 분석 입문 이기 때문에 어느 정도



      파이썬에서 데이터베이스를 다뤄봤던 사람,



      pandas , matplotlib 등을 다뤄본 사람이라면



      굳이 사서 읽을 필요는 없는 것 같다.


       






    • 빅데이터가 유행하고 뒤이어 머신러닝, 딥러닝의 시대가 오면서 데이터 분석 분야가 핫해지고 있다. 그에따라 데이터 분석가, 데이터 엔지니어의 수요가 많아지고 있는데, 한빛미디어에서 그 직업군의 길라잡이가 되어주는 책이 나왔다. 


       




      Foundations for Analytics with Python


      파이썬 데이터 분석 입문






       



      페이스북 데이터 과학자로 근무했던 Clinton Brownley 의 책이 원서이고 한창진/이병욱 님이 번역을 하셨다. 번역서지만 훌훌 읽는데 무리가 없다.


       



      구성



      이 책은 파이썬이라는 프로그래밍 언어를 기본으로 데이터 분석을 다룬다. 우선 프로그래밍 기초가 없는 독자를 대상으로 했기 때문에 1장에 "파이썬 기초" 를 시작으로 하고, 2장에서는 CSV 파일을 다루는 기법을 소개한다.  3장은 엑셀 파일을 다루는 여러가지 방법을 소개하고, 4장은 파이썬 내장 모듈인 sqlite3 와 MySQL 같은 데이터베이스를 통한 데이터 분석을 다룬다. 5장은 앞선 내용에 대한 응용작업을 기술한다. 


       



      이후 6장에서는 데이터 분석의 꽃인 "데이터 시각화"를 다루는데 matplotlib 을 시작으로 팬더스, ggplotseaborn 을 사용한다. 7장은 공개 되어 있는 데이터셋을 기반으로 기술통계와 모델링을 다룬다. 8장은 스크립트 자동 실행 예약을 다루는데 윈도우의 작업 스케줄러와 *NIX 에서의 crontab 을 소개한다. 끝으로 9장은 더 공부할 것들에 대해 몇 가지 언급하고 책은 마무리 된다.


       



      아쉬움


      입문 서적인 것을 생각했을 때 모든 코드에 대한 실행 결과가 함께 첨부되지 못한점이 크게 아쉽게 다가온다. 모든 독자가 컴퓨터 앞에서 예제를 타이핑할 수 없다는 점을 감안하지 못한 듯 하다. 또한 자세한 설명이 누락된 느낌이다. 친절하지 못하다는 표현이 맞을까? (예를들어) 특히 6장 "데이터 시각화" 는 배경 지식이 있는 상태로 읽어도 쉽지가 않다. 


       



      이런점은 좋다


      앞선 구성에서 알 수 있듯이 정말 많은 것을 두루 다루고 있다. 비록 친절하지는 않지만 다양한 지식을 얻을 수 있다. 사실 "그런게 있다"만 알아도 나중에 검색이나 심도있는 과정을 통해 자세히 확인할 수 있으니까 말이다. 어느 분야든지 입문할 때 폭넓은 배경지식이 필요하다는 점을 감안하면 이 책이 바로 그런 부분을 충족시켜 주는 책이다. 


       





       



      마무리


      유행에 크게 민감하게 반응할 필요는 없지만 데이터 분석은 이미 많은 분야에 필수가 되었다. 꼭 데이터 분석이나 데이터 엔지니어가 아니더라도 사회는 기타 업종의 개발자나 엔지니어에게 데이터 분석에 대한 최소한의 역량을 요구한다 (기획자나 마케터에게도 그런 역량을 요구하는 세상). 그렇기 때문에 최소한의 노력으로 화려한 결과를 도출하고 싶다면 데이터 분석이라고 하는 분야에 살짝 발을 딛는 것도 나쁘지 않겠다. 이 책이 그 시작을 도와줄 것이다.

    •  



      # 파이썬으로 데이터 분석을 하면 뭐가 좋을까? 


       


      엑셀로 데이터 분석을 하던 사람에게는 프로그래밍을 통한 분석방식은 답답하다. 뭐 하나 만들기도 까다롭다. 무엇보다도 작성이 오래 걸린다. 엑셀에서 자동으로 지원하는 함수들이 없어서 손으로 한 땀 한 땀 구현해야 할 때도 있다. 그러나 데이터 분석의 대부분은 반복적인 작업이다. 어쩌다 한 두번 작업할 때는 엑셀로 수작업하는 것이 빠르겠지만, 장기적으로는 재사용이 가능하고 다양한 변형이 쉬운 프로그래밍이 효율적이다. 파이썬과 DBMS의 쿼리를 활용하면 방대한 데이터를 훨씬 쉽게 다룰 수 있다는 것도 장점이다. 


       



      # 이 책의 예제는 윈도와 파이썬3를 기반으로 한다. 


       


      이 책의 예제는 윈도를 기반으로 한 파이썬 스크립트이다. 맥에서의 작업 방식도 같이 소개하지만, 기본적으로 윈도를 중점으로 설명한다. 우리나라에서 윈도 점유율이 90%가 넘는 상황에서 초보자들은 윈도를 사용하고 있을 가능성이 가장 높기 때문이다. 개인적으로도 데이터를 다루는 작업에 MS Office 를 많이 활용하는 편이라 엑셀과 병행할 수 있는 개발환경이 편리했다.


       



      # 1장 파이썬 기초


       


      숫자/문자/리스트/튜플/딕셔너리와 같은 파이썬 기본 자료형을 다룬다. 날짜형 자료를 다루는 방법을 차근차근 설명해주는 부분이 좋았다. 실제 업무에서 가장 많이 다루게 되는 자료형이니까. 프로그래밍 기초가 없는 사람들을 위해 제어문, 함수, 예외 처리 같은 내용도 차근차근 설명되어 있다. 


       



      # 2장 CSV 파일


       


      예전부터 데이터를 전송하는 데 가장 많이 사용되어온 plain text 형태의 CSV 파일을 다루는 방법에 관해 설명한다. 단일 파일과 여러 파일을 읽고 수정하는 방법과 파일 요약 정보 출력, 데이터 병합 등이 잘 나와 있다.


       



      # 3장 엑셀 파일


       


      파이썬의 xlrd 패키지를 사용하여 엑셀 파일을 처리한다. 엑셀에서 까다로운 점인 날짜=숫자 저장 형태와 변환 방법을 설명하는 부분이 좋았다. 워크시트를 읽고 파싱한 후 간단한 기본 통계 계산 등을 수행한다. 


       



      # 4장 데이터베이스


       


      파이썬에 내장된 sqlite3 모듈을 사용해서 DB 생성, 테이블 생성, 쿼리 수행 등 기초 데이터베이스 작업을 설명한다. MySQL을 내려받아서 설치하는 방법도 다뤄서 DBMS 입문으로는 부족함이 없었다. 


       



      # 5장 응용 작업


       


      데이터 처리 및 분석 작업을 다룬다. 다양한 엑셀/CSV 파일에서 특정 레코드를 찾고, 수치 데이터를 카테고리로 그룹화하여 통계를 내본다. 텍스트 파일을 그룹화하고 카테고리에 대한 통계를 산정하며, MySQL 로그 파일을 파싱하여 로그 횟수를 계산하는 등의 다양한 응용 작업을 수행한다.


       



      # 6장 데이터 시각화


       


      데이터 시각화 패키지를 이용하여 데이터를 시각화하는 방법을 배운다. 가장 대중적인 matplotlib으로 시작하여 간결함이 매력적인 pandas와 R로부터 나온 ggplot을 다뤄본다. 마지막의 seaborn은 어딘지 친숙하지 않아서 약간 당황했다. 


       



      # 7장 기술통계와 모델링


       


      회귀 및 분류 모형을 추정한다. 앞 장에서 배운 pandas로 그룹화와 통계 함수를 사용하고, statsmodels 패키지를 사용하여 다양한 회귀 및 분류 모형을 추정해본다. 이 장에서 배우는 다중회귀모형 및 로지스틱 회귀모형은 워낙 많이 사용되는 내용이므로 모든 사람에게 유용할 것 같다. 


       



      # 8장 스크립트 자동 실행 예약하기


       


      윈도의 작업 스케줄러와 맥/리눅스의 cron 을 사용해서 스크립트를 주기적으로 자동 실행하는 방법을 배운다.


       



      # 9장 더 공부할 것들


       


      과학 분야에서 많이 사용되는 numpy, SciPy 등의 추가 패키지들과 스택, 큐, 그래프, 트리 등의 자료구조를 간단히 소개한다. 내용 자체는 워낙 짧다. 궁금한 부분은 각각의 패키지를 다룬 중급 도서를 봐야 할 것 같다. 


       



      # 평점은 높지 않은데 책 내용이 좋다.


       


      리뷰를 쓰기 위해서 찾아본 온라인 서점에서 이 책의 평점은 높지 않았다. 당연하다. 숙달된 데이터 분석가와 프로그래머들에게는 쉬운 내용이다. 그러나 이 책의 독자는 개발을 전혀 할 줄 모르는 사람이다. 엑셀을 잘 다루면서도 어딘지 모를 답답함을 느껴온 사람들에게는 이 책이 가뭄의 단비와 같다. 개발 지식이 깊지 않아도 충분히 데이터 분석을 할 수 있다는 것을 보여주기 때문이다. 더 방대한 전문 데이터 분석가로 가는 길은 이후 독자가 얼마만큼 더 공부하냐에 달린 것 같다. 매일 엑셀의 4~5중 함수 괄호에 시달리는 옆자리 동료에게 꼭 안겨주고 싶은 책이다. 파이썬의 기본기를 좀 더 단단히 다지게 해주는 점프 투 파이썬(https://wikidocs.net/book/1)링크와 함께라면 충분할 것 같다. 

    • <이 책의 리뷰는 한빛미디어 '나는 리뷰어다'로 부터 책을 지원받아 작성된 글입니다.>


       


       


       


      [ 책 소개 ]


       




      엑셀의 한계를 넘어 파이썬을 이용한 데이터 분석으로

      엑셀은 쉽고 직관적이지만 수백 개의 파일을 다루기는 무리다. 파이썬을 이용하면 엑셀의 한계를 넘어 다양한 형식의 데이터를 가공하고 수많은 파일을 분석할 수 있다. 이 책은 일반인을 위한 파이썬 기초부터 CSV, 엑셀, 데이터베이스의 데이터를 분석하는 파이썬 코드 작성법까지 친절하게 알려준다. 파일 파싱, 그룹화, 통계 산출, 시각화에 필요한 각종 파이썬 라이브러리도 함께 알아본다. 데이터 분석 고수가 되겠다는 의지가 있다면 프로그래밍 경험은 필요 없다.




      [인터넷 교보문고 제공]


       



      자세한 정보 :  Link(한빛네트워크)


       


      [ 목록 ]


       



      더보기


       


       



      [ 읽으며 ]












       


       


       



      1. 파이썬 처음 입문자는 기초부터!


       



       이터 분석 입문 책이지, Python 입문 책이 아니라는 것을 잘 알아두고 사야할 책이다. 파이썬 기초적인 부분을 알려준다고 하지만 IF문, 반복문에 대한 개념은 배울 수 없을 것이다. 파이썬 기초 문법 책은 가까운 서점에서 많이 구할 수 있으니 기본적으로는 파이썬을 공부하고 책을 구입하는게 좋을 것 같다. 







       또한, MySQL도 나온다. 따라서 sql문에 대해서 잘 모르는 사람은 문장이 어떤걸 의미하는지 모르는게 당연하다. 책을 사서 읽기 전에 사전 공부가 필요하다는걸 알아두면 좋을 것 같다.













       


       



      2. 가독성이 떨어진다.


       



      스를 가독성이 별로 없게 몇줄 달랑 적어둔다. 굉장히 붙어있어서 그런지 눈이 너무 아프다. (오랜만에 책을 읽어서 그런건가 싶다.) 프로그래밍 언어 책을 읽을 때 대부분의 책에 있는 코드를 머리속으로 돌려서 생각하는 일명 '뇌코딩'을 하는데 그것이 불가능 할 정도다. 코드가 어떻게 출력 되는지 출력창이 따로 나와있는게 아니라 글 속에 있기 때문에 다른 책들에 비해 가독성이 떨어진다.















      3. 실용예제


       





       


       







      책 뒷편에는 코딩을 통해 집합을 찾거나 시각화를 한다던가하는 예제들이 존재한다. 히스토그램, 막대그래프 등으로 시각화가 가능하고 다양한 방식으로 시각화를 하는 방법에 대해 설명되어있다. 이 부분이 가장 유익한 부분이라고 생각한다. 앞에서 배운 내용들을 정리하고 실습을 통해 한 번 더 익힐 수 있는 기회를 주는 것 같다.











      [ 마무리 ]






      통계나 분석을 위해 읽어보고 좋은 책이지만 사전에 파이썬과 MySQL에 


      기본적인 지식은 가지고 읽을 것!


       


      디자인    ★☆☆☆☆ 벌레를 싫어하는 사람도 많기 때문에!


      내용       ★★★☆☆ 코드의 가독성이 굉장히 떨어진다.


      난이도    ★★★★☆ 사전 공부가 필요하다.


       





      출처: http://remover.tistory.com/143 [Remover]


    • 파이썬데이터분석입문


      2011년, 대학생 때 친구들과 스크립트언어 하나를 공부하기로 하면서 파이썬을 처음 접한 이후로 지금까지 파이썬을 매우 유용하게 사용해오고 있다. 처음에는 간단한 웹 프로그램을 만들면서 시작했고, 대학원에 와서는 Flask를 이용한 연구용 웹 프로토타입 개발이나 데이터 분석을 위해 사용중이다. 파이썬 이외에도 데이터 분석을 위해 R도 가끔 쓰고, ggplot을 이용하여 그래프도 그리는 수준이라, 분명 이 책에서 대상으로 하는 데이터 분석 초보는 아니다. 그래도 당장 눈앞에 닥친 과제를 해결을 위해서 초급부터 한단계씩 오르기보다는 온 몸으로 부딪혀가며 거칠게 배워온터라 데이터 분석 입문시 반드시 알아야 할 기본기가 부족한 것은 아닐까라는 생각은 항상 하고 있었는데 우연한 기회에 이 책을 접하게 되었다.



      파이썬데이터분석입문_1


      이 책은 책 제목을 잘 따르고 있다. "Foundations." 일단은 데이터 분석이전에 파이썬의 기초부터 시작한다. 실제로 책 전체 350페이지 중 첫 100페이지가 파이썬 설명에 할애되었다. 단 100페이지로 파이썬을 전부 다루는 것은 당연히 불가능하므로, 데이터 처리에 필수적인 부분만 집중적으로 공략한다. 그리고 CSV/Panda를 이용한 데이터 분석, 엑셀 데이터 분석, 그리고 SQLite3/MySQL를 이용한 데이터베이스 기반 데이터 분석 등을 하나씩 다루고 있다. 데이터 분석 입문으로 필수적인 내용들이다. 하나하나 예제소스와 출력 결과를 보여주고 있기 때문에 이해하기도 쉽다. 단, 이 책을 통해 데이터 분석에 입문하고자 하는 사람은 반.드.시. 예제를 다 따라쳐보길 권한다. 그리고 이 책을 읽으면서 놀란 점은 번역이 매우 깔끔하다. O'REILLY 표지만 아니었다면 국내에서 새로 낸 책인줄 알았을 정도다.


      아쉬운 점으로는, 이 책에서 csv 라이브러리 이외에 Pandas까지 같이 언급하고 있는데, 이제 프로그래밍도 처음 접하는 초보에게 pandas까지 가르치는게 맞는지 잘 모르겠다. 어차피 여기서는 csv로도 할 수 있는 일을 판다스로도 해보는 수준이라. Pandas의 강력함이 전혀 보여지지 않는다. 또한 좀 더 실전적인 예제들이 들어있었다면 좋았을 것 같다. 카테고리별 평균구하기 정도의 예제가 아니라 실제로 독자들이 읽으면서 공감할만한 예제, 예를 들면, 고객 구매 데이터에서 가장 많이 구매된 항목순으로 랭킹 보여준다던가, 특정 물품과 함께 구매될 때 가장 많이 같이 구매된 물품 예상하기 등의 예제였다면 더 재미있게 따라할 수 있지 않았을까 싶다.



      "이 책은 데이터 분석을 위해 스프레드시트를 자주 이용하지만 프로그래밍 경험은 전혀 없는 독자를 대상으로 한다." p9




      여기서 "스프레드시트를 자주 이용하지만"이 포인트인 것 같다. 특히 주위에 엑셀을 계속 써오던 사람은 엑셀만으로도 데이터 분석과 그래프 그리기가 충분하다고 말하지만, 데이터 양이 엑셀에서 커버할 수 있는 범위를 넘어서기 시작하면 엑셀만으로는 다루기 힘들다. 엑셀에서 다양한 함수를 제공한다하지만, R이나 파이썬 패키지에 비할 바도 아니다. 결국 데이터 분석을 해야하는 사람이라면, 엑셀로 다 할 수 있다고 혼자 끙끙앓지말고 당장 R이든 파이썬이든 이용해서 본격적인 데이터 분석으로 들어와야한다. 진입장벽이 좀 높긴하지만, 그 진입장벽을 낮추는데 이 책이 도움을 줄 수 있을 것 같다.


      특정 언어를 활용한 뭔가 해내기 종류의 책을 볼 때마다 느끼는 것이지만, 그 책을 10번 읽어도 소용없다. 추가적인 공부가 더 필요하다. 처음 프로그래밍을 하는 사람이 이 책을 통해 100페이지 분량의 파이썬 설명을 공부한다고해서 파이썬을 이해하기는 굉장히 어렵다. 이 책을 읽고나면 이제 말 그대로 데이터 분석에 "입문" 한 수준이다. 이 책에서 배운 내용들을 더 잘 활용하기 위해서 다음과 같은 내용들을 추가로 공부해보길 권한다.



      • 점프 투 파이썬: 파이썬 분야의 베스트셀러 책이다. 책을 구입해도 좋고, 책 내용이 온라인에 완전 무료로 공개되어있으니 https://wikidocs.net/book/1로 접속해서 하나씩 보면서 공부해도 좋다.


      • 데이터베이스: 이 책에서 데이터베이스로 SQLite3와 MySQL을 다루고 있다. MySQL은 "Head First MySQL"이 데이터분석을 처음 접하는 사람에게 적합한 책으로 권한다. 나도 MySQL을 막연하게 알고 있을 때, 이 책을 통해 기본을 다졌다. 책사는게 싫다면 생활코딩에서 MySQL 기본 강의가 있으니 참고해도 좋다: https://opentutorials.org/course/195


      • R: R은 데이터 분석 및 통계를 위한 언어이다. 이 책에서 다루고 있는 파이썬용 ggplot 라이브러리 등은 사실 R에서 먼저 쓰였던 것들이다. 데이터 분석에 본격적으로 뛰어들면 결국 R과 만나게 될 것이다. 코세라에서 무료로 공개되어있는 R강의를 추천한다: https://www.coursera.org/learn/r-programming


       


       




    • 윈도우에서 파이썬 데이터 분석 입문을 생각한다면 정답에 가까운 책.



      다만 파이썬 설치에 대한 내용이 없어 프로그래밍 지식이 없는 분들이면 당황하실 수 있겠다.



      맥에서 주로 사용하다가 오랜만에 윈도우 환경을 쓰면 당황할 수 있는데, 그럴 때에도 유용함.

  • 내용이 없습니다.
닫기

해당 상품을 장바구니에 담았습니다.
장바구니로 이동하시겠습니까?