한빛출판네트워크

IT/모바일

처음 시작하는 R 데이터 분석

쉽고 재밌게, 실무 예제로 끝낸다! 7일 완성 로드랩

한빛미디어

집필서

판매중

좋아요: 2
  • 저자 : 강전희 , 엄동란
  • 출간 : 2018-10-05
  • 페이지 : 328쪽
  • ISBN : 9791162241202
  • 물류코드 :10120

합계 : 17,820

  • 빠르고 재밌게,

    풍부하고 흥미로운 실습 예제로 R 데이터 분석에 입문한다!

     

    7일 완성 로드맵에 따른 체계적인 학습

    무엇이든 입문할 때 가장 어려운 것이 ‘어떻게 시작하는가?’이다. 이 책에서 제공하는 [7일 학습 로드맵]에 따라 차근차근 학습한 후 하루 만에 끝내는 요약 정리, 4가지 실전 프로젝트로 복습하면 어느새 실제 업무에서도 활용하고 있을 것이다.

     

    R 스튜디오를 통째로 옮겨 놓은 친절한 구성

    새로운 도구를 배울 때 가장 좋은 학습 방법은 직접 따라해 보면서 익히는 것이다. 하지만 이동 중, 혹은 실습 환경이 갖춰지지 않은 곳이라면? 이 책은 언제 어디서나 ‘제대로’ 학습할 수 있도록 R 스튜디오의 Script 창과 Console 창의 내용을 그대로 옮겨 담았다. 또한 1:1 과외처럼 친절하게 거의 모든 코드에 주석을 달아 독학의 어려움을 최소화했다.

     

    저자 직강 동영상 강의와 편리한 질의응답 편의 제공

    함께 학습하는 사람이나 주변에 도움 받을 사람이 있다면 좋겠지만, 독학 시에는 작은 도움도 크게 느껴진다. 이런 독자의 마음을 고려하여 유튜브를 통해 핵심 포인트, 혼자 하기 어려운 내용 등을 동영상 강의로 제공하고 있다. 또한 책을 보면서 궁금한 내용이 생겼을 때 저자의 GitHub에 방문하여 [Issues] 탭에서 질의응답을 할 수 있다.

    어떤 독자를 위한 책인가? 

    1. 빠르게 배워 실무에서 R 데이터 분석을 이용하려는 직장인
    2. 경제, 경영, 통계학 등 데이터 분석이 잦은 학과 전공자
    3. 데이터 분석에 입문하려는 컴공 전공자

     

    750_상세이미지.jpg

     

     

  • [저자] 엄동란

    통계학을 공부한 후 컨설팅 회사에 입사하여 다양한 CRM 분석을 경험하였다. 롯데카드와 롯데멤버스에서 회원 기반의 빅데이터 분석 업무를 담당했고 현재는 CJ에서 일하고 있다. CRM 을 비롯한 빅데이터 분석, 마케팅 분야의 다양한 경험을 보유하고 있다.

    [저자] 강전희

    컴퓨터공학과 인공지능을 공부했고 현재는 CJ ENM에서 일하고 있다. 시스템 구축•설계•운영을 시작으로 인공지능, 빅데이터, 개인 정보 보호, 온갖 가젯과 자료 정리에 관심이 많다. 국내 최초로 MCN인 DIATV 사업을 시작한 MCN계의 화석 같은 존재로 현재는 DIATV 경험을 바탕으로 SNS 데이터 분석과 시스템 기획을 담당하고 있다. 

  • PART 01 데이터 분석과 R 

    Chapter 01  R&R 스튜디오 : 사용 환경부터 제대로 준비하자

    01. R이란?

    02. R을 설치하고 실행하기

    03. R 스튜디오 설치와 기본 환경 설정하기

    04. 스크립트 생성 및 코드 실행하기

    05. 도움말 사용하기

     

    Chapter 02 데이터 분석과 구조 : 데이터는 어떻게 생겼을까?

    01. 데이터 분석 과정 알아보기

    02. 데이터의 생김새와 변수와 함수

     

    Chapter 03 데이터 종류 : 구조와 형태에 따라 데이터 이름도 다르다

    01. 데이터 구조 간 관계 파악하기

    02. 데이터 구조의 가장 기본인 벡터

    03. 벡터를 행/열로 구성한 행렬, 행렬의 확장인 배열

    04. 여러 데이터를 그룹화한 리스트, 리스트의 확장인 데이터 프레임

          한입에 쏙

          연습문제

     

    PART 02 데이터 분석을 위한 기본기 다지기

    Chapter 04 데이터 수집 : 분석할 데이터를 준비한다

    01. 원시 자료 입력 및 엑셀 파일 가져오기

    02. read.table() 함수로 TXT 파일 가져오기 

    03. 직관적인 메뉴로 원시 데이터 가져오기

    04. R 데이터 저장하고 불러오기

     

    Chapter 05 데이터 가공 : R은 데이터를 이렇게 다룬다

    01. 데이터 분석의 기초, 연산자

    02. 분석을 위한 데이터 기본 정리

    03. 데이터 추출부터 정제까지, 데이터 전처리

    04. 데이터 분석을 위한 기초 통계 분석 함수

    05. 데이터의 이해도를 높일 수 있는 그래프

          한입에 쏙

          연습문제

     

    PART 03 데이터 분석을 위한 필수 패키지와 함수

    Chapter 06 패키지 : R에 기능을 더하다

    01. 필요할 때 추가해서 사용하는 패키지

    02. 패키지 설치 및 사용 방법

    03. 컴퓨터 간 동일한 패키지 환경 만들기

     

    Chapter 07 reshape2 패키지 : 데이터의 행을 열로, 열을 행으로!

    01. 가로로 긴 데이터 모양을 세로로 전환하는 melt() 함수

    02. 세로로 긴 데이터 모양을 가로로 전환하는 cast() 함수

     

    Chapter 08 KoNLP 패키지 : 한글을 분석한다

    01. KoNLP 패키지와 wordcloud 패키지 설치하기

    02. 애국가로 형태소 분석하기

    03. 애국가 단어로 워드클라우드 만들기

     

    Chapter 09 dplyr 패키지 : 데이터 가공 마법사

    01. dplyr 패키지 실습 준비하기

    02. 데이터 추출 및 정렬하기

    03. 데이터 추가 및 중복 데이터 제거하기

    04. 데이터 요약 및 샘플 추출하기

    05. 함수와 함수를 연결하는 %>% 연산자

     

    Chapter 10 ggplot2 패키지 : 데이터 분석의 꽃, 시각화

    01. ggplot2 패키지로 그릴 수 있는 다양한 그래프

    02. 그래프의 이해를 높이는 객체 추가하기

    03. 함께 알면 유용한 googleVis 패키지와 ggmap 패키지

          한입에 쏙

          연습문제

     

    PART 04 데이터 분석 실전 프로젝트 

    Project 01 치킨집이 가장 많은 지역 찾기

    01. 업종별 데이터 다운로드 및 기초 가공

    02. 데이터 가공 및 트리 맵 표현하기

     

    Project 02 지역별 미세먼지 농도 비교하기

    01. 서울시 대기 환경 정보 다운로드

    02. 상자 그림으로 시각화 및 t 검정

     

    Project 03 트위터 키워드 크롤링으로 워드클라우드 그리기

    01. 트위터 API 사용하기

    02. 트위터 키워드 검색 및 워드클라우드 표현

     

    Project 04 지하철역 주변 아파트 가격 알아보기

    01. 공공 데이터 다운로드

    02. 지하철역 데이터 가공하기

    03. 아파트 실거래가 데이터 가공하기

    04. 구글 지도에 지하철역과 아파트 가격 표시하기

     

    APPENDIX부록

    Appendix 01 통계 분석 기법 맛보기

    Appendix 02 연습문제 정답

  • 이세행(네이버 클로바) : R이라고 하는 생소한 언어를 쉽게 설명하여 첫걸음을 내딛기가 수월했습니다. 

     

    김승희(다우기술 서비스개발본부) : 이 책 덕분에 데이터를 분석하고, R을 사용하는 게 그리 어려운 게 아니라는 걸 알았습니다.

     

    김경식(엑셈 빅데이터 개발자) : ‘비전공자도 볼 수 있는 R 데이터 분석’이란 말이 가장 먼저 떠오를 만큼 누구나 이해하고 따라 할 수 있는 책입니다.

     

    김유(한국IBM 마케팅팀) : 빠르면 일주일, 넉넉하게 한 달이면, 소셜 데이터를 수집하고 데이터를 분석, 시각화하고 있는 자신을 발견할 수 있을 것입니다.

     

    강전영(뉴욕주립대 버팔로 지리학과 박사후 연구원) : R 초보자들이 기초를 파악하고, 프로젝트에 적용할 수 있게 도와주는 ‘가이드’가 되는 책입니다.

    • 내가 R 이라는 언어를 처음 접한 때는 2015년 1월 경 courseraR Programming 이라는 수업에서였다. 통계에서 쓰는 언어는 SPSS, SAS 를 많이 들어봤고 공부도 해본 적이 있었지만 R 은 그때 처음으로 제대로 공부해 보았다. python 을 연상하게 하는 간결한 문법과 직관적인 사용법, 다양한 라이브러리와 오픈 소스 개발이 인상적이었지만 아쉽게도 그 당시에는 우리말로 된 교재를 찾아보기 힘들었다. 정확히 말하자면 대학교재들은 있었지만 일반인이 알기 쉽게 쓰인 책은 거의 없었다고 생각한다.거의 4년이 지난 지금 우리말로 된 R 교재는 번역서와 국내 저자가 쓴 것을 합쳐 100여 권에 이를 정도로 많다. 짧은 시간에 이렇게 많은 책이 나온 데는 기계학습과 빅 데이터의 발전으로 R이 업계에서 차지하는 위치가 이전과는 비교할 수 없을 정도로 높아진 것이 한몫할 것이다. Stackoverflow 의 2018년도 개발자 설문조사에서 R 은 세계에서 19번째로 가장 많이 쓰이는 언어였다. 또 r4stats.com 의 2017년 Job Report 에서 R 은 SAS 를 제치고 Data science 분야에서 5번째로 사랑받는 언어가 되었다(SAS 는 7위, SPSS 는 14위).R에 대해서 많은 책이 나와 있기 때문에 R 에 관심이 생겨서 당장 뭐라도 해보고 싶은 사람들은 교재의 선택에 어려움을 겪을 수 있다. 나같은 경우 한 분야에 입문하기 위해서는 두꺼운 책보다는 얇은 책을 선호하고, 튜토리얼이 세세하게 느껴질 정도로 꼼꼼하게 되어 있는 책을 좋아한다. 이 책은 그런 조건에 부합하고 있다. 풀컬러이며, 책의 시작 부분인 R과 RStudio 의 설치 안내 부분도 빨간색 박스로 눌러야 할 버튼을 강조해가면서 길을 헤매지 않도록 친절하게 안내해주고 있다. github 과 출판사 홈페이지에서 소스코드도 제공하고 있다. 사실 입문서이니만큼 소스코드의 양은 많지 않지만 여기서 쓰는 데이터를 받기 위해 소스코드를 받아야 했다.정리하면 이 책은 초급자와 R을 처음 접하는 사람에게 좋은 입문서이다. 반대로 더 자세하고 많은 내용을 기대하는 중급 이상의 사용자들에게는 권하고 싶지 않은 책이다. 그런 분들에게는 시중에 이미 우리말로 되어 있는 두껍고 다양한 책들을 권하고 싶다.


    • 10월은 행운의 달인가!
      2권의 서적을 포스팅 할 수 있게 해주신 한빛미디어 관계자분께
      깊은 감사의 인사를 드리며 포스팅을 시작하겠다.
            

      이번에 리뷰할 서적은 '처음 시작하는 R 데이터 분석'이다.


       



      " 풍분한 실습과 4가지 실전 분석 프로젝트.



      현장 밀착형 실무 패키지 활용.


       



      바로 배워 바로 써먹는 R 데이터 분석. "


       


       



      1.jpg


       



      2.jpg


       



      3.jpg


       


       



      R이라는 생소한 데이터 분석용 언어를 가지고 여행을 떠나볼까 합니다.
      예전에는 찾아보기 힘들었지만 요새 서점에 가보면 R과 관련된 책이 매우 많아졌습니다. 하지만 데이터 분석, 그리고 R언어라는 생소한 개념 때문에 쉽게 구매하지 못하고 돌아선 분들도 많지 않을까 생각합니다.
      하지만 이 서적은 데이터 분석을 처음 접하거나 초보자도 쉽게 이해할 수 있도록 커리큘럼과 학습 방법까지 친절하게 설명해줍니다.
      즉, 입문자용 서적이라는 것이죠.

      데이터분석에 매우 관심이 많은 저는 흥미롭게 서적을 읽었습니다.
      여러분도 차근차근 따라해보며 저와 같은 기분을 느끼길 바랍니다.


       

       


       


       


       



      DAY 1


       



      R을 알아보자


       



      R이라는 이름은 단순히 R을 개발한 두 사람의 이름이 R로 시작하기 때문이다.


       



      R언어 소개. 장점과 단점, 그리고 설치까지.


       


       



      undefined


       



      5.jpg


       


       



      데이터 분석용 언어다! 라고하면 떠오르는 대표적인 언어가 두가지가 있다. 바로 '파이썬' 그리고 'R'이다.
      파이썬에 흥미를 많이 느껴 R은 처음 사용해봤지만, 파이썬 만만치 않게 재미있게 다뤘던 언어다.

      R 스튜디오를 설치하고 기본 환경 설정하는 부분은 서적에 매우 자세히 나와있으니 굳이 언급할 필요는 없는 것 같다.
      다행히 R 스튜디오는 윈도우, 리눅스, 맥OS 등 다양한 운영체제에서 동작할 수 있게 나왔으며, 통계 분석쪽에 활용할 수 있는 패키지가 많은 것으로 봐서 이 친구도 당분간 많이 가지고 놀 것 같다는 느낌이 들었다.

      환경설정과 폴더 설정을 끝내고 대충 인터페이스까지 훑어봤으면 실제로 서적에 나온 스크립트 코드를 적어보자.


       


       


       


       


       



      DAY 2


       



      데이터 분석, 수집


       



      분석 설계 -> 준비 -> 가공 -> 분석 -> 도출


       



      본격적인 패키지 사용


       


       



      6.jpg


       



      7.jpg


       


       


       


       



      재미있는 친구들이 나왔다.


      바로 데이터 분석 과정이다. 아마 프로젝트를 해본 분들은 이 흐름이 머릿속에 금방 들어올 것 같지만, 


      나는 입문자다! 하는 분들은 반드시 챕터2는 정독 해보길 바란다.






      데이터 분석이 왜 필요하지? 어디에 쓰이지? 데이터 분석의 장점은 그럼 무엇이지? 등등 많은 질문이 떠오르기 딱 좋은 챕터다.






      서적에도 나와 있지만, 데이터 분석은 과거 및 현재에 일어난 상황을 활용하여 현황을 파악하고, 앞으로 다가올 상황을 예측하거나 일어날 상황에 대해 타당한 근거 자료를 제시할 수 있도록 준비하는 과정이다.






      그건 과학자가 하는 것이 아닌가? 라고 반문할 수도 있지만 그건 과거의 이야기라고 생각한다.


      이제는 일반인도 마음껏 데이터를 가지고 놀 수 있는 환경이 주어졌다. 무조건 해보는거다!






      여기서 나오는 변수와 함수 패키지, 특히 3챕터에 나오는 데이터 구조 간 관계 파악하기는 매우 중요한 내용이다.


      많은 공부 후에 다행히 요점 정리와 연습문제도 나오니, 반드시 풀어보자.


       


       


       


       



      DAY 3


       



      데이터 가공, 패키지


       



      엑셀? 프로그래밍? DB?


       



      데이터 가공하기


       


       



      8.jpg


       



      9.jpg


       


       


       






       


       



      아마 엑셀을 좀 심화적으로 배운 분들 또는 프로그래밍, DB를 배운 분들은 연산자, 함수 사용, 전처리 등 많은 개념에 대하여 전혀 낯설지 않을 것으로 생각한다. 필요한 데이터만 추출하여 정렬하는 것이 엑셀에서 함수 사용하는 방식이랑 매우 흡사하다.

      그래서 더욱 흥미가 붙는다. 사실, 데이터를 분석하는 데 있어 중요한 것은 데이터를 분석하고 연구하는 것이지 엑셀, R, 파이썬 등 도구나 언어에 너무 크게 의존하는 것은 바람직하진 않다고 생각한다(물론 도구가 큰 편의를 제공하는 것은 부정하지 않는다)

      아무튼
      슬슬 어려운 용어와 함수가 나오기 시작하는 챕터다. DB도 다뤄본 분이면 더욱 수월 할 것 같다.
      결측 값이라던지 첨도, 왜도 등 평소에 듣기 생소한 단어가 나오기 때문에 정독할 부분도 많다.

      아! 이쯤 되면 데이터를 가지고 놀기 때문에 그래프도 함께 나오면 더욱 보기 편할텐데.. 라고 생각했는데 정말 딱!
      이 챕터에 그래프가 등장한다. 역시 사람은 많은 데이터를 표로 나타내는 것보다 그래프 하나면 끝이다.
      표현할 수 있는 그래프도 상당히 많기 때문에 이 부분도 다 따라서 해보길 바란다.

      나는 패키지 부분에서 시간이 꽤 걸렸다. 어려운 점도 있지만, 좋은 패키지가 너무 많았기 때문이다.
      CRAN 웹 사이트에 가면 기능별로 패키지를 분류해 놓았기 때문에 어렵지 않게 찾을 수 있다.

      개발자가 공식 사이트에가서 필요한 api를 공부하는 것과 같은 의미로 해석하면 편할 것이다.


       


       


       


       



      DAY 4


       



      재미있는 데이터 분석


       



      함수응용, 한글 분석.. 어라.. 재미있네?


       



      이녀석들 봐라!


       



      melt 함수 사용과 cast 함수 사용에 대해선 서적에 자세히 나와 있으므로, 이 부분은 반드시 구매하여 보길 권한다.


       


       



      10.jpg


       



      11.jpg


       


       



      정말 재미있는 녀석이 또 등장했다. 바로 한글을 분석하는 것! KoNLP 패지지다.
      우리가 평소에 그림으로만 접할 수 있던 시각화 된 자료를 이 녀석이 했던 거였구나! 하고 바로 느낄 것이다.
      한글 분석하는 패키지가 있는 것처럼 영문을 분석하는 패키지도 당연히 존재한다. 이 친구들도 시간이 있다면 사용해 보길 바란다.

      여기선 애국가로 텍스트를 다운받고 형태소 분석 및 실습을 진행하는데, 가장 재미있는 파트 중 하나였다.
      이 단어를 조합하여 워드 클라우드라는 것을 만들고 색상과 배경을 지정하면 끝! 원하는 이미지에 표시할 수도 있어 너무 재미있게
      배웠다.


       


       


       


       


       


       



      DAY 5


       



      데이터 가공 마법사


       


       



      역시 서적의 후반부답다.


       



      어렵다. 정독하라!


       


       



      나는 서적을 읽다 어려운 챕터를 만나면 한 숨 고르고 반드시 정독을 한다.
      여기선 이 챕터가 그랬던 것 같다.
      데이터의 생명은 신뢰다. 정확한 데이터를 얻어 사용자에게 좋은 양질의 데이터를 제공할 수 있어야 한다.
      데이터 가공에서 필수 패키지를 꼽으라면 단연 dplyr 패키지라고 하니, 여기를 대충 읽고 데이터를 논할 순 없을 것이다.


       


       


       



      undefined


       



      13.jpg



      패키지를 설치 및 로드하여 정렬하는것은 상관없지만, 여기에 들어가는 함수 하나하나가 생소하다.
      물론 영어의 의미를 단순히 해석하여 접근하면 크게 어려울 것도 없지만 각 함수에 붙은 인자가 무슨 역할을 하는지 정확히 알아야 되기 때문에 시간이 꽤 걸렸다.
      이렇게 데이터 분석을 하고 샘플을 추출하고 연결자까지 배우면, 드디어 데이터 분석의 꽃이라 불리는 '시각화'부분이 등장한다.
      아까전에 나왔던 내용보다 좀 더 심화적인 패키지를 사용하여 데이터 분석의 날개를 달아주는 챕터라는 생각이 들었다.

      다양한 그래프를 생성할 수 있고 객체 추가, 텍스트입력, 도형 그리기, 테마 적용하기 등 사용자가 알아볼 수 있게 정리하는 다양한 방법을 제공한다.

      특히 뒷 부분에 나오는 googleVis , ggmap 패키지 활용은 누구나 흥미를 느낄 수 있는 재미있는 패키지다.
      googleVis는
      구글이 제공하는 차트를 R에서도 사용할 수 있도록 지원하는 패키지며, 웹 브라우저를 통해 플래시 기반의 움직이는 그래프를 볼 수 있다는 점이라고 나온다.
      더욱 재미있는 ggmap 패키지는 구글 서비스를 활용할 수 있다. 편리하게 구글 지도를 가져와 사용할 수 있는 친구다.

      이렇게 패키지 활용까지 끝내면 대망의 프로젝트가 나온다! 설렌다! 생각보다 빠르게 왔다.


       


       


       


       







      DAY 6, 7


       



      데이터 분석 실전 프로젝트 I


       



      치킨집이 가장 많은 지역 찾기


       



      서울시 치킨집


       


       


       



      14.jpg


       



      15.jpg


       



      프로젝트 순서는 생각보다 간단하다.

      1. 업종별 데이터 다운로드 및 기초 가공
      2. 데이터 가공 및 트리 맵 표현













  • 처음 시작하는 R 데이터 분석


    저자 강전희, 엄동란



    출판 한빛미디어



    발매 2018.10.05.

















     















    <처음 시작하는 R 데이터 분석>












    이 책의 대상자는?














    많은 양의 데이터를 바탕으로 한 프로젝트를 기획 및 개발을 해야 하는 사람.
    빠른 시간 내에 R 프로그래밍 언어를 습득해야 하는 사람.
    데이터를 가공해서 차트로 표현해야 하는 사람.
    엑셀 데이터를 분석 및 가공하는 일을 하는 일반 사무직.














    이 책의 주제는?













    R 프로그래밍에 대한 입문 서적으로, 설치부터 기본적인 활용까지 빠른 시간 내에 습득해서 실무에서 적용할 수 있도록 하는 책입니다.














    이 책을 읽는 데 걸리는 시간?














    프로그래밍을 한 경험이 있다면, 2~3일 정도면 충분하고,
    사전지식이 없다고 하더라도 일주일 남짓이면 읽을 수 있습니다.
    책에서는 일주일을 기준으로 목차가 잡혀 있는데
    총 239페이지의 얇은 책으로,
    설치 및 기본 개념 설명하는 데에 하루로 잡혀 있을 정도로 널널하게 짜여 있습니다.
    그동안 엑셀 등으로 데이터를 다루는 일을 해온 경험이 있다면,
    (이해가 좀 더 빠르다고 가정하고) 일주일도 걸리지 않을 것 같아요~














    책의 짜임새














    일주일을 기준으로 1일차부터 7일차까지
    1일차 : 학습 및 준비하기
    2일차 : 데이터 수집 및 가공
    3일차 : 데이터 분석 과정
    4일차 : 데이터 행렬 전환
    5일차 : 한글 분석하기
    6일차 : 데이터 가공 마법사
    7일차 : 데이터 시각화
    로 로드맵이 짜여져 있습니다.















    <처음 시작하는 R 데이터 분석>













    간단한 설명과 함께 때로는 시각화된 자료가 처음에 나오고,
    또 간단한 예제와 결과가 나와 있습니다.
    연습문제도 있지만, 뭔가 하나 설명할 때마다 예제들이 있어서 학습한 걸 바로바로 적용할 수 있는 예제가 많다는 점이 마음에 들었어요.
























    특히 마음에 들었던 점은 여기서 잠깐! 이라고 해서,
    책을 볼 때 뭔가 '이렇게 해 보면 어떨까?', '이런 것도 되지 않을까?', '이런 건 왜 안 되지?' 라고 생각되는 부분이 있을 때 이런 의구심을 바로바로 풀어줬던 것입니다.
    팁도 많고 부가 설명도 있는 좋은 파트입니다.

    실무에 바로 적용, 응용할 수 있을 것 같은 실전 프로젝트도 네 개가 있습니다.
    (치킨집이 가장 많은 지역 찾기, 지역별 미세먼지 농도 비교하기, 트위터 키워드 크롤링으로 워드클라우드 그리기, 지하철역 주변 아파트 가격 알아보기)

    한 입에 쏙! 이라는 파워풀한 요약 정리 끝에 연습문제가 있다는 것도 좋은 구성이었습니다.
    학습한 것들을 한 번 시각화된 자료와 함께 정리를 한 후에 문제풀이를 하니까 머릿속에 더 잘 박히는 느낌!














    아쉬웠던 점?














    기획자나 개발을 막 시작하는 입문자용으로는 정말 좋았지만, 입문 서적이라는 것이 좀 아쉬웠네요..!!
    책의 구성도 좋고 설명이나 예제가 깔끔하고 보기도 좋아서 매우 마음에 들었는데,
    입문용인 만큼 깊이가 있는 내용을 "많이" 다루지 않았다는 것이 안타까웠습니다.
    보통 개발 서적의 두께를 생각하면 이 정도의 두께에 담을 수 있는 내용은 정말 모두 담았다고 봐야죠..!
    입문서가 갖춰야 할 것들은 모두 갖춘 책이지만, 그래서 아쉬운 책이에요...
    이 책의 저자가 이보다 깊이 있는 내용을 다룬 책을 쓴다면 살 의향 100%인데 말이에요 ㅎ;;








  • 새로운 것을 시작하는 것은 언제나 즐거운 일입니다. 그리고 그 새롭게 시작하는 일이 시대적인 흐름에 중심에 있는 일이라면 더욱더 즐겁고 기대가 되는데요. 이번에 소개드릴 책은 'R 네이버 분석'이라는 책으로 요즘 이슈인 빅데이터를 다루는 R 스튜디오 사용법과 실무에서 활용 가능한 여러 기능과 예시를 학습할 수 있는 책입니다. 사실 이 책을 접하기 전에  R 스튜디오에 대해서도 전혀 알지 못해서 어떠한 선입견 없이 새로운 프로그램 와 빅데이터를 다룰 수 있을 거라는 기대감에 여러 번 읽으면서 직접 실습을 해보았던 책이기도 합니다.  


     



    책에 대해서 소개를 하자면 앞서 말씀드린 것처럼 R 스튜디오에 대한 인문서이며, 직접 따라 할 수 있는 실습 예제와 함께 예제를 따라 했을 때 화면에 출력되는 결과들을 담고 있는 전형적인 프로그램 책입니다. 책의 디자인이나 구성은 한빛미디어에서 출판한 말끔 깔끔하고 필요한 내용들만 담겨있었고 다만 아쉬운 점이었다면 입문서인 만큼 조금 더 전문적인 그리고 실무에 가까운 활용에 대한 부분은 조금은 부족하다는 생각이 들었습니다. 



    책을 직접 따라 하면서 느꼈던 점이라면 R 스튜디오가 가지는 여러 장점들. 쉽고 간편하다 그리고 무료이다.라는 것을 느낄 수 있었고 다른 빅데이터를 처리하는 프로그램과도 비교하면서 읽어보았는데요. 프로그래밍에 대해서 전혀 모르거나 처음 빅데이터를 접하는 이들에게 R 스튜디오는 좋을 것 같다는 생각이 들 만큼 간단하면서 직관적인 부분이 많다고 생각이 듭니다. 또한 다른 측면에서는 가볍게 빅데이터의 개념에 대한 학습하고 싶으시다면  R 스투디오를 추천합니다. 그리고 다른 R 스튜디오에 대한 서적을 접하지는 못했지만 'R 데이터 분석'은 기본에 충실하면서 빅데이터와 R 스튜디오에 흥미를 느낄 수 있는 여지를 많이 남겨놓은 입문서라는 느낌을 받기에 충분했습니다. 


     



    책에 소개되어 있는 예제들은 처음 프로그램을 배웠을 때, 접하게 되는 여러 프로그래밍 입문서들과 비슷한 수준으로 작성되어 있는데요. 프로그램에 대해서 전혀 모르는 사람이라도 쉽게 접근할 수 있을 만큼 친절하게 설명되어 있었습니다. 또한 단순하게 보고 따라 하는 것이 아니라 왜 이렇게 사용하는지에 대한 이론적인 배경도 간단하지만 소개되어 있는 만큼 어렵지 않게 소개하고 있는 것이 가장 큰 특징이자 장점입니다. 


     

     


     

     


     



    다만 조금 아쉬운 점이 있었다면, 입문서인 만큼 처음 접하는 사람들에게는 좋은 책이지만 R 스튜디오를 어느 정도 사용을 하고 있고 프로그램에 대해서 공부를 한 사람들에게는 부족한 부분이 많이 느껴지는 책이기도 합니다. 실무적인 부분에서 크게 활용되는 부분인 통계 쪽 내용이 다른 내용들에 비해서 부족한 점은 이 책의 다음 시리즈가 나와야 하지 않을까?라는 생각으로 이어질 만큼 아쉬운 점으로 기억될 것 같습니다. 그럼에도 불구하고 앞서 말씀드린 기본기에 충실한 입문서인 만큼 빅데이터와 R 스튜디오에 대해서 관심이 있으신 분들이라면 첫 시작을 이 책을 선택하시면 후회하지 않을 겁니다. 


     

     


     

  • 바야흐로 정보를 다루는 것이 가장 큰 이슈로 작용하고 있는, 빅 데이터의 시대입니다. 분위기에 동조해서 초보자를 대상으로 만들어진 ‘처음 시작하는 R 데이터 분석’을 접하게 되었습니다.


     



    처음 시작하는 R 데이터 분석 이미지책은 320여 페이지로 얇은 편입니다.


    7일. 일주일안에 데이터 분석의 입문에 해당하는 지식을 익힐 수 있도록 구성되어 있습니다. 기대 됩니다.


     



    처음 시작하는 R 데이터 분석 이미지책에서 제시하는 로드맵


    당연하지만, 어디까지나 이 기준은 R에 대해 전체적이고 대략적인, 하지만 R에 친숙해질 수 있을 수준을 기준으로 하고 있습니다. 서점에 가보면 상당히 두꺼운 책들을 보신적이 있을 겁니다.


     



    처음 시작하는 R 데이터 분석 이미지1차원을 벡터라고 하는군요..


    각 장에서는 제목과 해당 장에서 학습하게 될 내용을 다루고 있습니다.


     



    처음 시작하는 R 데이터 분석 이미지각 예제의 화면


    각각의 예제는 명령어를 입력 화면과 실행 결과를 같이 보여 줍니다. 따라 하면서 화면에 어떤 결과물이 나와야 하는지 비교하면서 진행하기에 적합한 방식이라 생각되었습니다. 덕분에 틀린 곳을 빠르게 찾을 수 있기도 했습니다.


     



    처음 시작하는 R 데이터 분석 이미지학습에 도움을 주는 여기서 잠깐!, 팁, 주의


    페이지 곳곳에는 코딩시 주의해야 하거나 익혀두면 좋을 팁등이 있음으로 참고 하면서 읽으면 좋도록 구성되어 있습니다.


     



    처음 시작하는 R 데이터 분석 이미지각장의 정리를 하는 페이지 ‘한입에 쏙'


    각 장의 마지막에는 해당 장에서 다루었던 내용중 중요한 내용들을 모아두고 있음으로 나중에 찾아 보거나 할때 조금 수월할 것 같습니다.


     



    처음 시작하는 R 데이터 분석 이미지배운건 응용해 봐야 하죠! 연습문제 풀어보기


    뭐든 배웠으면 얼마나 이해하고 있는지 알아봐야 하는 관문이 있습니다. 마찬가지로 각 장의 마지막에는 연습문제가 있습니다. 이제 배우기 시작한 새내기가 얼마나 잘 이해하고 있겠습니까.


     


    다시 앞쪽을 뒤적이며 겨우겨우 풀어 봅니다.


     



    처음 시작하는 R 데이터 분석 이미지한글이 깨져 보이긴 하지만, 처음 만들어본 치킨집 분포 통계결과



    책을 보면서 계속 걸리던 부분이 한글 부분이었습니다. 콘솔에서 한글이 표시되지 않는 현상은 해결을 했지만, 그래프쪽에서는 해결을 보지 못한 상태입니다. 이 부분은 계속해서 방법을 찾아 봐야 할 것 같습니다.


     



    전체적으로 초보자가 따라하기 편하게 잘 만들어진 책이라 생각되었습니다. 다만 편집, 교정쪽의 정말, 살짝 아쉬웠던 부분을 지적하자면, P83~84의 코드실행부분일것 같습니다. 데이터를 가져오는 곳에서는 아무런 설정이 없었는데 실행결과 부분에서 갑자기 header = TRUE 라는 값이 붙어 있어서 다시 앞뒤로 다시 확인을 해보다 바로 아래쪽에서 옵션항목에서 다루는 것을 확인 했습니다.


     


    잘 따라가다가 KoLNP 플러그인 인스톨 부터 시간을 잡아 먹다가 그게 해결되니 이번엔 필터링 문제가 생겼습니다. 예제를 잘 따라했다고 생각했는데 어디서 문제인지를 모르겠기에 한참을 뒤적거리다 우연히 발견하게된 코드힌트기능에서 문제점을 발견했습니다. 책에서는 'filter()' 를 사용하고 있는 반면 코드힌트에서는 'Filter()' 로 대문자를 사용해야 하더군요. 정확한 이유는 모르겠지만 이것 때문에 한참을 돌고 돌았던 것 같습니다.


     



    이미 R을 어느정도 사용하고 있는 분에게는 추천드리기가 조심스럽습니다. 상당히 자세히 동작 하나하나에 대한 설명이 붙어 있는 관계로 초보자에게 적합하기 때문입니다.  R을 접하기 위한 스터디에서 교제로 사용해도 좋을 것 같다는 생각이 들었습니다. 혼자서도 따라하기 쉬운 난이도이지만, 익숙한 분이 조금씩 예제를 바꿔 가면서 진행한다면 좀더 재미가 있지 않을까 싶습니다.


     


    책에서 소개된 곳만으로도 초보자에게는 신기한 곳이지만, 통계데이터를 구할 수 있는 곳들을 이곳저곳 소개시켜 주었다면 좀더 좋지 않았을까 하는 아쉬움도 살짝 있었습니다.


  • [도서리뷰] 처음 시작하는 R 데이터 분석


     


     





    R을 처음 시작하는 또는 통계를 사용해 무엇인가 수치를 측정해보고 싶은 사람에게 딱 맞는 책이라 할 수 있다. 


    처음을 시작하게 도와주는 책 답게 앞으로 사용하게 될 프로그램의 기능이나 각 메뉴에 대해 자세히 설명하고 한글이 깨지는 문제 상황에 대해서도 적어주었다.


    분석에 사용될 데이터의 정의나 데이터 분석이 왜 필요한지 데이터 분석의 일련의 과정을 먼저 설명해주면서 데이터 분석을 왜 해야 하는지 데이터 분석이 어떤 상황에서 필요한지에 대해 잘 설명해주고 있다. 문과라면 어려울 수 있는 명칭이나 개념들은 그림을 사용해 설명하여 문과 계열의 전공자도 데이터 분석을 접하는 데 도움이 될 수 있도록 책을 구성한 점은, 실제 비즈니스를 하는 사람이나 경영을 하는 사람도 데이터 분석이 무엇인지 알 수 있게 해주고 더 나아가 기본적인 데이터 분석을 할 수 있도록 도움을 준다.


     


    책의 중반부부터는 데이터를 가공하는 과정에서 사용되는 기능들에 대해서 예를 들면서 보여주고 있다. 초보자를 위한 책답게 꼼꼼한 설명이 들어가 있어 독자의 이해를 돕고 있다.


    다만 초보자 위주의 책이고 실습 위주의 내용이 많다 보니 좀 더 어려운 기능이나 책에 없는 기능들에 대해서는 어떤 내용을 참고하면 좋을지에 대한 내용이 많지 않아 R이란 데이터 분석 언어에 대해 더 깊게 공부하고자 하는 사람에게는 오히려 정보가 부족해 정말 필요한 정보는 없다고 생각이 들 수도 있다는 느낌을 받았다.


     


    그래도 초보자가 보기에 충분한 예제들과 프로젝트로 진행하는 것들에 대해서는 데이터를 어디서 얻으면 되는지에 대한 안내와 더불어 가공하는 방법들도 상세히 다루고 있어 초보자가 접하여 R 언어를 익히기 위한 입문서로 좋은 책이란 것은 의심할 여지 없이 분명하다.


     


     



    [처음 시작하는 R 데이터 분석] 책의 자세한 내용은 [링크]에서 확인할 수 있다.


     

  • 1) 서평시작


     


    지은이 머리말에 적힌 대로 “데이터 분석에 처음으로 도전하는 사람을 위한 책” 이다.


    데이터 분석하는 과정 전체를 간단하게 설명 해주고, 데이터분석 실전 프로젝트 예제를 통해 전체 과정을 한번 실습 할 수 있게 해준다. 그 과정에서 프로그래밍 언어 R을 사용 하는 여러 방법을 알려 주고 있다. 


     


    2) 책의 구성


     


    7일 완성 학습 로드맵이라는 부제를 내세워서 챕터와 별개로 7단계로 학습할 과정을 나누어 제시하고 있다. 


     


    3) 학습준비하기


     


    작업환경 세팅은 항상 재미 있다.


     


    4) 데이터 수집 및 가공


     


    분석할 데이터를 준비 하는 단계이다. 그 전에 먼저 데이터 분석의 단계와, 데이터의 구조에 대해서 배운다. 데이터 세트, 데이터 프레임 등 모르는 용어가 막 등장 한다. 하지만 뭐 “다 아는 것들이구먼…”


    txt 나 csv 로 된 데이터를 불러오는 것은 늘상 하던 작업이지만, R 을 사용해서 하니 굉장히 편했다.


    데이터 분석을 위한 기초 통계 분석 함수를 소개 하는 부분에서는 약간 좌절이었다. 이래서 수학공부가 필요 하다.


     


    5) 치킨집이 가장 많은 지역 찾기


     


    불과 5장의 내용으로 원하는 목적에 맞는 결과를 도출 할 수 있었다. 그림을 빼면 정말로 얼마 되지 않는 내용이다.  


    도수분포표를 만들고 데이터프레임으로 변환 한뒤 이것을 트리맵으로 시각화 하는 과정이 간단하게 이루어 졌다.


     


    6) 감상


     


    대작 게임의 튜토리얼을 막 끝낸 느낌이다. 데이터 분석이 뭔지 잘 몰랐는데, 간단하게 나마 데이터분석에 대한 감을 잡을 수 있었고 기본적인 것을 배울 수 있었다.


     


    데이터 분석이라는게 데이터를 획득 하고 정리해서 잘 저장하는 것이 반이라는 생각이 들었다. 나머지 반은 데이터에서 무엇을 얻고자 하는지 하는 목적의식 및 domain knowledge.


     


    프로그래밍 언어 R에 관해서는 이게 왜 대표적 데이터 분석용 프로그래밍언어인지 잘 알것 같다. 생각보다 많은 작업을 정말 단순하게 할 수 있었고  정리, 분석, 시각화 까지의 모든 과정에 필요한 도구를 제공해 주는 것이 놀라웠다.


     


    반대로 R이 아닌 내가 알고 있는 프로그래밍 언어로 이 작업을 했을 때의 걸렸을 시간을 생각 해 보니 더욱 그러 했다. 다양한 언어를 배워야 하는 이유 이다.

  • #한빛미디어 #r데이터분석 엑셀로 비주얼 기능 최적화하고 #형태소분석 까지 _ #실무바이벌 이가 없음 잇몸으로 #자습으로 하나씩

  • 또 한권의 R 학습서를 읽었다.


     


    벌써 3권째의 R 학습서를 실습하면서 공부한 결과... 


    이제는... 자주 사용하는 패키지와 함수, 문법 등은 이제 눈에 익은 듯 하다.


    역시 공부는 반복학습이 최고인가 보다.


     


     


    이번에 "처음 시작하는 R 데이터 분석"을 선택한 이유는...


     


    1. R에 대해 여전히 관심을 가지고 있었고...


    2. 그 동안 2권의 학습서를 익혔음에도 불구하고, R 프로그래밍에 대한 지식의 부족을 느끼고 있기 때문이며,


    3. 한빛 미디어에서 발간한 신간이 궁금했기 때문이다.


     


     


     


    그럼 이 책에 대해 이야기 하자면...


     


    이 책은 R을 활용한 데이터 분석 방법에 대한 책이다.


     


    특히, 목차와는 별도로 7일간의 학습 스케줄을 제시하여, R을 공부하고자 하는 (나와 비슷한) 독자들에게 목표의식을 심어주고 있다.


    실제 내가 학습 스케줄을 따라해 본 결과, 하루의 학습분량을 따라가기에 큰 어려움은 없었다.


    R 프로그래밍 단기 완성... 정도라고 할 수 있겠다.


     


     


     


    그리고, 초보자를 위해 이해하기 어려운 개념은 간단한 그림(다이어그램)을 통해 알기 쉽게 설명해 주고 있다.


    기초적인 부분이지만, 잘 이해하기 힘든 데이터 구조에 관한 설명도 아래와 같이 그림을 활용해 알기 쉽게 설명해 주고 있다.


     


     


     


    R 스튜디오의 여러 가지 기능도 충실히 설명하고 있다.


    나는 R 스튜디오의 메뉴에서 원시 데이터를 불러오는 기능이 있단걸, 이 책을 통해서 처음 알게 되었다.


    생각보다 많은 기능이 있음에도 몰라서 활용하지 못함이 부끄러워지는 순간이었다.


     


    각 챕터의 마지막 부분에선 본문의 내용을 엑기스 형태로 정리를 하고 있으며, 연습문제를 통해 점검할 수 있도록 구성되어 있다.


    즉, 본문 학습 + 엑기스 정리 + 연습문제 = 3회 반복 학습.. 으로 구성되어 있다.


     


    데이터 분석 실전 프로젝트를 통해...


    "공공 데이터 수집 -> 정제 -> 시각화 -> 분석"까지의 데이터 분석 사례를 실습해볼 수 있도록 구성되어 있다.


    소위 고기를 잡는 방법(프로세스)을 직접 해볼 수 있게 유도하고 있다.


     


    인터렉티브 그래프나 워드 클라우드... 다른 책들도 다루고 있는 부분이긴 하다.


    그런데 사용하는 패키지나 방법이 달라서 실습해 보는데 재미있었다.


    (앞으로도 시각화 패키지는 계속 개발될테니, 자신이 잘 활용할 수 있는 패키지를 선택하면 될 듯 하다)


     


    하나 더, 이 책의 저자는 유튜브에서 강의를 제공한다. (유튜브 채널 : JANY)


     


     


     


     


    몇 가지 아쉬운 부분은...


     


    이 책에선 R이 가진 가장 중요한 장점인 "통계 분석 기법"에 대해서는 상대적으로 빈약하다.


    부록으로 "카이제곱 검정, t 검정, 상관분석" 정도만 간단히 소개하고 있다.


     


    초보자의 입문용 학습서라는 기획의도에 맞도록 맛보기만 수록했다는 설명이 있긴하지만... 


    왠지 아쉽기는 하다.


     


    사실 "통계 분석"이란 부분은 별도의 학문으로 정립이 되어있을 정도로 방대하면서 전문적인 부분이다.


    통계 분석을 조금 깊게 다룬다면... 책이 무척 두껍고 어려워 졌을 수도 있을 것이다..


     


     


    그리고 책 내용에서 몇 가지 오류를 발견했다. (데이터 파일은 한빛 미디어에서 다운받은 파일 기준이다.)


     


    1. "read.table()함수로 TXT 파일 가져오기" 챕터(83 p.)의 데이터 파일(data_ex.txt)의 내용이 교재와 다르다. 수정이 필요하다


    2. 125 p. 예제 파일(Sample4_y17_history.xlsx, Sample4_y16_history.xlsx)의 내용이 교재와 다르다. 파일내용 수정 후 사용하면 된다.


    3. 189 p. filter() 함수에 오타가 있다. 책에선 소문자로 filter()로 기재되어 있는 부문을 대문자 Filter()로 수정해야 제대로 실행이 된다.


    4. 그리고...  (트위터, 구글지도) API를 활용하는 부분에서 오류가 발생했다. 추가 작업이 필요한 것 같은데...


    이건 해결 방법을 몰라 실습해보질 못했다. (개인적으로 가장 아쉬운 부분이었다.)


     


     


     


    몇 가지 아쉬운 부분이 있지만...


     


    전반적으로, 이 책은 "R 데이터 분석 초보자의 입문서"라는 목적에는 충실한 책이라고 생각한다.


    소프트 웨어 인스톨과 기능에 대한 설명, 다이어 그램을 활용한 쉬운 소개, 공공 데이터 수집 방법과 정제방법...


    데이터 분석의 기본에 대해선 그 어느 책보다 충실한 입문서가 아닌가 생각된다.


     


     


    개인적으로 아쉬운 부분은...


    3권의 책을 공부해보고, 스터디도 했었지만 여전히 초보를 못 벗어났다.


    고수가 되려면 어떻게 해야 하나.... 고민이다.


     


    되고 싶다.. 고수...


     


  • 많은 입문자들이 데이터 분석 입문 언어로 R언어를 뽑고 있다. 파이썬과 다르게 R만의 장점이 있다는 것이다. 이 책은 R언어의 입문을 다루는 책이다. 따라서 초보자들이 R스튜디오를 설치하는 방법부터 시작해 데이터 분석을 시작하기에 적합한 책이다. 

    이 책에서 소개하는 관점은 다음과 같다.
    -전공을 막론하고 초보자가 쉽게 이해하고 따라 할 수 있는 상세한 설명
    -데이터 분석에 대해 체계적으로 이해할 수 있도록 기초부터 단계적으로 설명
    -분석 결과를 가시적으로 표현하는 시각화 기법에 대한 기본 설명
    -현장 밀착형 데이터 핸들링 기법 및 분석 기법에 대한 예시 활용







    본인의 실력에 맞게 알맞은 학습 로드맵을 정할 수 있다. 입문기를 다루고 있으며, R이라는 언어의 진입장벽은 낮기 때문에 7일만에 끝낼 수 있다.



     

















    챕터 구성은 초보자도 쉽게 이해할 수 있게 구성되어 있다. 프로그램 설치부터 기본기 다지기, 패키지와 함수에 관한 내용까지 다룬다. 패키지란 R언어에 필요한 기능을 추가하는 요소이다. 따라서 사용자가 필요한 패키지를 다운받아 쉽게 설치해 사용한다. 초보자에게는 패키지를 어떻게 활용하는지만 배워도 빠른 속도로 진도를 나아갈 수 있다.























    이제 실제 프로젝트를 진행하면 폴더 관리가 중요하다. 코드 실행에 있어 작업 폴더 영역을 설정하고 데이터가 있는 폴더를 구분해 좀 더 직관적인 코드와 구성이 가능하다.























    데이터 프레임은 R언어에서 중요한 데이터 타입이다. 리스트형의 확장 형태인 데이터 프레임은 데이터 분석을 좀 더 용이하게 해준다.























    R언어의 코드는 직관적이고 간단하며 사용자위주이다. 단 몇줄만으로도 의미있는 데이터 분석이 가능하다는 것이다. 보시다시피 단 한줄로도 변수의 중첩 부분을 정렬해 데이터를 나타낼 수 있다.
























    R언어에서는 패키지에 대한 이해가 필수이다. 물론 최근의 대부분의 프로그래밍 언어는 패키지와 라이브러리를 활용한 코딩이 대세를 이루기 때문에 패키지와 라이브러리를 원활히 사용할 줄 알아야 한다.

    R언어는 CRAN이라는 R언어 패키지 매니저를 통해 관리된다. 따라서 간단한 명령어를 이용해 패키지를 설치할 수 있다. 데이터 분석과 R언어에 필수적인 패키지와 유용하게 사용되는 패키지가 많이 소개되고 있다.























    워드클라우드란 단어의 빈도에 따라 글자의 크기를 달리해 시각적으로 빈도가 높은 단어와 낮은 단어를 쉽게 구분할 수 있도록 지원한다. 워드클라우드를 생성할 단어 데이터만 정돈되 있다면, 단 2줄만으로도 워드클라우드를 생성할 수 있다.























    ggplot2 패키지는 막대그래프, 꺽은선 그래프, 히스토그램, 산점도 등을 다양한 차트와 그래프를 나타낼 수 있는 R언어의 필수급 패키지입니다. 데이터를 이용한 그래프와 제목, 축 등 다양한 디자인 요소와 함께 googleVis패키지와 함께 사용하면 더욱 좋다.
























    R언어는 파이썬과 다른 언어들과 함께 데이터 분석에 있어 중요한 도구이다. 그 언어를 사용하는데 있어 수많은 입문서와 활용서들이 존재한다. 그 중 이 책은 R언어를 전혀 모르는 사람부터 시작할 수 있는 훌륭한 입문서이다. 쉬운 구성한 간단한 코드 구성 및 패키지 활용까지 다양하게 알려주고 있다. 















    "여러분을 위한 가장 기초의 R언어 입문서"

     












  • undefined


     



    한마디로 잘 정리된 요약서라고 표현하고 싶어요.


    더이상 할 말이 없어요. ㅋ


    이 기준으로 책 사실때 판단하시면 좋을 것 같아요.


    누가 읽으면 좋을까 했을때, 요약서도 선호도가 많이 갈리잖아요.


    어떤 지식을 처음 접했을 때, (1) 일단 간단하게 요약된 것을 보고, 깊숙하게 공부하는 사람이 있는가 하면, (2) 책은 좀 두껍지만, 초보자를 위해 상세하게 설명한 책을 좋아하시는 분들이 계시잖아요.

     



    이 책은 전자에 가깝습니다.

     



    SAM_6718.JPG


     



    목차를 보시면, 최근 R 에서 자주 사용하는 패키지 등을 사용합니다.


    가끔 시대에 뒤떨어지는 패키지를 사용하는 책들도 있는데, 뭐 무난합니다.

     



    저는 요즘 tidy 시리즈로 R 을 사용하거든요. 그래서 기본 함수보다 tidy 계열 함수를 더 선호한답니다. 이 책은 완전한 tidy 라기 보다는 대중성을 고려한 것 같아요.

     



    SAM_6719.JPG


     



    이 책의 좋은 점 중 하나가, 간단하지만, 우리가 놓칠 수 있는 것들을 잘 설명한다는 점입니다.

     



    팁을 잘 보실 필요가 있습니다.

     



    undefined


     


    R 스튜디오 작업 환경 설정 설명도 잘 되어있습니다.


     



    undefined


     



    이론 설명도 군데군데 그림과 함께 간결하게 설명하고 있습니다.


    이점이 장점이자 단점입니다. 간결해서, 기존에 통계나 R 을 공부하신 분들은 쉽게 쉽게 그냥 그냥 넘어갈 수 있지만, 처음 시작하시는 분들은 참 어려울 수도 있습니다.

     



    R까기2 처럼, 이런말 저런말로 상세하게 설명한 책이 처음 하시는 분들에게는 더 도움이 될 수도 있습니다.

     



    SAM_6724.JPG


     


    깨알같은 주의 표시. 사실 핸즈온때 뒤에서 보조강사하다보면 의외로 이런 곳에서 많이 막힙니다.


     



    SAM_6725.JPG


     


    어떤 데이터분석 책에서나 나오는 워드 클라우드. 간혹 별다른 설명이 없기 때문에, 때로는 본인이 많이 검색하고 따로 공부하셔야 이해하실수도 있습니다. 뭘 공부해야 하는지 단초를 알려주는 느낌을 군데군데서 느꼈습니다.


     



    SAM_6726.JPG


     


    R 데이터분석의 핵심인 dplyr 을 따로 챕터를 뽑아서 하나하나 설명해 놓았습니다. 저는 간결한 설명이 좋았습니다.


     



    SAM_6727.JPG


     


     



    마지막에는 실습을 할수 있도록, 데이터 처리 전 과정을 따라해봅니다. 


    실습 주제도, 별로 어렵지 않은 내용들이라서 이해가 쉽습니다.

     


     


    이 책은 원래 요약서를 좋아하시거나, 전에 R을 조금 공부했는데  다시 공부하고 싶으시거나, 정리집이 필요하신 분들이 찾아보기용으로 옆에 두시면 좋을 것 같습니다. 책도 얇아서 들고 다니기 좋습니다. 사실 이 책에 나오는 내용들만 제대로 이해하고, 사용해도 엄청나니까, 이 책으로 여러번 반복하시면, 그 외에 조금 더 깊은 이야기들도 쉽게 공부하실 수 있을꺼에요. ^^








  • 한빛미디어 9월 리뷰 이벤트!
























    아주 잘 도착했습니다:) 

    외관부터 깔끔하고 두깨도 타 프로그래밍 언어와 달리 얇은(?) 편이라 마음에 들었습니다.
    '7일 완성 로드맵' 이라는 문구가 더 끌려서 원했는지도 모르겠습니다.

    7일 완성 과정은 다음과 같습니다.
























    1일차 학습 준비하기
    2일차 데이터 수집 및 가공
    3일차 데이터 분석 과정
    4일차 데이터 행렬 전환
    5일차 한글 분석하기
    6일차 데이터 가공 마법사
    7일차 데이터 시각화
    (목차도 대략 같은 맥락으로 진행된다.)

    여느 프로그래밍 책처럼 "Hello World!" 출력하는 것이 나옵니다.(반갑)
























    R프로그래밍은 처음이라 설치하는 것부터 따라해보았습니다.
    간혹 다른 책을 보면 중간에 생략된 것이 있어서 진행 사항에서 불편했던 기억이 있었는데,
    이건 깔끔+정확하게 나와 술술 넘어갔습니다.
    다양한 예제 덕분에 새로 접하는 함수도 어렵지 않게 익힐 수 있었습니다.
    또한, 챕터마다 요점 정리와 연습문제가 실려있어서 해본것을 다시 되새김할 수 있어 좋았습니다.
    ※ 책 속 예제들은 한빛미디어 홈페이지에서 다운로드할 수 있습니다.


































    (+) 참고로 유투브 채널에 동영상 강의도 있습니다. 
    직접 해당 유투브 채널로 가 보았는데, 전체 강의가 다 올라와 있지는 않고 현재 2강까지 업로드되어 있었습니다. ( 10월 10일 기준 ) 이해하는 데 도움이 될 듯 싶습니다.

    한줄평: 구성이나 내용 정리가 깔끔하다. 
    (but!! 7일 완성은 조금 무리가 있었습니다...)













     








     


  •  



    책 제목 : 처음 시작하는 R 데이터 분석



    저자 : 강전희, 엄동란



    출판년도 : 2018.10.05









     






    최근 데이터 사이언티스트라는 직업에 관심을 가지게 되었는데 마침 기회가 되어


    데이터 분석의 첫 발을 이 책을 통해 내딛게 되었다.


     


    책 표지에 있는 "치킨집이 가장 많은 지역은 어디?" 라는 문구가 무척 익숙하다.


    티비에서 가끔 치킨집이 얼마나 있고 어디에 가장 많이 있는지 분석을 해  주는데


    내가 직접 데이터를 분석해서 할수 있다니!


     


    항상 가장 꼼꼼하게 읽는 책 머리말을 보면 이 책의 정확한 타겟층을 알 수 있다.



    나처럼 데이터 분석에 처음으로 도전하는 사람을 위한 책이다.


     





     







    책의 내용을 살펴보면...



    책이 기초서라 그런지 무려 "7일 만에 끝내는 R 데이터 분석" 이다.


    R 데이터 분석을 위해 프로그램 설치부터 데이터를 수집 및 가공하고 분석하는 과정을 


    단계별로 학습할 수 있도록 구성이 되어있다.


     





     


     


     


    프로그래밍을 접한지 15년이 되었지만 처음 접해보는 R 언어.



    초보자를 위한 책 답게 R언어란 무었인가 부터 어떤 프로그램을 설치해서 



    어떻게 시작해야하는지 잘 설명되어 있다.


     








     


    그 이후로는 데이터를 분석하는 방법, 형태, 구조, 관리등에 대해서 설명하고


    데이터를 저장 및 불러오기, 처리하는 방법에 대해서 설명한다.


    어느 정도는 지루한 문법 및 개념이 힘들 때 즈음 여러 패키지를 사용하여 몇몇가지


    시각적인 프로젝트를 만들며 기존에 배웠던 내용들을 활용할 수 있게 구성되어 있다.


    그리고 실적 프로젝트로 "치킨집이 가장 많은 지역 찾기", "지역별 미세먼지 농도 비교하기",


    "트위터 키워드 크롤링으로 워드 클라우드 그리기", 지하철역 주변 아파트 가격 알아보기"


    를 직전 만들어 보면서 배움의 재미를 더해준다.


     


     





     


     


     



    책을 읽으면서 마음에 들었던 부분은...






    유튜브 인강 링크


     



    나의 기준에 있어 전공서는, 특히 입문서는 어떻게 해서든 독자에게 정보를 쉽게 전달해 줘야 한다고 생각한다.


    기술관련 전공서는 내용자체가 기술에 대한 설명이라 딱딱해서 쉽게 지치기 마련이다.


    그러므로 입문서는 쉽고 가볍게, 장황한 설명보다는 같이 해나가는 방식으로 호기심과 흥미를 유발해야 한다.


     



    이 책은 예제 자체도 생활과 밀접한 내용으로, 흥미있을 만한 주제로 진행이 되고,


    프로젝트가 실습형이라 따라하면서 실제로 구현되는 걸 보며 보람도 느낄 수 있다.


    그리고 저자가 제공하는 유튜브도 입문자에게 꽤나 유용하다.


    개인적으로 치킨집 분석과 아파트 부동산 실거래가 분석은 나에게 무척 흥미로운 주제였다.


     


     


     



    책을 읽으면서...


    요즘 새롭게 떠오르는 직군인 데이터 분석에 있어 가벼운 마음으로 쉽게 접근할 수 있는 책인것 같다.


    책이 담고있는 분량과 내용도 초보자에게 부담스럽지 않고 좋았다.


    데이터 분석이 어떤 일이고 어떻게 하는지 간단히 맛보고 싶다면 이 책이 좋은 시작점이 될 것이다.



    이 책을 통해 데이터 관리, 분석에 대해 쉽고 재미있게 접근해 볼 수 있었다.


     


     


     


     



    Reference Link



    r download



    예제 파일 다운로드



    책 소개 및 목차, 구매 (한빛미디어)



    저자의 동영상 강의


     

  • 제목 :  처음 시작하는 R데이터 분석


     



    수정됨_처음시작하는R데이터분석.jpg


     


    그동안 R에 대해 많이 들었고, 빅데이터니 뭐니 해서 언젠가는 꼭 해보고 싶었는데, 어려운 책들이 많았습니다.


    다행히, 이 책을 통해서 용기를 얻었네요. 어렵게만 생각했던 R을 이제는 편하게 대할수 있었다는것이 성과라고 할 수 있겠네요.


     


    제 경우, 통계학은 잘 모르고 수학도 못했는데도 불구하고 내용이 어렵지 않았습니다. 


    최대한 쉽게 설명하려는 의도였는지도 모르겠습니다.


     


    외형적인 특성을 보자면, 그림이 많고 다양한 색상으로 편집되어, 편하게 읽을수 있었습니다.


    가독성도 좋습니다.


     


    다행히도 페이지수가 많지 않아서 "이 정도는 충분히 할 수 있겠다"는 생각이 들었습니다.


    그래서, 7일만에 끝낼수도 있겠지만, 휴일 하루 날잡아서 처음부터 끝까지 따라하면 하루만에도 가능할것 같습니다.


    (다만, 어떤 실습을 하던, 타이핑 실수등의 문제로 의도치 않은 결과가 나올때도 있어서 중간에 포기하거나 시간이 좀 더 걸릴수도 있습니다)


     


    장점이면서 단점인데, 입문서라서 모든 내용이 다 있지는 않겠지만, 한발 더 나아갈수 있는 계기가 될 수 있을듯 합니다.


     


    로드맵을 꼭 확인해서, 이 책이 어떻게 구성되었는지 확인한후, 깃헙에 나와있는 데이타를 다운받은후 실습을 시작하세요.


    유튜브 동영상도 있긴한데, 책만으로도 충분할듯 싶습니다.



    수정됨_로드맵.jpg


     



    수정됨_깃헙_유튜브위치 (2).jpg


     


     


    실전프로젝트에 나와있는 치킨집 분석을 우리동네로 적용해 보니, 꽤 재미있는 실습이 되었습니다.


    이 자료를 통해, 어디에 치킨집을 해야할지 결정하는데 큰 도움이 될것 같습니다.


    (그렇다고 치킨집을 한다는것은 아닙니다 ^^)



    undefined


     


     





  • 최근 계속해서 R책을 보고 있다. 결국 원하는 건 세이버매트릭스 분석을 따라해보고 싶은건데, 꾸준히 안 본 탓도 있지만, R코드가 왠지 눈에 잘 들어오지 않아서 그렇기도 하다(특히 index가 1부터 시작하는 부분은 굉장히 어색함). 그래서 더 초보용 책을 보는 중인데, 이번에 보게 된 책은 정말 초보자들에게 유용할 거 같다. 물론 프로그래밍을 모르는 사람이 보면 다를 수도 있겠지만, 이 정도면 솔직히 떠먹여주는 급이 아닐까 생각한다.


    초보용 책이라고 하더라도 그 안에서 다시 난이도가 나뉜다고 생각하는데, 이 책은 그 중에서도 낮은 난이도를 갖는다. 책의 품질이 안 좋다는 게 아니라 오히려 보기 쉽게 잘 정리해서 품질이 좋다는 뜻이다. 각 장마다 연습문제가 있는 걸 보면 교재용으로도 의도한 거 같은데, 이 역시 목적 달성을 위해 좋다. 소소하게는 전체가 컬러로 되어 있는 점도 보기 좋다고 생각한다.


    실습



    초보자용 책이기도 하고 프로그래밍 책이기 때문에 설치부터 설명을 하는데, 지난 번 다른 책을 보면서, mro version 설치를 하다 문제가 생겼고, 시간이 없어 재설치를 못해 R Studio를 사용할 수 없는 상황이었다. 어떻게 할까 하다가 우연히 https://rstudio.cloud를 알게 되어서, 이 참에 테스트를 해봐야겠단 생각이 들어 여기서 실습을 진행해봤고, 한글 문제만 제외하면 초보자들에겐 정말 적절한 사이트란 생각이 들었다. 아래 스크린샷처럼 대부분의 코드가 잘 동작했다.


    p55, 기본 변수 설정


    p81


    p81, readxl 설치


    p81, readxl 설치 후 엑셀 파일을 읽어 살펴보기


    p105, 엑셀 파일 속성, 행/열 개수, 열 제목 확인


    p107, dplyr 설치 후 ID를 ID_NUM이라고 변경해봄


    p168, R에 내장된 airquality data set을 이용해 reshape2 기본 동작 테스트


    p225, R에 내장된 economics data set을 ggplot2로 사선 그리기


    실습 프로젝트


    마지막에는 4가지의 실습 프로젝트 코드를 보여주는데, 간단한 분석이라면 이런 코드를 가지고 조금만 수정하면 잘 쓸 수 있을 거 같다. 3번째 project는 한글이 깨져서 워드 클라우드를 그려봐야 제대로 나오지 않으므로 하지 않았고, 4번째 project는 csv file을 그냥 upload하면 encoding 문제로 사용할 수 없어 iconv로 utf8로 바꾼 후 해봤지만 결국 실패했다. R studio 문제를 해결하면 다시 해보고 싶다.


    project 1






    treemap에서 한글이 깨진 점만 제외하면 실행이 잘 된다


    project 2








    역시 boxplot에서 한글이 깨지는 점만 빼면 잘 된다


    기타


    책에 나온 실습 코드를 진행하면서 psych, descr, reshape2, extrafont, wordcloud2, ggplot2, googleVis, ggmap, treemap은 전부 설치하고 실행하는 데 문제가 없었고, 딱 하나 문제가 발생했다. 한글 분석을 위한 “KoNLP”인데, 오류가 발생해서 몇 가지 시도를 했지만 결국 실패를 했다. 이 부분 역시 R Studio문제를 해결하면 다시 해보고 싶다.


    KoNLP 설치 실패


    locale을 바꿔서 다시 해보려 했으나 역시 실패


    localeToCharset()의 결과를 보면 되야 할 거 같으나 실패



    KoNLP 문제 해결을 위해 참고했던 link들
    https://github.com/haven-jeon/KoNLP/issues/53
    http://hreeman.tistory.com/174
    http://euriion.com/?p=154
    http://r-bong.blogspot.com/2016/03/rstudio_26.html



  • IMG_20181001_140510_781.jpg


     


    #한빛미디어


    #나는_리뷰어다


     


     


     



    "한 권으로 끝내는 R 로 하는 데이터 분석 입문의 모든 것"


     


     


     


     


    최근에 인공지능에 대해서 공부하면서 


    케글Kaggle이라는 사이트를 통해서 


    여러가지 도전과제들을 해보는것을 목표 삼고 있었습니다.


     


    인공지능을 딱! 하고 입문을 하고 나니


    정말로 크게 다가오는 것은 


    뭐니뭐니 해도


     


    데.이.터.


     


    였습니다.


     


    아시는 분은 아시겠지만 이 데이터라는걸 제대로 분석을 해두는 것만으로도 


    굉장히 큰 도움이 되기 때문입니다. 


     


    그래서 데이터 사이언스 관련된 책들을 보던 찰나에 


    데이터 분석용을 위한 R 이라는 언어가 눈에 들어왔습니다.


     


    그런데 막상 데이터 분석 쪽도 공부해야하고


    R에 대해서도 알아야 한다 라는 막연한 두려움이 있었죠.


     


    그러던 찰나에 한빛미디어의 나는_리뷰어다 9월 리뷰로 당첨된 도서가


    뙇!!


     


    바로 이 <처음 시작하는 R 데이터 분석> 이었습니다. !! 


     


     


     


     



    01 - hello world.PNG


     


     


     


     


    막연한 두려움을 갖고 책을 보기 시작했는데 


    오우야


     


    마치 바로 앞에서 손을 붙잡고 계단을 올라가는 것처럼 


    책에 나와있는 것을 하나하나 따라하면서 나아가다보면


    큰 어려움 없이 따라가는 부분들이 많았습니다.


     


    R에 대해서 쉽게 설명이 되어 있고 


    그런 R과 데이터 분석에 대해서도 


    책의 제목처럼 처음시작하는 사람들을 위해 친절하고 이해하기 쉽도록 설명을 잘 하고 있습니다.


     


    어느정도 프로그래밍을 할줄 아는 사람이라면 누구나 쉽게 


    그리고 설령 프로그램에 대해서 잘 모른다고 하여도 


    책에 나와있는 설명대로 따라한다면 어느순간 자기도 모르게


    마치 엑셀이나 파워포인트를 다루는 것처럼 R 이라는 언어와 R 스튜디오라는 도구를 통해서


    책이 보여주는 것들을 따라하며 이해하는 모습을 볼 수 있었습니다.


     


    R 이라는 언어와 데이터 분석이라는 분야와 상관없이


    초보자들도 이해하기 쉬운 방법으로 이야기하며 


    책에 나와있는 커리큘럼대로 따라할 수 있게 만든


     


    "자! 밥상은 차려놨으니 숟가락만 가지고 와!


    아 미안, 숟가락도 있다 몸만 와!"


     


    같은 느낌이랄까요?! 


     


     


    데이터 과학에 관심이 있고 


    데이터 분석을 해보고 싶으며


    R이라는 언어도 궁금하지만


    약간의 두려움을 가지고 계신 분이라면


    적극 추천합니다! 

  • 요즘 4차산업혁명시대가 대두 되면서 인공지능이나 빅데이터 관련된 부분이 이슈가 되고 있는데요...


    그 중에서 빅데이터 관련되어 R 데이터 분석이나 통계 관련된 내용을 심심치 않게 볼수가 있었어요.






    그런데 저는 아직 R 프로그래밍이란 것이 무엇인지 접해 볼 생각도 못했고 접해 보지도 않았었는데 이번에 한빛미디어에서 출판된 처음시작하는 R데이터 분석이라는 책을 만나게 되었네요.







    R데이터분석






    처음 보았을때 첫 표지에 7일 완성 로드맵이라는 글자가 왠지 거슬리더라구요.^^ 


    일반적으로 책을 사면 20일 완성... 몇일 완성 이렇게 되어 있는데 정말 책을 읽다 보면 그 몇일안에 완성하는 것이 얼마나 어려운지 매번 깨닫기 때문에 이 R데이터도 어떻게 7일만에??? 라는 느낌을 갖고 있으면서 책장을 넘겨 보았어요.


    하지만 책장을 덮을때 쯤에는 7일 완성 로드맵을 적어 놔도 되겠다는 생각을 갖게 되더라구요.






    1장에서는 빅데이터와 R의 장점과 단점, R프로그래밍 설치 하고 실행하는 방법 들에 대해서 다루고 있는데요...


    저는 1장을 보면서 가장 좋았던 부분은 한입에 쏙 부분이었어요.













    R 스튜디오를 설치 하고 나서 단축키를 사용하는 방법에 대해서 자세히 다뤄 놓았더라구요. 일반적으로 프로그래밍을 다룰때 단축키를 사용하는 부분은 코딩하는 속도를 무척이나 단축 시켜 주지만 이렇게 정리가 되어 있지 않으면 익숙해 질 때까지 단축기가 무엇인지 찾는데 많은 시간을 허비 하는 경우가 많기 때문에 이렇게 주로 사용하는 기능들에 대해서 정리 해 놓은것이 참 마음에 들더라구요.






    2장부터는 본격적으로 R프로그래밍을 사용하기 위한 준비 작업과 문법적인 부분들을 설명하고 있는데요.


    이 책을 읽다 보니 처음에는 파이썬 인가? 라는 생각이 들었네요.^^






    사용하는 방법이 무척이나 파이썬과 닮아 있었기 때문이었는데요. 파이썬 만큼 많은 기능이 있지는 않다고 하네요.^^ 대신에 데이터 가공하는 면에서는 월등하기에 빅데이터 관련 프로그래밍이겠죠.^^






    4장 이후에 본격적인 빅데이터 관련된 자료를 보면서 엑셀기능과 많이 유사하구나 하는 생각이 들었는데요.


    이러한 엑셀이나 TXT 데이터를 불러 와서 데이터 가공하는 능력이 정말 대단하다는 생각이 들더라구요.






    물론 자료를 가공하기 위해서는 명령어를 알고 넘어 가야겠지만 일반적인 TXT 파일로 된 데이터를 이렇게도 가공할 수 있겠구나 하고 느끼게 되었네요.






    제가 엑셀을 그렇게 썩 잘하지는 못하지만 엑셀에서 구현하지 못하는 기능들(제가 엑셀을 전체를 다 알고 있지는 못해서 어쩌면 구현이 가능 할수도 있습니다.) 을 단 몇줄의 코드로 데이터를 가공하는데는 정말 신선한 충격을 받기도 했네요.






    마지막 파트 데이터분석 실전 프로젝트에서는 치킨집이 가장 많은 지역 찾기 또는 지역별 미세먼지 농도 비교하기 등....


    실제 사이트에서 데이터를 다운 받아서 가공하면서 R 프로그래밍을 직접 다루기도 하고 트위터 API를 활용하여 위드클라우드로 표현하는 방법등을 실습하면서 R 프로그래밍의 매력에 빠져 볼 수 있었네요.







    자세한 정보는 한빛미디어 홈페이지 - http://www.hanbit.co.kr/store/books/look.php?p_code=B6952054209 에서 미리보기를 해 보실 수 있습니다.






    이 책을 읽기 전에는 R 프로그래밍이 무엇인지 무척 궁금하기만 했었는데...


    이 책을 읽고 나니 R 프로그램이란것이 무엇인지 알 수 있게 된것 같네요.






    이 책은 갑자기 R 프로그래밍을 해야 하는분이 쉽게 접근 할 수 있게 구성이 되어 있고요.


    프로그래밍을 전혀 모르는 사람도 그냥 교재에서 나오는 데로 따라만 하면 하나 하나 결과를 볼 수 있게 구성이 되어 있어서 누구라도 무난하게 따라 할 수 있을것 같네요.






    특히나 제가 생각하는 장점은 실습위주라서...( 사실 프로그래밍 공부는 실습 하고 결과 나오면서 문법을 분석하는 것이 좀더 실감 나는 것 같아요) 지루 하지 않게 볼 수 있는 점이라고 생각 하고요.






    회사 관리자 분들도 그냥 가볍게 R 프로그래밍이 무엇인가 하고 보셔도 괜찮을것 같아요.


    이 책을 읽다 보면 이런 데이터를 이렇게도 가공할 수 있네? 라는 생각이 드니 엑셀에서 어렵게 가공하거나 데이터베이스에서 테이블 만들어서 가공하고 다시 추출하고 이러한 과정 없이도 명령어 몇개에 가공 되는 것을 보면...


    업무 특성에 맞춰서 어떤 것을 사용하면 좋을지 안내해 주는 역할을 하셔도 손색이 없을것 같네요.^^






    그리고 실제 업무를 하시는 분들도 그냥 가볍게 읽어 보시고 엑셀에서 처리하지 못했던(?) 아니면 어렵게 가공해야 했던 일들을 가볍게 가공할 수 있다는 것을 배워 두시면 데이터 가공 할때 특성에 맞게 사용하신다면 선택의 폭이 넓어질 것이라고 생각이 드네요.






    학생들 입장에서는 나중에 업무에서 필요할때 읽어 봐도 될만한 책이라고 생각되기에 미리 공부해 둘 필요는 없을것 같아요.


    그래도 궁금한 학생이 있다면 훑어 보면서 이런 기능들이 있고 이런 것을 만들때 사용하면 좋겠다 라는 정도로 이해 해 둔다면 혹시라도 나중에 프로젝트 할때 많은 부분에서 유리 할 수는 있겠네요.^^


  • 최근들어 빅데이터, 인공지능으로 데이터의 처리가 많은 관심을 받고 있습니다. 그중에서도 데이터 처리를 위한 R언어가 주목을 받고 있습니다.







    초보자들이 놓칠 수 있는 세세한 부분까지 과할 정도로 설명이 되어 있습니다. 프로그램에 대한 첫입문을 한 분이거나, R을 처음으로 접하는 분들은 쉽게 따라하실 것이라 생각이 듭니다.







    R스튜디오와 코드로 작성하는 방법에 대해서 상세히 비교 설명합니다. 또한, 데이터를 처리할 수 있는 페키지와 처리 함수들에 대해서 소개를 합니다. 마지막에는 이둘을 이용하여 공개데이터를 받아 처리하는 실습을 같이 해볼 수 있는 부분까지 설명이 되어 있네요.


     



    짧은 시간 부담없이 읽을 수 있는 책입니다.

  • 컴퓨터 언어의 세계를 떠난 지가 한참 되어서 요즘에 어떤 언어가 각광을 받는지 어떤 언어가 나왔는지는 잘 모른다. 가끔 이런 책을 받을 때 잠시 그 세계로 들어가 보기도 한다. 다소 생소한 R이라는 언어는 대체 어디에 사용하는 것인가. 데이터 분석이라고 하면 빅 데이터와 떼려야 뗄 수 없는 관계다. 


     


     


     


     


    생각 외로 R은 최근에 나온 언어가 아니었다. 벨 연구소에서 만든 S프로그래밍 언어를 참고하여 누구나 사용할 수 있도록 만든 R은 1993년에 처음 소개되었다. 그리고 그 언어는 빅데이터 시대가 도래한 이후에 거대 IT기업에서 사용하면서 알려졌다. 1분 동안 구글은 무려 69,500,000건의 단어를 번역한다고 한다. 빅데이터는 대용량의 데이터와 데이터의 가용성, 데이터의 기하급수적인 성장 속에서 의미 있는 정보를 뽑아낸다. 


     


     


    R의 공식 웹사이트는 https://www.r-project.org/ 로 들어가면 CRAN Mirrors에서 R설치 파일을 다운로드할 수 있다. 책에는 다운로드하고 각종 설정을 할 수 있도록 자세하게 안내하고 있다. 그리고 마무리가 되면 스크립트 생성 및 코드를 실행하면 되는데 코딩 좀 해봤다는 사람은 모두 안다는 "Hello world!"를 출력하면 끝이다. 


     


    프로그래밍을 해본 사람이라면 이 책을 이해하는 데에는 큰 어려움은 없을 것이다. 프로그래밍할 때 역시 변수, 함수, 패키지가 사용되는데 R도 똑같이 사용하여 작업한다. 패키지를 설치할 때도 패키지를 로드할 때도 사용하는 형식은 아래와 같다.


     


     


     


    install.packages('설치할 패키지명')


     


    library (로드할 패키지명)


     


     


    데이터 종류는 단일형인 벡터, 행렬, 배열이 있고 다중형으로는 리스트, 데이터 프레임이 있다. 책을 읽다 보니 책에서 다루고 있는 것이 통계학과 분석에서 많이 겹친다는 것을 볼 수 있다. 연산자와 비교 연산과 논리 연산, 데이터 추출부터 정제까지의 과정은 통계학의 신뢰성을 확인하는데 필수적이다. 앞에서 풀어서 설명한 후에 챕터가 끝날 때에는 요약을 해서 이해하기 쉽도록 핵심만 정리하고 있다. 그리고 연습문제를 같이 실어놓았다. 


     


     


    TV의 시사나 예능프로에서 흔히 볼 수 있는 워드 클라우드는 R로도 만들 수 있다. wordcloud2() 패키지를 설치하면 되는데 기본형 워드 클라우드를 생성하는 것이나 배경 등 색상 변경하고 모양 변경 등을 할 수 있다. 


     


     


     


    선택한 색상만 반복되는 워드 클라우드


     


     wordcloud2(demoFreq, size = 1.6, color = rep_len(c("red", "blue"), nrod(demoFreq)))


     


    원하는 이미지에 워드 클라우드 표시하기


     


     wordcloud2(demofreq, figPath = "peace.png")


     


    일정한 방향으로 정렬된 워드 클라우드


     


    wordcloud2(demoFreq, minRotation = -pi / 6, macRotation = -pi / 6, rotateRatio = 1)


     


     


     


    책의 뒤에는 데이터 분석을 위한 실전 프로젝트를 담아두었다. 치킨집이 가장 많은 지역 찾기나 지역별 미세먼지 농도 비교하기, 트위터 키워드 크롤링으로 워드 클라우드 그리기, 지하철역 주변 아파트 가격 알아보기 실습을 따라 해 볼 수 있다. 예를 들어 대전의 한 지역의 치킨집 분포를 알아보려면 아래처럼 시도하면 된다. 


     


     


     


    01 http://www.localdata.kr/  에서 지역별로 다운로드할 수 있는데 대전광역시의 [다운로드]를 누른다.


    02 다운로드한 대전광역시 데이터의 압축을 풀면 치킨집만 있는 엑셀 파일을 선택한다.


     


    03 엑셀 파일 속의 필요 없는 데이터는 삭제하고 치킨집과 주소명만 남긴다.


     


    04 데이터 가공과정을 거친다. 


     


    library("readxl")


     


    ck <- read_excel ("치킨집_수정.xlsx")


     


    head(ck)


     


     


     


    addr <- substr (ck$소재지전체주소, 11,16)


     


    head(addr)


     


     


     


    addr_num <- gsub("[0-9]", "" , addr)


     


    addr_trim <- gsub (" ", "" , addr_num)


     


    head(addr_trim)


     


     


     


    library(dplyr)


     


    addr_count <- addr_trim %<% table() %>% data.frame()


     


    head(addr_count)


     


     


     


    treemap(addr_count, index = ",", vSize = "Freq", title = "대전 서구 동별 치킨집 분포")


     


     


     


    책의 뒤에는 도움이 될 수 있는 정보들이 있다. 변수 간의 차이를 확인할 수 있는 카이제곱 검정이나 변수 간의 연관성을 확인하는 상관분석, 그룹간의 평균을  비교하는 t검정이 간단하게 기술되어 있다. 

  • 예제소스

    등록일 : 2018-09-21

    • R로 배우는 데이터 분석 기본기 데이터 시각화 : 예제와 함수 중심으로 배우는 빅데이터 분석

      후나오 노부오

    • IT CookBook, R로 배우는 딥러닝

      박혜정 , 석경하 , 심주용 , 황창하

    • 그것이 R고 싶다

      양중기

  • 닫기

    해당 상품을 장바구니에 담았습니다.
    장바구니로 이동하시겠습니까?