한빛출판네트워크

IT/모바일

처음 시작하는 R 데이터 분석

쉽고 재밌게, 실무 예제로 끝낸다! 7일 완성 로드랩

한빛미디어

집필서

판매중

좋아요: 9
  • 저자 : 강전희 , 엄동란
  • 출간 : 2018-10-05
  • 페이지 : 328쪽
  • ISBN : 9791162241202
  • 물류코드 :10120

합계 : 17,820

  • 빠르고 재밌게,

    풍부하고 흥미로운 실습 예제로 R 데이터 분석에 입문한다!

     

    7일 완성 로드맵에 따른 체계적인 학습

    무엇이든 입문할 때 가장 어려운 것이 ‘어떻게 시작하는가?’이다. 이 책에서 제공하는 [7일 학습 로드맵]에 따라 차근차근 학습한 후 하루 만에 끝내는 요약 정리, 4가지 실전 프로젝트로 복습하면 어느새 실제 업무에서도 활용하고 있을 것이다.

     

    R 스튜디오를 통째로 옮겨 놓은 친절한 구성

    새로운 도구를 배울 때 가장 좋은 학습 방법은 직접 따라해 보면서 익히는 것이다. 하지만 이동 중, 혹은 실습 환경이 갖춰지지 않은 곳이라면? 이 책은 언제 어디서나 ‘제대로’ 학습할 수 있도록 R 스튜디오의 Script 창과 Console 창의 내용을 그대로 옮겨 담았다. 또한 1:1 과외처럼 친절하게 거의 모든 코드에 주석을 달아 독학의 어려움을 최소화했다.

     

    저자 직강 동영상 강의와 편리한 질의응답 편의 제공

    함께 학습하는 사람이나 주변에 도움 받을 사람이 있다면 좋겠지만, 독학 시에는 작은 도움도 크게 느껴진다. 이런 독자의 마음을 고려하여 유튜브를 통해 핵심 포인트, 혼자 하기 어려운 내용 등을 동영상 강의로 제공하고 있다. 또한 책을 보면서 궁금한 내용이 생겼을 때 저자의 GitHub에 방문하여 [Issues] 탭에서 질의응답을 할 수 있다.

    어떤 독자를 위한 책인가? 

    1. 빠르게 배워 실무에서 R 데이터 분석을 이용하려는 직장인
    2. 경제, 경영, 통계학 등 데이터 분석이 잦은 학과 전공자
    3. 데이터 분석에 입문하려는 컴공 전공자

     

    750_상세이미지.jpg

     

     

  • [저자] 엄동란

    통계학을 공부한 후 컨설팅 회사에 입사하여 다양한 CRM 분석을 경험하였다. 롯데카드와 롯데멤버스에서 회원 기반의 빅데이터 분석 업무를 담당했고 현재는 CJ에서 일하고 있다. CRM 을 비롯한 빅데이터 분석, 마케팅 분야의 다양한 경험을 보유하고 있다.

    [저자] 강전희

    컴퓨터공학과 인공지능을 공부했고 현재는 CJ ENM에서 일하고 있다. 시스템 구축•설계•운영을 시작으로 인공지능, 빅데이터, 개인 정보 보호, 온갖 가젯과 자료 정리에 관심이 많다. 국내 최초로 MCN인 DIATV 사업을 시작한 MCN계의 화석 같은 존재로 현재는 DIATV 경험을 바탕으로 SNS 데이터 분석과 시스템 기획을 담당하고 있다. 

  • PART 01 데이터 분석과 R 

    Chapter 01  R&R 스튜디오 : 사용 환경부터 제대로 준비하자

    01. R이란?

    02. R을 설치하고 실행하기

    03. R 스튜디오 설치와 기본 환경 설정하기

    04. 스크립트 생성 및 코드 실행하기

    05. 도움말 사용하기

     

    Chapter 02 데이터 분석과 구조 : 데이터는 어떻게 생겼을까?

    01. 데이터 분석 과정 알아보기

    02. 데이터의 생김새와 변수와 함수

     

    Chapter 03 데이터 종류 : 구조와 형태에 따라 데이터 이름도 다르다

    01. 데이터 구조 간 관계 파악하기

    02. 데이터 구조의 가장 기본인 벡터

    03. 벡터를 행/열로 구성한 행렬, 행렬의 확장인 배열

    04. 여러 데이터를 그룹화한 리스트, 리스트의 확장인 데이터 프레임

          한입에 쏙

          연습문제

     

    PART 02 데이터 분석을 위한 기본기 다지기

    Chapter 04 데이터 수집 : 분석할 데이터를 준비한다

    01. 원시 자료 입력 및 엑셀 파일 가져오기

    02. read.table() 함수로 TXT 파일 가져오기 

    03. 직관적인 메뉴로 원시 데이터 가져오기

    04. R 데이터 저장하고 불러오기

     

    Chapter 05 데이터 가공 : R은 데이터를 이렇게 다룬다

    01. 데이터 분석의 기초, 연산자

    02. 분석을 위한 데이터 기본 정리

    03. 데이터 추출부터 정제까지, 데이터 전처리

    04. 데이터 분석을 위한 기초 통계 분석 함수

    05. 데이터의 이해도를 높일 수 있는 그래프

          한입에 쏙

          연습문제

     

    PART 03 데이터 분석을 위한 필수 패키지와 함수

    Chapter 06 패키지 : R에 기능을 더하다

    01. 필요할 때 추가해서 사용하는 패키지

    02. 패키지 설치 및 사용 방법

    03. 컴퓨터 간 동일한 패키지 환경 만들기

     

    Chapter 07 reshape2 패키지 : 데이터의 행을 열로, 열을 행으로!

    01. 가로로 긴 데이터 모양을 세로로 전환하는 melt() 함수

    02. 세로로 긴 데이터 모양을 가로로 전환하는 cast() 함수

     

    Chapter 08 KoNLP 패키지 : 한글을 분석한다

    01. KoNLP 패키지와 wordcloud 패키지 설치하기

    02. 애국가로 형태소 분석하기

    03. 애국가 단어로 워드클라우드 만들기

     

    Chapter 09 dplyr 패키지 : 데이터 가공 마법사

    01. dplyr 패키지 실습 준비하기

    02. 데이터 추출 및 정렬하기

    03. 데이터 추가 및 중복 데이터 제거하기

    04. 데이터 요약 및 샘플 추출하기

    05. 함수와 함수를 연결하는 %>% 연산자

     

    Chapter 10 ggplot2 패키지 : 데이터 분석의 꽃, 시각화

    01. ggplot2 패키지로 그릴 수 있는 다양한 그래프

    02. 그래프의 이해를 높이는 객체 추가하기

    03. 함께 알면 유용한 googleVis 패키지와 ggmap 패키지

          한입에 쏙

          연습문제

     

    PART 04 데이터 분석 실전 프로젝트 

    Project 01 치킨집이 가장 많은 지역 찾기

    01. 업종별 데이터 다운로드 및 기초 가공

    02. 데이터 가공 및 트리 맵 표현하기

     

    Project 02 지역별 미세먼지 농도 비교하기

    01. 서울시 대기 환경 정보 다운로드

    02. 상자 그림으로 시각화 및 t 검정

     

    Project 03 트위터 키워드 크롤링으로 워드클라우드 그리기

    01. 트위터 API 사용하기

    02. 트위터 키워드 검색 및 워드클라우드 표현

     

    Project 04 지하철역 주변 아파트 가격 알아보기

    01. 공공 데이터 다운로드

    02. 지하철역 데이터 가공하기

    03. 아파트 실거래가 데이터 가공하기

    04. 구글 지도에 지하철역과 아파트 가격 표시하기

     

    APPENDIX부록

    Appendix 01 통계 분석 기법 맛보기

    Appendix 02 연습문제 정답

  • 이세행(네이버 클로바) : R이라고 하는 생소한 언어를 쉽게 설명하여 첫걸음을 내딛기가 수월했습니다. 

     

    김승희(다우기술 서비스개발본부) : 이 책 덕분에 데이터를 분석하고, R을 사용하는 게 그리 어려운 게 아니라는 걸 알았습니다.

     

    김경식(엑셈 빅데이터 개발자) : ‘비전공자도 볼 수 있는 R 데이터 분석’이란 말이 가장 먼저 떠오를 만큼 누구나 이해하고 따라 할 수 있는 책입니다.

     

    김유(한국IBM 마케팅팀) : 빠르면 일주일, 넉넉하게 한 달이면, 소셜 데이터를 수집하고 데이터를 분석, 시각화하고 있는 자신을 발견할 수 있을 것입니다.

     

    강전영(뉴욕주립대 버팔로 지리학과 박사후 연구원) : R 초보자들이 기초를 파악하고, 프로젝트에 적용할 수 있게 도와주는 ‘가이드’가 되는 책입니다.


    •  R을 알고는 싶은데 어려울 것 같아 막연하셨던 분들이 보시면 좋을 것 같습니다. 물론 전문적으로 하시는 분들이 보기에는 너무 쉬운 부분이라 느낄 수 있을 것 같지만, 가볍게 '이런 거구나!' 느끼기엔 좋은 책인듯 합니다.


        


       



       R 스튜디오에 대한 설치, 툴 사용법부터 시작하는 이 책은 개발에 관련이 없으신 분들도 비교적 쉽게 접근 할 수 있도록 신경쓰신게 느껴집니다. 또한 R 개발에 대한 문법보다, 엑셀에서 데이터를 목적에 맞게 정제해 내가 원하던 데이터를 뽑아내고, 이를 보여주고 싶은 그래프로 표현할 수 있는 방법들을 보여주는데 초점이 맞춰저 있는 것 같습니다. 간단간단하게 만들 수 있는 예제들은 내가 만든 코드들이 바로 시각화되니 해보는 재미도 있었습니다.


       



       유튜브에 강의 채널도 있어서 같이 보니까 이해하기도 더 쉬웠습니다.


       

       

    • 책 가독성이 높게 작성되어 있고 실습을 위주로 만들어져 있습니다.


       


      Rgui, R Studio 설치 후 빠르게 접근이 가능하며, 예제 실습 부분에서 한글이 깨진다는 부분이 있다고 하는데 아직 거기까지는 못해봤습니다.


    • 처음 시작하는 R 데이터 분석.jpg


       



      '시추에이션이 좋아~'


       



      요즘은 언제 배우는지 모르겠지만 수학 시간에 배웠던 집합을 떠올리면 좀 더 이해하기 쉬울거라 생각합니다. 마이크로소프트 엑셀에서 이런저런 함수를 사용해 본 경험이 있다면 어렵지 않게 따라할 수 있습니다.


       



      집합과 더불어 수학 시간에 들어봤음직한 개념이 하나 더. 블랙박스를 비유삼아 설명하곤 했던 ‘함수’.
      개념이라고 해서 거창하게 나갈 것도 없이 그저 '불러줄 이름이 있고, 이름과 함께 필요로 하는 조건을 갖춰주면 결과를 보여준다' 정도만 알아도 충분합니다.


       



      이정도 개념에 거부감이 없다면 책 앞부분에 있는 학습 로드맵을 따라 매일 많은 시간을 할애하지 않고도 재미있게 읽을 가능성이 크다고 봅니다. 하지만, 함수라는 말조차 생소하거나 어렵게 느껴진다면 로드맵은 생각하지 말고 그저 따라가기만 해도 어느새 가까워질 수 있지않을까 합니다.


       



      책의 구성이 많은 걸 알려주려고 무리하게 우겨넣는 분위기는 아닙니다.
      배우고자 하는 의욕이 크신 분은 부족함을 느낄 정도입니다. 아쉬운 듯한 구성이 오히려 끝까지 볼 수 있도록 하는 요인 가운데 하나라고 생각합니다.



      각 부분이 끝날때마다 내용을 정리해 놓아 지난 내용들을 떠올리며 되짚어볼 수 있습니다. 그리고 앞에 나왔던 내용이라도 뒤에서 관련이 있으면 짤막하게 언급하여 기억을 환기시켜 줍니다.



      설명 중간중간에 있는 팁도 알찹니다. 본문에서 기본 내용을 얘기했다면 팁에서는 조금더 실용적이거나 알아두면 도움이 되는 내용들을 간략하게 알려줍니다.



      이렇게 읽다보면 어느새 책 내용이 끝납니다. 이게 전부(?)라는 느낌이 들 정도입니다. 그리고 4가지 실전 프로젝트를 만납니다. 또다른 출발이자 실전을 앞둔 스파링 정도로 생각하면 될 듯합니다.


       



      아쉬운 부분이 있다면 데이터 모양을 전환하는 함수 설명이 선뜻 와닿지 않습니다. 이렇게, 조금 어려울 듯하면 '그런것도 있구나' 하며 지나가고 다음을 기약하면 됩니다.


       



      재미있는 이야기를 읽은 느낌입니다.
      책을 읽고나면 이정도만으로 충분하다는 분들도 있을테고, 자신의 이야기를 덧붙여 나가고 싶은 분들도 있을 거라 생각합니다.
      개인적으로는 후자입니다.


       

    •  


      이 책은 <Hello Coding> 시리즈이다. 동 시리즈의 다른 도서인 <개념부터 처음 배우는 프로그래밍>, <쌩초보의 처음 프로그래밍 파이썬> 등의 도서와 같이, 비전공 초보자가 쉽게 이해할 수 있는 상세한 설명이 장점이다. R 언어도 모르고, 데이터 분석도 처음인 사람들을 주 독자층으로 한다. 코딩/수학/통계 셋 모두를 전혀 몰라도 이해하고 따라하는데 전혀 지장이 없을 것으로 보인다. 


       


      그만큼 내용이 쉽다. 지금까지 읽어본 모든 R 관련 도서 중에 가장 쉬운 책이다. 표지에 7일 완성이라고 적혀있지만, 프로그래밍에 조금의 지식이 있는 사람이라면 3~4일이면 완독할 수 있는 내용이다. 총 300페이지가 넘으니 그리 작은 분량은 아니지만, 많은 스크린 캡처와 상세한 설명이 상당한 분량을 차지하고 있는 것으로 생각된다.


       


      R & RStudio 설치와 환경 설정부터 시작해서 R언어 기초 문법, 필수 패키지와 함수를 거쳐 '치킨집이 가장 많은 지역 찾기' 등 간단한 데이터 분석 프로젝트까지 진행하며 가장 좋았던 점은 막힘이 없다는 것이었다. 중간에 독자가 이 정도는 알아서 하겠거니 하고 뛰어넘거나 생략하는 부분이 거의 없다. 오히려 입문자 입장에서 쉽게 혼동하거나 어려움을 겪을만한 거의 모든 지점에 TIP이나 별도의 설명이 추가되어 있었다. 


       


      이 책은 진도도 쑥쑥 나가고 재미도 있다. 그런데 책을 완독한 후에 혼자서 간단한 프로젝트를 진행할 수 있는가라면 그에 대한 답은 '아니오'이다. 이 책으로 R을 사용하는 데이터 분석에 대한 전체적인 그림을 그리고 난 후 공부를 한참 더 해나가야 한다. 수학으로 따지면 사칙연산을 막 배운 직후라고 해야 할까. 


       


      입문서의 가장 큰 미덕은 독자가 어떤 새로운 분야에 대해 감을 잡을 수 있게 해주는 것이라고 생각한다. 이 책은 R 기초, RStudio 사용, 데이터 분석의 전체적인 흐름 모두를 즐겁게 맛볼 수 있게 해준다. 마치 유튜브 강의를 보면서 따라하는 것과 같은 편안한 경험을 주는 즐거운 책이었다. 


       



    • 첫인상


      '컴퓨터책'이라고 하기에는 굉장히 fancy하다. - 영어를 남발하고 싶지 않지만 업계의 용어라고 해두자.


      All color인 데다가 기존 한빛미디어 책이랑은 뭔가 다르다는 느낌이 강한데, IT관련 서적같지는 않고 그렇다고 막 생소하지도 않았는데 생각해보니 학생들 문제집 같은 편집이다.



      7일 완성 학습 로드맵이 있어서 더 그랬던 듯싶다.










      위에서 두 번째 책. 책이 얇다. (인덱스 포함 328페이지)

      전면에 내세우지는 않았지만 표지를 보면 Hello Coding 시리즈 즉 입문서이고, 제목에서도 알 수 있듯 '처음 시작하는' 'R(로 하는)' '데이터 분석'을 다루는 책이다.


       


       



      본문


      보통 어느 것 하나 버릴 게 없다!...고 하면 좋겠지만


      안타깝게도 버릴 게 많다.


      R이 뭔지 알고, R Studio를 이미 사용(설치)해본 독자라면 60페이지[3장]부터


      엑셀이나 텍스트 파일을 읽어들이고 내용을 확인해 볼 수 있는 정도라면 97페이지[5장]부터


      주요 패키지 이름들을 알고 데이터를 이것저것 다뤄봤다면 250페이지부터 시작하는 실전 프로젝트 부분을 보면 좋을 것이다.


       


      요컨대 책 분량이 많지 않은데, 굉장히 기초적인 내용을 앞부분에 상세히 설명하고 있는 점이 아쉽다.


      R에 대해 들어본 바 없고 제목 그대로 처음 시작하는 독자라도 1~4장은 처음 한 번 하루이틀에 걸쳐 읽어보면 충분할 것 같다.


      본의 아니게 혹평했지만

      이 점만 빼면 나머지는 다 좋다. 초심자에게.


      "통계를 몰라도, 프로그래밍이 익숙하지 않아도, 빅데이터 시대에 누구나 할 수 있는 R 데이터 분석 입문"을 표방(뒷표지 曰)하고 있으니 주 독자층에 맞춰진 좋은 책이다.


      비개발자라면 기초도 없이 매번 검색해보고 블로그를 찾아다니는 것보다 이러한 입문서를 학습로드맵에 맞춰 차근차근 따라하면 큰 도움이 될 것이라고 본다.


      내용이 쉬우면서 많은 사람들에게 두루 읽힐 수 있는 책을 쓰고 싶은 사람으로서 저자의 노력에 박수를 보낸다.


       


       



      장단점



      추천하고 싶은 점


      Part 3의 필수패키지와 함수 소개 및 예제는 꼭 필요한 내용들이고 설명하는 수준도 적당하다.


      Part 4의 실전 프로젝트가 이 책에서 가장 좋은 부분이었다고 생각하는데, 책의 전반부에 알려주는 내용들로 과연 무엇을 어떻게 '써먹을' 수 있는가에 대한 궁금증을 해소시켜 줄 것이다.


      데이터를 구하고, 불러서, 가공하고, 이런 것들을 할 수 있다라는 괜찮은 실례를 보여주는 부분이다.


      아직 책을 구입하기 전인 독자라면 먼저 한번 후반부를 보고 흥미가 생긴다면 앞부터 차근차근 읽어보는 것을 추천한다.


       



      아쉬운 점


      편집이 독자층에 걸맞게 화려한(?) 것이 이 책의 장점 중 하나라고 생각하는데 그런 와중에 사소한 오탈자는 몹시 안타깝다.













      금새와 He와 그대도


      또한 뒤에 나올 내용을 참조하라거나 스타일이 다른 부분이 약간 보였는데 예를 들어 앞에서 dplyr 패키지의 bind_cols 함수를 설명하고 책 후반 실전 프로젝트에서는 base의 cbind를 사용하는 부분이 있다. *데이터 분석을 한다면 대다수 dplyr과 파이프(%>%)를 쓰겠지만 개인적인 의견으로는 cbind가 기본 패키지에 포함되어 있고 약간 용례가 다르다보니 둘다 알아두는 게 좋고, 굳이 순서를 따지자면 앞에 나오는 것이 적합하지 않을까. 초보자의 러닝 커브를 줄이기 위해 다양한 패키지를 알 필요가 없다고 생각했다면 둘 중 한 방법으로 통일하는 게 좋았을 것이다. 추측컨대 두 명의 공저자 중 각각 다른 사람이 집필한 건 아닐까 싶다.


      오탈자와 구성을 차치한다면 바로 위에서 장점으로 꼽은 Part 4부분에 가장 아쉬운 점이 있다. 공공 데이터 등을 다운받아 오는 것까진 좋았는데 왜 엑셀을 열어서 데이터를 가공했을까. 데이터 분석에 있어 전처리는 무척 중요한 부분이고 R에 익숙해지면 엑셀 필터 기능보다 편리한 부분이 많은데 그 부분에 지면을 할애하지 않은 점이 참 아쉽다.


       


       



      추천 독자



      - '데이터 분석'을 해야 하는데 엄두가 안 나서 어디부터 시작해야 할지 감을 못잡는다면...



      - R을 깊이 공부해볼 마음은 아직 없지만 코딩은 건너 뛰고 데이터 분석을 해보고 싶다면...


      - 새로운 언어를 배울 때 R Studio와 같은 IDE도 하나씩 차근차근 알려주면 좋겠고 '올 컬러' 참고서/문제집이 익숙하다면...


       



      ※ 참고로 출판사에서 말하는 '어떤 독자를 위한 책인가?'는 다음과 같은데,



      1. 빠르게 배워 실무에서 R 데이터 분석을 이용하려는 직장인



      2. 경제, 경영, 통계학 등 데이터 분석이 잦은 학과 전공자



      3. 데이터 분석에 입문하려는 컴공 전공자



      2, 3번은 이미 하나 이상의 프로그래밍 언어나 통계 패키지를 사용하고 있을 테니 그런 점을 감안하면 '과하게' 친절해서 1번의 직장인(개발자가 아니다)에게 주로 추천하고 싶다.


       


       



      한줄평 및 별점(대상독자 恨)


       


      나도 한번 데이터 분석에 발을 담가보자 - ★★★☆

       


       




       



      브런치에도 남긴 리뷰입니다.







    • 안녕하세요. 



      처음 시작하는 R 데이터 분석.jpg


       
















      바로 요즘 대세 of 대세인 '데이터 분석' 입문자를 위한 책인 '처음 시작하는 R 데이터 분석' 리뷰입니다.

      아래와 같이 네이버에서 검색해도 나옵니다.




















      처음 시작하는 R 데이터 분석


      저자 강전희, 엄동란



      출판 한빛미디어



      발매 2018.10.05.



















      요즘 빅데이터, AI 이런 말을 흔하게 들을 수 있죠? 그 중에서 빅데이터는 뭔가 데이터 분석과 관련이 있어 보이지 않나요?

      맞습니다.
      빅데이터를 분석 및 연구하는 것을 데이터 과학이라고 하고 그러한 연구에 쓰이는 프로그래밍 언어 중 하나가 바로 'R'입니다.

      그래서 이 책은 크게보면 데이터 과학에 입문하기 위한 첫걸음을 뗄 수 있도록 해주는 책입니다.

      빅데이터?프로그래밍?... 난 그런거 모르는데...















      라고 걱정하실 필요가 없습니다. 앞서 말했듯이 입문자를 위한 책이고 R은 우리가 흔히 아는 SW개발자의 프로그래밍 언어와는 전혀 다릅니다. 오히려 행렬에 대한 수학 지식이 많으면 훨씬 유리합니다.

      이 책에서는 R 프로그래밍을 하기 위한 환경설정도 친절히 안내하고 있습니다. 프로그램 설치는 물론이거니와 도움말 사용법까지 안내되어 있습니다. 심지어 글꼴 테마 설정까지 안내되어 있으니 걱정은 No, No입니다.

      그렇다고해서 기존의 SW개발자분들도 겁낼 필요가 없습니다. 완전히 다른 분야구나...라고 생각하지 않아도 됩니다. 문법은 기존 개발언어와 다를 수 있지만 기본적으로 함수를 호출하고 결과값을 가공하는 등의 행위는 프로그래밍 능력이 있다면 이해하는데 훨씬 도움이 됩니다.

      (그리고 역시나 최초 예제는 Hello World 출력하기 입니다!!)

      그리고 이 책의 큰 특징이면서 마음에 들었던 점은 내용을 요약해주는 부분이 있습니다. '한 입에 쏙!'이라는 코너인데 내용을 정리하거나 추후에 되새김질 할 때 아주 도움이 될 것 같습니다.

      그리고 많은 프로그래밍 책들이 간과하는 부분이라고 생각하는데 이 책에는 '연습문제'가 있습니다. 프로그래밍도 결국 숙달이 필요하고 반복적을 통해서 자연스럽게 체득(문법의 암기, 알고리즘 활용 등)이 가능합니다.

      창의성이 중요하니 알고리즘 능력을 타고 나야한다 같은 소리는 그 이전에 피나는 노력을 배제한 나쁜 핑계라고 생각합니다. (창의성도 모방에서 온다는 소리도 있잖아요. ㅎㅎㅎ)

      그래서 연습문제가 간단하게라도 있는 점이 참 좋습니다. 개념을 읽고 '아~'하고 넘어가는 것과 정말 간단한 것이라고 직접해보는것은 천지차이니까요.

      그러니까... 데이터 데이터 지겹게 듣는 데이터!! 한 번 뭔지 알아보자! 하는 비전공자 일반인부터 통계를 전공하고 R 프로그래밍이 필요한 초보자, 내가 개발자인데 데이터도 알면 좋지 않을까? 고민하는 분들까지 모두 R 프로그래밍을 배우고 싶다면 쉽게 씌여진 이 책으로 시작하면 좋을 것 같습니다.


       







    • <이 책의 리뷰는 한빛미디어 '책 읽는 프로그래머'로 부터 책을 지원받아 작성된 글입니다.>













       



      빠르고 재밌게,



      풍부하고 흥미로운 실습 예제로 R 데이터 분석에 입문한다!


       



      7일 완성 로드맵에 따른 체계적인 학습


      무엇이든 입문할 때 가장 어려운 것이 ‘어떻게 시작하는가?’이다. 이 책에서 제공하는 [7일 학습 로드맵]에 따라 차근차근 학습한 후 하루 만에 끝내는 요약 정리, 4가지 실전 프로젝트로 복습하면 어느새 실제 업무에서도 활용하고 있을 것이다.


       



      R 스튜디오를 통째로 옮겨 놓은 친절한 구성


      새로운 도구를 배울 때 가장 좋은 학습 방법은 직접 따라해 보면서 익히는 것이다. 하지만 이동 중, 혹은 실습 환경이 갖춰지지 않은 곳이라면? 이 책은 언제 어디서나 ‘제대로’ 학습할 수 있도록 R 스튜디오의 Script 창과 Console 창의 내용을 그대로 옮겨 담았다. 또한 1:1 과외처럼 친절하게 거의 모든 코드에 주석을 달아 독학의 어려움을 최소화했다.


       



      저자 직강 동영상 강의와 편리한 질의응답 편의 제공


      함께 학습하는 사람이나 주변에 도움 받을 사람이 있다면 좋겠지만, 독학 시에는 작은 도움도 크게 느껴진다. 이런 독자의 마음을 고려하여 유튜브를 통해 핵심 포인트, 혼자 하기 어려운 내용 등을 동영상 강의로 제공하고 있다. 또한 책을 보면서 궁금한 내용이 생겼을 때 저자의 GitHub에 방문하여 [Issues] 탭에서 질의응답을 할 수 있다.



       


       





       


      이번에 받은 책은 강전희, 엄동란 지음의 '처음 시작하는 R 데이터 분석'이라는 책입니다.


       



      R이란, 



      R 프로그래밍 언어(줄여서 R)는 통계 계산[2]과 그래픽을 위한 프로그래밍 언어이자 소프트웨어 환경이다. 뉴질랜드 오클랜드 대학의 로버트 젠틀맨(Robert Gentleman)과 로스 이하카(Ross Ihaka)에 의해 시작되어 현재는 R 코어 팀이 개발하고 있다. R은 GPL 하에 배포되는 S 프로그래밍 언어의 구현으로 GNU S라고도 한다. R은 통계 소프트웨어 개발과 자료 분석에 널리 사용되고 있으며, 패키지 개발이 용이하여 통계학자들 사이에서 통계 소프트웨어 개발에 많이 쓰이고 있다.


       


      - 위키백과


       


      R은 통계에 주로 사용되는 프로그램 입니다. Python 과의 호환성도 좋아 최근 관심을 많이 받고 있는 언어 중 하나입니다.


       


      통계에 관련 되어 있다고 하니 사용하기 어려울 것 같지만 이번 책을 통해 쉽게 공부 할 수 있었습니다.


       


      이 책은 제목 그대로 R을 처음 사용 하시는 사용자에게 정말 좋은 기초서가 될 것 같다는 생각을 했습니다. 설치부터 예제, 설명등


       


      이 수학에 관심이 없고 프로그램 언어를 모르는 입문자도 이해할 수 있도록 되어 있다는 점이 포인트입니다.


       


       


       





       


      책은 Yes24 기준으로 R을 검색했을 때에는 인기가 가장 좋은 책으로 나옵니다.


       


      7일 완성! 이라는 타이틀이 있듯이 단기간에 배우기 좋은 책입니다. 꼭 7일 내에 해야하는 것은 아니기 때문에


       


      천천히 공부를 하시는 것도 나쁘지 않다고 보여집니다.


       


      추가적인 장점 중 하나는 동영상 강의가 있어서 책만 보고 이해가 되지 않는 부분에 대해 강의를 볼 수 있습니다. (강의주소는 상단 표시)


       





       



      기초적인 부분이라 쉽게 넘어가는 부분일 수 있지만 실제로 가장 중요한 부분입니다.


       


      모든 통계에 있어서 가장 중요한 것은 어떤 데이터를 가지고 문제를 해결 하려고 하는 지와


       


      그 데이터가 얼마나 정확하고, 깔끔하게 정제되어 있는지 입니다.


       


      실무에 있다보면 프로젝트에 사용 된 데이터가 잘못되었다는 것을 프로젝트 중간에 알아차리고


       


      처음부터 다시 개발하는 경우도 많습니다. 그만큼 데이터의 추출과 정제가 중요하다고 볼 수 있습니다.


       


       


       


       





       


       


      책 후반부에는 R을 통해 워드클라우드, 명사 추출등을 진행하는 예제들도 많이 나옵니다.


       



      실제 Python으로도 가능한 것들을 R을 통해 구현 할 수 있는 예제를 제공해주는 부분이 좋았습니다.


       





      출처: http://remover.tistory.com/155 [Remover]

    •  



      처음 시작하는 R 데이터 분석1.jpg


       


      1. 소개


       처음 시작하는 R데이터 분석 진짜 데이터 분석이라는 분야를 처음 접하는 개발자입니다. 데이터 분석이라면 빅데이터를 가지고 있는 기업이나 회사에서 사용할것 같지만 이 책을 읽으면서 공공데이터를 가지고 할 수 있는것들이 있다는 것과 R이라는 언어를 왜 배워야하는지 알수있습니다.



      처음 시작하는 R 데이터 분석3.jpg


       


      2. 책의 구성



      - 표지 :  7일 만에 R을 학습하고 실전에 적용할수 있는 예제가 포함되어있습니다.



      저는 개발자지만 예제까지 하는데 10일정도가 걸렸네요^^;


       



      처음 시작하는 R 데이터 분석2.jpg


       


       


      - 내부 구성 : 대단원 Part와 소단원 Chapter로 구성되며 (여기서잠깐!, Tip, 주의) 등의 참고 사항이 있다. 어떤 개념에 대한 설명이 끝난 후 직접 적용해볼수 있는 예제가 있어 공부했던 내용을 한번데 기억할수 있게 해주고, 대단원이 끝나고 있는 연습문제가 책의 구성을 더 풍부하게 해주는것 같다.


       


      3. 프로젝트


       


      이 책을 읽으면서 가장 마음에 들고 선택하길 잘했다고 생각했던 Part이다.


      책에 나와있는 첫번째 예제를 따라하고 우리 동네의 치킨집 분표를 보여주게 바꾸었다.


       


      내가 데이터 분석을 하다니!



      처음 시작하는 R 데이터 분석4.jpg


       


      통계나 데이터 분석 분야의 지식없이 접한거라 t검정 정도는 다 알고 있다고 판단하고 넘어갔을줄 알앗는데 친절하게 부록에 설명까지 있다.



      처음 시작하는 R 데이터 분석5.jpg


       



      처음 시작하는 R 데이터 분석6.jpg


       


       개발자 들이 자주 사용하는 OAuth에 대한 개념이나 통계학에서 사용하는 t 검정 등의 내용을 친절하게 설명해주고 있어 어느 분야에 있든지 접할 수 있는 책인것 같다.

    • 본인은 프로그래머로 R이라는 언어가 어떤 언어인지


      궁금하던 차에 좋은 기회를 얻어서 책을 읽게 되었습니다.


       


      7일간의 코스로 되어 있는데 부록까지 포함해서


      8~9일 정도로 잡으면 여유롭게 따라 읽을 수 있습니다.


       


      실제로 코스대로 하루씩 따라해봤는데


      모든 예제 및 데이터를 직접 치면서 따라했을 경우


      1시간 ~ 1시간 30분 정도 걸리는걸 확인했습니다.


      (타자 및 설치관련 OS에 익숙한 경우)


       


      해당 책은 입문서 답게 쉽게 읽을 수 있을 정도로


      설치부터 한단계 한단계 예시화면으로 설명을 해줍니다.


       


      또한 큰묶음의 챕터가 끝나면 요약정리 및 연습문제도 존재합니다.


      자세한 설명의 입문서이기 때문에 다 읽고 나서는


      요약정리만 훓어봐도 다시 읽은 듯한 느낌이 들 정로로 


      알차게 정리되어 있습니다.


       


      맘에 드는것 중에 하나는 연습문제인데


      입문서의 대부분은 따라하기에 주안점을 둬서


      읽고 난 후에는 초보자가 응용해 사용하기가 


      쉽지 않은 경우가 대부분입니다.


       


      이책은 간단한 연습문제를 만들어 줘서 


      복습 및 응용을 할 수 있도록 한것이 마음에 들었습니다.


       


      다만 너무 쉬운 문제 위주여서 아쉬운 부분이 있는데


      학습한 패키지의 설명하지 않은 함수를 이용한 문제가 


      조금씩 들어갔으면 어땠을까 생각해봅니다.


       


      아쉬운 점은 대부분의 입문서가 그러하듯이 


      기초에 너무 많은 지면을 할애하다 보니


      주로 많이 쓰게 되이는 부분에 대해서는 


      간단하게 설명하고 넘어가는 듯한 느낌이 드는 부분이 있습니다.


       


      주로 R을 사용하는 이유가 도표나 그래프를 사용하기 위해서 인듯 한데(추측)


      생각보다 많은 설명이 포함되어 있지는 않습니다.


       


      다만 부록으로 있는 실제 사례를 활용한 부분은


      '이런식으로 R을 활용해 사용하는 거구나' 


      라는 이미지를 받을 수 있어서 꼭 끝까지 읽어봐야 될 부분이라 생각됩니다.


       


      이책으로 기초를 튼튼히 다지며


      심화학습으로 넘어가기 위한 교두보로 사용하면 좋을 듯 싶습니다.


       


      다채로운 색상과 깔끔한 구성으로 R을 처음 접하는 분들에게


      좋은 입문서가 될것 같아 추천드립니다.


       




    •  



      빅데이터 시대, 누구나 쉽게 배우는 R 데이터 분석 입문!!

      누구나 쉽게 배우고 할 수 있어야 진짜 입문서다! 통계를 몰라도, 프로그래밍을 몰라도, 데이터로부터 필요한 정보를 구하는 방법이 여기 있다. R 스튜디오 설치부터 프로젝트에 기반한 데이터 추출, 요약, 데이터 분석, 데이터 시각화까지의 모든 기본기를 이 한 권에 담았다.


       


      이 책을 보면?


      빠르고 쉽게 R 스튜디오를 이용한 R 데이터 분석에 입문 할 수 있다.


      흥미로운 실습 예제가 풍부해 실전에 바로 적용할 수 있다.


      데이터 분석을 몰라도, 프로그래밍이 처음이라도, 누구나 R 데이터 분석에 재미를 붙일 수 있다.


       


      데이터 분석 전문가로 거듭나고 쉽다면






       



      학습 로드맵 7일 만에 끝내는 R데이터 분석












       


       


      이 책을 보는 방법



      이 책은  입문자도 쉽게 읽고 따라 할 수 있도록 구성되어 있습니다. 본문 내용은 학습 로드맵을 참고하여 단계별 학습이 가능 하며, 초보자의 눈높이에 맞춰 최대한 자세하게 설명 되어 있습니다.. 다양한 예제, 프로젝트, 연습문제 등을 익히다가 보면 R과 데이터 분석에 금새 친숙해질 것입니다.


       


       











       

       


      저자소개



      저 : 강전희



      컴퓨터공학과 인공지능을 공부했고 현재는 CJ ENM에서 일하고 있다. 시스템 구축·설계·운영을 시작으로 인공지능, 빅데이터, 개인 정보 보호, 온갖 가젯과 자료 정리에 관심이 많다. 국내 최초로 MCN인 DIATV 사업을 시작한 MCN계의 화석 같은 존재로 현재는 DIATV 경험을 바탕으로 SNS 데이터 분석과 시스템 기획을 담당하고 있다.







      저 : 엄동란


       



      통계학을 공부한 후 컨설팅 회사에 입사하여 다양한 CRM 분석을 경험하였다. 롯데카드와 롯데멤버스에서 회원 기반의 빅데이터 분석 업무를 담당했고 현재는 CJ에서 일하고 있다. CRM 을 비롯한 빅데이터 분석, 마케팅 분야의 다양한 경험을 보유하고 있다.







      목차



      PART01 데이터 분석과 R 
      Chapter 01 R&R 스튜디오 : 사용 환경부터 제대로 준비하자

      01. R이란?
      02. R을 설치하고 실행하기
      03. R 스튜디오 설치와 기본 환경 설정하기
      04. 스크립트 생성 및 코드 실행하기
      05. 도움말 사용하기

      Chapter 02 데이터 분석과 구조 : 데이터는 어떻게 생겼을까?
      01. 데이터 분석 과정 알아보기
      02. 데이터의 생김새와 변수와 함수

      Chapter 03 데이터 종류 : 구조와 형태에 따라 데이터 이름도 다르다
      01. 데이터 구조 간 관계 파악하기
      02. 데이터 구조의 가장 기본인 벡터
      03. 벡터를 행/열로 구성한 행렬, 행렬의 확장인 배열
      04. 여러 데이터를 그룹화한 리스트, 리스트의 확장인 데이터 프레임
      한입에 쏙
      연습문제

      PART02 데이터 분석을 위한 기본기 다지기
      Chapter 04 데이터 수집 : 분석할 데이터를 준비한다

      01. 원시 자료 입력 및 엑셀 파일 가져오기
      02. read.table() 함수로 TXT 파일 가져오기 
      03. 직관적인 메뉴로 원시 데이터 가져오기
      04. R 데이터 저장하고 불러오기

      Chapter 05 데이터 가공 : R은 데이터를 이렇게 다룬다
      01. 데이터 분석의 기초, 연산자
      02. 분석을 위한 데이터 기본 정리
      03. 데이터 추출부터 정제까지, 데이터 전처리
      04. 데이터 분석을 위한 기초 통계 분석 함수
      05. 데이터의 이해도를 높일 수 있는 그래프
      한입에 쏙
      연습문제

      PART03 데이터 분석을 위한 필수 패키지와 함수
      Chapter 06 패키지 : R에 기능을 더하다
      01. 필요할 때 추가해서 사용하는 패키지
      02. 패키지 설치 및 사용 방법
      03. 컴퓨터 간 동일한 패키지 환경 만들기

      Chapter 07 reshape2 패키지 : 데이터의 행을 열로, 열을 행으로!
      01. 가로로 긴 데이터 모양을 세로로 전환하는 melt() 함수
      02. 세로로 긴 데이터 모양을 가로로 전환하는 cast() 함수

      Chapter 08 KoNLP 패키지 : 한글을 분석한다
      01. KoNLP 패키지와 wordcloud 패키지 설치하기
      02. 애국가로 형태소 분석하기
      03. 애국가 단어로 워드클라우드 만들기

      Chapter 09 dplyr 패키지 : 데이터 가공 마법사
      01. dplyr 패키지 실습 준비하기
      02. 데이터 추출 및 정렬하기
      03. 데이터 추가 및 중복 데이터 제거하기
      04. 데이터 요약 및 샘플 추출하기
      05. 함수와 함수를 연결하는 %% 연산자

      Chapter 10 ggplot2 패키지 : 데이터 분석의 꽃, 시각화
      01. ggplot2 패키지로 그릴 수 있는 다양한 그래프
      02. 그래프의 이해를 높이는 객체 추가하기
      03. 함께 알면 유용한 googleVis 패키지와 ggmap 패키지
      한입에 쏙
      연습문제

      PART04 데이터 분석 실전 프로젝트 
      Project 01 치킨집이 가장 많은 지역 찾기
      01. 업종별 데이터 다운로드 및 기초 가공
      02. 데이터 가공 및 트리 맵 표현하기

      bProject 02 지역별 미세먼지 농도 비교하기
      01. 서울시 대기 환경 정보 다운로드
      02. 상자 그림으로 시각화 및 t 검정

      bProject 03 트위터 키워드 크롤링으로 워드클라우드 그리기
      01. 트위터 API 사용하기
      02. 트위터 키워드 검색 및 워드클라우드 표현

      bProject 04 지하철역 주변 아파트 가격 알아보기
      01. 공공 데이터 다운로드
      02. 지하철역 데이터 가공하기
      03. 아파트 실거래가 데이터 가공하기
      04. 구글 지도에 지하철역과 아파트 가격 표시하기

      bAPPENDIX부록
      Appendix 01 통계 분석 기법 맛보기
      Appendix 02 연습문제 정답
       







      출판사 리뷰



      1. 빠르게 배워 실무에서 R 데이터 분석을 이용하려는 직장인
      2. 경제, 경영, 통계학 등 데이터 분석이 잦은 학과 전공자
      3. 데이터 분석에 입문하려는 컴공 전공자

      빠르고 재밌게,
      풍부하고 흥미로운 실습 예제로 R 데이터 분석에 입문한다!

      7일 완성 로드맵에 따른 체계적인 학습
      무엇이든 입문할 때 가장 어려운 것이 ‘어떻게 시작하는가?’이다. 이 책에서 제공하는 [7일 학습 로드맵]에 따라 차근차근 학습한 후 하루 만에 끝내는 요약 정리, 4가지 실전 프로젝트로 복습하면 어느새 실제 업무에서도 활용하고 있을 것이다.

      R 스튜디오를 통째로 옮겨 놓은 친절한 구성
      새로운 도구를 배울 때 가장 좋은 학습 방법은 직접 따라해 보면서 익히는 것이다. 하지만 이동 중, 혹은 실습 환경이 갖춰지지 않은 곳이라면? 이 책은 언제 어디서나 ‘제대로’ 학습할 수 있도록 R 스튜디오의 Script 창과 Console 창의 내용을 그대로 옮겨 담았다. 또한 1:1 과외처럼 친절하게 거의 모든 코드에 주석을 달아 독학의 어려움을 최소화했다.

      저자 직강 동영상 강의와 편리한 질의응답 편의 제공
      함께 학습하는 사람이나 주변에 도움 받을 사람이 있다면 좋겠지만, 독학 시에는 작은 도움도 크게 느껴진다. 이런 독자의 마음을 고려하여 유튜브를 통해 핵심 포인트, 혼자 하기 어려운 내용 등을 동영상 강의로 제공하고 있다. 또한 책을 보면서 궁금한 내용이 생겼을 때 저자의 GitHub에 방문하여 [Issues] 탭에서 질의응답을 할 수 있다.
      동영상 강의 : https://bit.ly/HelloJany
      GitHub : https://github.com/newstars/HelloR






      추천평



      이세행(네이버 클로바) : R이라고 하는 생소한 언어를 쉽게 설명하여 첫걸음을 내딛기가 수월했습니다. 

      김승희(다우기술 서비스개발본부) : 이 책 덕분에 데이터를 분석하고, R을 사용하는 게 그리 어려운 게 아니라는 걸 알았습니다.

      김경식(엑셈 빅데이터 개발자) : ‘비전공자도 볼 수 있는 R 데이터 분석’이란 말이 가장 먼저 떠오를 만큼 누구나 이해하고 따라 할 수 있는 책입니다.

      김유(한국IBM 마케팅팀) : 빠르면 일주일, 넉넉하게 한 달이면, 소셜 데이터를 수집하고 데이터를 분석, 시각화하고 있는 자신을 발견할 수 있을 것입니다.

      강전영(뉴욕주립대 버팔로 지리학과 박사후 연구원) : R 초보자들이 기초를 파악하고, 프로젝트에 적용할 수 있게 도와주는 ‘가이드’가 되는 책입니다.

    • 개발자에게 R은 계륵같은 존재인것 같다. Java나 C++처럼 생산성에 도움을 주는것도 아닌것이 데이터분석에 특화 된 언어도 아닌것 같고.. 그렇다고 어렵다고 안배우기엔 쉬운언어로 보이고..



      몇번에 걸쳐 R을 사내/외 강의를 듣기도 했지만 한두시간의 강의로는 제대로 공부했다고 알기 어려웠다.


      하지만 이 책을 완독한 느낌을 짧게 정리하자면 아래와 같다.



      1. 초급자용 책이라서 개발자에게 매우 쉽다.


      2. 기본기에 충실하기 위한 중요개념이 잘 설명되어 있다.


      3. 예제가 아주 멋지고 활용적이다.



       



      개발자가 아닌분에게는 7일 완성으로 간단한 데이터분석을 R을 활용하는 방법을 잘 습득 할 수 있다.



      개발자라면 3일만에 R이 무엇인지 기본 개념을 확실히 다지고, 재미있는 예제를 실행하면서 일상생활에 적용 할 수 있다. 


      치킨집이 가장 많은 지역 찾기, 지역별 미세먼지 농도 비교하기, 트위터 키워드 크롤링으로 워드클라우드 그리기, 지하철역 주변 아파트 가격 알아보기 프로젝트는 누구든지 흥미롭게 해볼만한 주제이다.


       


      개발자, 비개발자 나누지 않고 누구든 쉽고 재밌게 볼 수 있는 책이다.

    • 처음 시작하는 R 데이터 분석


       

       


      최근 4차 산업혁명이 대두되면서 주변에 많은 변화가 일어나고있다.


      컴퓨터는 그저 '사무용' 혹은 '게임용'이라고 여겨지던 이전과는 달리 가상에서 머무르지않고 현실과 밀접한 관계가 생기고 있다.


      얼마전 한창 시끄러웠던 '코인' 대란과 알파고 vs 이세돌9단의 바둑대결이 대표적인 사례이다.


      사람들은 이 사건들로인해 컴퓨터 기술이 현실에 엄청난 영향을 줄 수 있음을 깨닳았을 것이다.


      이런 기술력들이 현실에 나타나면서 ''4차 산업혁명'이라는 잘 와닿지 않던 말도 사람들에게 가깝게 다가왔을 것이다.


      이러한 분위기에 편승하여 이제는 컴퓨터를 전공하지 않은 사람들도 관련 기술들을 연구하기 시작했는데,


      머신러닝, 블록체인, 인공지능 이 대표적인 예이다.


      하지만 이 모든것들은 수많은 양의 데이터, 그리고 그 데이터들의 분석으로 시작한다.


       


      이 책은 그런 데이터 분석에 사용되는 기술을 설명하고 사용 방법을 알려준다.


      책에도 써있는 'R'이라는 문자는 언어이다.


      언어라는것은 컴퓨터 기술을 구현할때 사용되는 문자로써, 사람들이 컴퓨터가 알아듣도록 만든 문자체계이다.


      C언어, JAVA, PYTHON등이 그 대표적인 예이고, R은 4차산업혁명의 물살을 타고 인기 상승중인 언어중에 하나이다.


      잘 모르겠다면 간단히 '일본어는 일본사람이 알아듣게 만든말이고, 중국어는 중국사람이 알아듣게 만든말이고,


      R은 컴퓨터가 알아듣게 만든말 중에 하나이다' 라고 이해하면 될것이다.


      위에서 언급한것처럼 컴퓨터에서는 다양한 언어들이 사용되는데 일반 사람들이 컴퓨터에 그 언어를 전달하기는 쉽지 않다.


      그래서 언어를 만드는 사람들은 컴퓨터가 언어를 알아듣기 쉽게하기위해 그 언어를 쉽게 사용할 수 있는 툴을 만들어준다.


      여러가지 툴들이 있지만 이 책에서는 R스튜디오라는 유명한 툴을 사용한다.


      이 툴의 설치방법과 사용방법을 자세하게 설명하고, 우리가 사용할 데이터 활용을 위해 데이터를 어떻게 가공할 것이며,


      어떻게 사용할 것인지등이 설명되어있다.


       


      통계를 공부하고 있거나 언어 한두가지는 사용할 줄 아는 컴퓨터 전공자들이라면 약간의 공부를 통해 쉽게 사용할 수 있겠지만,


      기초가 부족하거나 잘 모르겠다 싶은 독자들을위해 목차에서는 선행학습을 위해 다른 챕터를 먼저 읽어도 상관없다고 친절하게 설명하고 있다.


      이렇게 3장 전까진 R과, 데이터 분석에 활용되는 기술에 대한 설명, 툴 활용 설명등의 이론학습이 끝나고 본격적으로 실습이 시작된다.


       


      상당히 지루한 작업 일 수도 있지만, 독자들이 흥미를 잃지 않게끔 워드클라우드와 같은 재미있는 예제를 실습해보거나,


      데이터에 따른 다양한 그래프 결과물을 통해 시각적으로 즐거움을 선사한다.


       


      이렇게 이론을 실체화 시키는 실습을 통해 연습을 마치고 나면, 현실세계에서 사용되고 있는 데이터들을 활용해


      프로젝트의 느낌으로 실습을 한다. 흥미로운 데이터들이 많은 것 같다.


       


      저는 컴퓨터전공 대학생으로써, 전공책을 볼 때 가장 중요한것은 프로젝트라고 생각합니다.


      처음부터 어떤걸 해야 할지 막막할때 혹은 뭔가 만들어보고 싶은데 지식이 별로 없을때,


      가이드가 되어주는 그런 책이 정말 소중하고 감사하게 생각됩니다.


      때문에 '흰것은 종이요, 검은것은 글씨니'와 같은 이론책은 별로 좋아하지도 않고 읽히지도 않습니다.


      첫째도 실습, 둘째도 실습, 실습이 구현되고 나서 이론을 해도 늦지 않다고 생각합니다.


       


      '처음 시작하는 R 데이터 분석'은 저의 요구사항처럼 '실습'위주로 구성되어 있기 때문에 마음에 듭니다.


      독자가 한단계씩 밟아 나아갈수 있도록 도와주며, '몇 일차'의 구성으로 사용자의 의욕을 끌어내고 있습니다.


      (책에서는 7일 안에 끝낼수 있다고 하지만, 시간이 어마어마하게 넉넉한 사람이 아니면... 불가능한 일이라고 생각합니다.)


       


      최근에 나오는 컴퓨터공학 서적들은 일반인들도 배울수 있도록 배려를 하며 만드는것이 예전 컴퓨터공학 서적들보다 쉬워진 이유라고 생각하며,


      좋은 현상이라고 생각합니다.


       


      책은 별로 두껍지 않으며, 알차게 구성되어있어 데이터 분석에 관심이 많은 사람이라면 한번쯤은 읽어보는것을 추천합니다!


       


      - 요약


      1. 4차 산업혁명이 도래하며 일반인들도 컴퓨터공학에 관심이 생겼다.


      2. 4차 산업혁명을 이끄는 기술 중 근본이 되는것이 '데이터', 이 데이터를 활용하는 언어중에 하나가 'R'이다.


      3. 이 책은 'R'을 활용할 수 있는 툴의 설명과, 데이터 분석에 관련된 정보를 그림을 통해 독자들에게 쉽게 다가가려고 한다.


      4. 데이터 분석에 대한 이론을 어느정도 익혔다면, 실습을 해보자 하면서 책이 독자들을 이끈다.


      5. 어느정도의 실습이 끝나면 프로젝트 형식으로 실생활에 사용되는 데이터를 활용한 실습을 하는데 이게 정말 마음에 든다.


       


      - 장점


      1. 차근차근 밟아나가는 느낌의 구성


      2. R스튜디오 설치과정과 활용방법이 들어가며 처음 접하는 독자들을 배려


      3. 다양한 그림을 통해 독자들을 지루하지 않게 배려


      4. 연습문제의 배치로 독자들이 익힌 내용을 다시한번 상기시킴


      5. 실습 난이도가 쉬운것부터 점점 난이도가 올라가며 흥미로운 데이터를 활용하는것


      6. 싸고 페이지가 많지않음(약 300 페이지) 


      7. 디자인이 예쁨


       


      - 단점


      1. '몇 일 완성'은 독자를 너무 몰아붙이는 느낌이 있지않나 싶어서 개인적으로는 별로


      2. 딱히 없음


       


       



      처음시작하는R데이터분석.jpg


       


       

    • 내가 R 이라는 언어를 처음 접한 때는 2015년 1월 경 courseraR Programming 이라는 수업에서였다. 통계에서 쓰는 언어는 SPSS, SAS 를 많이 들어봤고 공부도 해본 적이 있었지만 R 은 그때 처음으로 제대로 공부해 보았다. python 을 연상하게 하는 간결한 문법과 직관적인 사용법, 다양한 라이브러리와 오픈 소스 개발이 인상적이었지만 아쉽게도 그 당시에는 우리말로 된 교재를 찾아보기 힘들었다. 정확히 말하자면 대학교재들은 있었지만 일반인이 알기 쉽게 쓰인 책은 거의 없었다고 생각한다.거의 4년이 지난 지금 우리말로 된 R 교재는 번역서와 국내 저자가 쓴 것을 합쳐 100여 권에 이를 정도로 많다. 짧은 시간에 이렇게 많은 책이 나온 데는 기계학습과 빅 데이터의 발전으로 R이 업계에서 차지하는 위치가 이전과는 비교할 수 없을 정도로 높아진 것이 한몫할 것이다. Stackoverflow 의 2018년도 개발자 설문조사에서 R 은 세계에서 19번째로 가장 많이 쓰이는 언어였다. 또 r4stats.com 의 2017년 Job Report 에서 R 은 SAS 를 제치고 Data science 분야에서 5번째로 사랑받는 언어가 되었다(SAS 는 7위, SPSS 는 14위).R에 대해서 많은 책이 나와 있기 때문에 R 에 관심이 생겨서 당장 뭐라도 해보고 싶은 사람들은 교재의 선택에 어려움을 겪을 수 있다. 나같은 경우 한 분야에 입문하기 위해서는 두꺼운 책보다는 얇은 책을 선호하고, 튜토리얼이 세세하게 느껴질 정도로 꼼꼼하게 되어 있는 책을 좋아한다. 이 책은 그런 조건에 부합하고 있다. 풀컬러이며, 책의 시작 부분인 R과 RStudio 의 설치 안내 부분도 빨간색 박스로 눌러야 할 버튼을 강조해가면서 길을 헤매지 않도록 친절하게 안내해주고 있다. github 과 출판사 홈페이지에서 소스코드도 제공하고 있다. 사실 입문서이니만큼 소스코드의 양은 많지 않지만 여기서 쓰는 데이터를 받기 위해 소스코드를 받아야 했다.정리하면 이 책은 초급자와 R을 처음 접하는 사람에게 좋은 입문서이다. 반대로 더 자세하고 많은 내용을 기대하는 중급 이상의 사용자들에게는 권하고 싶지 않은 책이다. 그런 분들에게는 시중에 이미 우리말로 되어 있는 두껍고 다양한 책들을 권하고 싶다.


    • 10월은 행운의 달인가!
      2권의 서적을 포스팅 할 수 있게 해주신 한빛미디어 관계자분께
      깊은 감사의 인사를 드리며 포스팅을 시작하겠다.
            

      이번에 리뷰할 서적은 '처음 시작하는 R 데이터 분석'이다.


       



      " 풍분한 실습과 4가지 실전 분석 프로젝트.



      현장 밀착형 실무 패키지 활용.


       



      바로 배워 바로 써먹는 R 데이터 분석. "


       


       



      1.jpg


       



      2.jpg


       



      3.jpg


       


       



      R이라는 생소한 데이터 분석용 언어를 가지고 여행을 떠나볼까 합니다.
      예전에는 찾아보기 힘들었지만 요새 서점에 가보면 R과 관련된 책이 매우 많아졌습니다. 하지만 데이터 분석, 그리고 R언어라는 생소한 개념 때문에 쉽게 구매하지 못하고 돌아선 분들도 많지 않을까 생각합니다.
      하지만 이 서적은 데이터 분석을 처음 접하거나 초보자도 쉽게 이해할 수 있도록 커리큘럼과 학습 방법까지 친절하게 설명해줍니다.
      즉, 입문자용 서적이라는 것이죠.

      데이터분석에 매우 관심이 많은 저는 흥미롭게 서적을 읽었습니다.
      여러분도 차근차근 따라해보며 저와 같은 기분을 느끼길 바랍니다.


       

       


       


       


       



      DAY 1


       



      R을 알아보자


       



      R이라는 이름은 단순히 R을 개발한 두 사람의 이름이 R로 시작하기 때문이다.


       



      R언어 소개. 장점과 단점, 그리고 설치까지.


       


       



      undefined


       



      5.jpg


       


       



      데이터 분석용 언어다! 라고하면 떠오르는 대표적인 언어가 두가지가 있다. 바로 '파이썬' 그리고 'R'이다.
      파이썬에 흥미를 많이 느껴 R은 처음 사용해봤지만, 파이썬 만만치 않게 재미있게 다뤘던 언어다.

      R 스튜디오를 설치하고 기본 환경 설정하는 부분은 서적에 매우 자세히 나와있으니 굳이 언급할 필요는 없는 것 같다.
      다행히 R 스튜디오는 윈도우, 리눅스, 맥OS 등 다양한 운영체제에서 동작할 수 있게 나왔으며, 통계 분석쪽에 활용할 수 있는 패키지가 많은 것으로 봐서 이 친구도 당분간 많이 가지고 놀 것 같다는 느낌이 들었다.

      환경설정과 폴더 설정을 끝내고 대충 인터페이스까지 훑어봤으면 실제로 서적에 나온 스크립트 코드를 적어보자.


       


       


       


       


       



      DAY 2


       



      데이터 분석, 수집


       



      분석 설계 -> 준비 -> 가공 -> 분석 -> 도출


       



      본격적인 패키지 사용


       


       



      6.jpg


       



      7.jpg


       


       


       


       



      재미있는 친구들이 나왔다.


      바로 데이터 분석 과정이다. 아마 프로젝트를 해본 분들은 이 흐름이 머릿속에 금방 들어올 것 같지만, 


      나는 입문자다! 하는 분들은 반드시 챕터2는 정독 해보길 바란다.






      데이터 분석이 왜 필요하지? 어디에 쓰이지? 데이터 분석의 장점은 그럼 무엇이지? 등등 많은 질문이 떠오르기 딱 좋은 챕터다.






      서적에도 나와 있지만, 데이터 분석은 과거 및 현재에 일어난 상황을 활용하여 현황을 파악하고, 앞으로 다가올 상황을 예측하거나 일어날 상황에 대해 타당한 근거 자료를 제시할 수 있도록 준비하는 과정이다.






      그건 과학자가 하는 것이 아닌가? 라고 반문할 수도 있지만 그건 과거의 이야기라고 생각한다.


      이제는 일반인도 마음껏 데이터를 가지고 놀 수 있는 환경이 주어졌다. 무조건 해보는거다!






      여기서 나오는 변수와 함수 패키지, 특히 3챕터에 나오는 데이터 구조 간 관계 파악하기는 매우 중요한 내용이다.


      많은 공부 후에 다행히 요점 정리와 연습문제도 나오니, 반드시 풀어보자.


       


       


       


       



      DAY 3


       



      데이터 가공, 패키지


       



      엑셀? 프로그래밍? DB?


       



      데이터 가공하기


       


       



      8.jpg


       



      9.jpg


       


       


       






       


       



      아마 엑셀을 좀 심화적으로 배운 분들 또는 프로그래밍, DB를 배운 분들은 연산자, 함수 사용, 전처리 등 많은 개념에 대하여 전혀 낯설지 않을 것으로 생각한다. 필요한 데이터만 추출하여 정렬하는 것이 엑셀에서 함수 사용하는 방식이랑 매우 흡사하다.

      그래서 더욱 흥미가 붙는다. 사실, 데이터를 분석하는 데 있어 중요한 것은 데이터를 분석하고 연구하는 것이지 엑셀, R, 파이썬 등 도구나 언어에 너무 크게 의존하는 것은 바람직하진 않다고 생각한다(물론 도구가 큰 편의를 제공하는 것은 부정하지 않는다)

      아무튼
      슬슬 어려운 용어와 함수가 나오기 시작하는 챕터다. DB도 다뤄본 분이면 더욱 수월 할 것 같다.
      결측 값이라던지 첨도, 왜도 등 평소에 듣기 생소한 단어가 나오기 때문에 정독할 부분도 많다.

      아! 이쯤 되면 데이터를 가지고 놀기 때문에 그래프도 함께 나오면 더욱 보기 편할텐데.. 라고 생각했는데 정말 딱!
      이 챕터에 그래프가 등장한다. 역시 사람은 많은 데이터를 표로 나타내는 것보다 그래프 하나면 끝이다.
      표현할 수 있는 그래프도 상당히 많기 때문에 이 부분도 다 따라서 해보길 바란다.

      나는 패키지 부분에서 시간이 꽤 걸렸다. 어려운 점도 있지만, 좋은 패키지가 너무 많았기 때문이다.
      CRAN 웹 사이트에 가면 기능별로 패키지를 분류해 놓았기 때문에 어렵지 않게 찾을 수 있다.

      개발자가 공식 사이트에가서 필요한 api를 공부하는 것과 같은 의미로 해석하면 편할 것이다.


       


       


       


       



      DAY 4


       



      재미있는 데이터 분석


       



      함수응용, 한글 분석.. 어라.. 재미있네?


       



      이녀석들 봐라!


       



      melt 함수 사용과 cast 함수 사용에 대해선 서적에 자세히 나와 있으므로, 이 부분은 반드시 구매하여 보길 권한다.


       


       



      10.jpg


       



      11.jpg


       


       



      정말 재미있는 녀석이 또 등장했다. 바로 한글을 분석하는 것! KoNLP 패지지다.
      우리가 평소에 그림으로만 접할 수 있던 시각화 된 자료를 이 녀석이 했던 거였구나! 하고 바로 느낄 것이다.
      한글 분석하는 패키지가 있는 것처럼 영문을 분석하는 패키지도 당연히 존재한다. 이 친구들도 시간이 있다면 사용해 보길 바란다.

      여기선 애국가로 텍스트를 다운받고 형태소 분석 및 실습을 진행하는데, 가장 재미있는 파트 중 하나였다.
      이 단어를 조합하여 워드 클라우드라는 것을 만들고 색상과 배경을 지정하면 끝! 원하는 이미지에 표시할 수도 있어 너무 재미있게
      배웠다.


       


       


       


       


       


       



      DAY 5


       



      데이터 가공 마법사


       


       



      역시 서적의 후반부답다.


       



      어렵다. 정독하라!


       


       



      나는 서적을 읽다 어려운 챕터를 만나면 한 숨 고르고 반드시 정독을 한다.
      여기선 이 챕터가 그랬던 것 같다.
      데이터의 생명은 신뢰다. 정확한 데이터를 얻어 사용자에게 좋은 양질의 데이터를 제공할 수 있어야 한다.
      데이터 가공에서 필수 패키지를 꼽으라면 단연 dplyr 패키지라고 하니, 여기를 대충 읽고 데이터를 논할 순 없을 것이다.


       


       


       



      undefined


       



      13.jpg



      패키지를 설치 및 로드하여 정렬하는것은 상관없지만, 여기에 들어가는 함수 하나하나가 생소하다.
      물론 영어의 의미를 단순히 해석하여 접근하면 크게 어려울 것도 없지만 각 함수에 붙은 인자가 무슨 역할을 하는지 정확히 알아야 되기 때문에 시간이 꽤 걸렸다.
      이렇게 데이터 분석을 하고 샘플을 추출하고 연결자까지 배우면, 드디어 데이터 분석의 꽃이라 불리는 '시각화'부분이 등장한다.
      아까전에 나왔던 내용보다 좀 더 심화적인 패키지를 사용하여 데이터 분석의 날개를 달아주는 챕터라는 생각이 들었다.

      다양한 그래프를 생성할 수 있고 객체 추가, 텍스트입력, 도형 그리기, 테마 적용하기 등 사용자가 알아볼 수 있게 정리하는 다양한 방법을 제공한다.

      특히 뒷 부분에 나오는 googleVis , ggmap 패키지 활용은 누구나 흥미를 느낄 수 있는 재미있는 패키지다.
      googleVis는
      구글이 제공하는 차트를 R에서도 사용할 수 있도록 지원하는 패키지며, 웹 브라우저를 통해 플래시 기반의 움직이는 그래프를 볼 수 있다는 점이라고 나온다.
      더욱 재미있는 ggmap 패키지는 구글 서비스를 활용할 수 있다. 편리하게 구글 지도를 가져와 사용할 수 있는 친구다.

      이렇게 패키지 활용까지 끝내면 대망의 프로젝트가 나온다! 설렌다! 생각보다 빠르게 왔다.


       


       


       


       







      DAY 6, 7


       



      데이터 분석 실전 프로젝트 I


       



      치킨집이 가장 많은 지역 찾기


       



      서울시 치킨집


       


       


       



      14.jpg


       



      15.jpg


       



      프로젝트 순서는 생각보다 간단하다.

      1. 업종별 데이터 다운로드 및 기초 가공
      2. 데이터 가공 및 트리 맵 표현













  • 처음 시작하는 R 데이터 분석


    저자 강전희, 엄동란



    출판 한빛미디어



    발매 2018.10.05.

















     















    <처음 시작하는 R 데이터 분석>












    이 책의 대상자는?














    많은 양의 데이터를 바탕으로 한 프로젝트를 기획 및 개발을 해야 하는 사람.
    빠른 시간 내에 R 프로그래밍 언어를 습득해야 하는 사람.
    데이터를 가공해서 차트로 표현해야 하는 사람.
    엑셀 데이터를 분석 및 가공하는 일을 하는 일반 사무직.














    이 책의 주제는?













    R 프로그래밍에 대한 입문 서적으로, 설치부터 기본적인 활용까지 빠른 시간 내에 습득해서 실무에서 적용할 수 있도록 하는 책입니다.














    이 책을 읽는 데 걸리는 시간?














    프로그래밍을 한 경험이 있다면, 2~3일 정도면 충분하고,
    사전지식이 없다고 하더라도 일주일 남짓이면 읽을 수 있습니다.
    책에서는 일주일을 기준으로 목차가 잡혀 있는데
    총 239페이지의 얇은 책으로,
    설치 및 기본 개념 설명하는 데에 하루로 잡혀 있을 정도로 널널하게 짜여 있습니다.
    그동안 엑셀 등으로 데이터를 다루는 일을 해온 경험이 있다면,
    (이해가 좀 더 빠르다고 가정하고) 일주일도 걸리지 않을 것 같아요~














    책의 짜임새














    일주일을 기준으로 1일차부터 7일차까지
    1일차 : 학습 및 준비하기
    2일차 : 데이터 수집 및 가공
    3일차 : 데이터 분석 과정
    4일차 : 데이터 행렬 전환
    5일차 : 한글 분석하기
    6일차 : 데이터 가공 마법사
    7일차 : 데이터 시각화
    로 로드맵이 짜여져 있습니다.















    <처음 시작하는 R 데이터 분석>













    간단한 설명과 함께 때로는 시각화된 자료가 처음에 나오고,
    또 간단한 예제와 결과가 나와 있습니다.
    연습문제도 있지만, 뭔가 하나 설명할 때마다 예제들이 있어서 학습한 걸 바로바로 적용할 수 있는 예제가 많다는 점이 마음에 들었어요.
























    특히 마음에 들었던 점은 여기서 잠깐! 이라고 해서,
    책을 볼 때 뭔가 '이렇게 해 보면 어떨까?', '이런 것도 되지 않을까?', '이런 건 왜 안 되지?' 라고 생각되는 부분이 있을 때 이런 의구심을 바로바로 풀어줬던 것입니다.
    팁도 많고 부가 설명도 있는 좋은 파트입니다.

    실무에 바로 적용, 응용할 수 있을 것 같은 실전 프로젝트도 네 개가 있습니다.
    (치킨집이 가장 많은 지역 찾기, 지역별 미세먼지 농도 비교하기, 트위터 키워드 크롤링으로 워드클라우드 그리기, 지하철역 주변 아파트 가격 알아보기)

    한 입에 쏙! 이라는 파워풀한 요약 정리 끝에 연습문제가 있다는 것도 좋은 구성이었습니다.
    학습한 것들을 한 번 시각화된 자료와 함께 정리를 한 후에 문제풀이를 하니까 머릿속에 더 잘 박히는 느낌!














    아쉬웠던 점?














    기획자나 개발을 막 시작하는 입문자용으로는 정말 좋았지만, 입문 서적이라는 것이 좀 아쉬웠네요..!!
    책의 구성도 좋고 설명이나 예제가 깔끔하고 보기도 좋아서 매우 마음에 들었는데,
    입문용인 만큼 깊이가 있는 내용을 "많이" 다루지 않았다는 것이 안타까웠습니다.
    보통 개발 서적의 두께를 생각하면 이 정도의 두께에 담을 수 있는 내용은 정말 모두 담았다고 봐야죠..!
    입문서가 갖춰야 할 것들은 모두 갖춘 책이지만, 그래서 아쉬운 책이에요...
    이 책의 저자가 이보다 깊이 있는 내용을 다룬 책을 쓴다면 살 의향 100%인데 말이에요 ㅎ;;








  • 새로운 것을 시작하는 것은 언제나 즐거운 일입니다. 그리고 그 새롭게 시작하는 일이 시대적인 흐름에 중심에 있는 일이라면 더욱더 즐겁고 기대가 되는데요. 이번에 소개드릴 책은 'R 네이버 분석'이라는 책으로 요즘 이슈인 빅데이터를 다루는 R 스튜디오 사용법과 실무에서 활용 가능한 여러 기능과 예시를 학습할 수 있는 책입니다. 사실 이 책을 접하기 전에  R 스튜디오에 대해서도 전혀 알지 못해서 어떠한 선입견 없이 새로운 프로그램 와 빅데이터를 다룰 수 있을 거라는 기대감에 여러 번 읽으면서 직접 실습을 해보았던 책이기도 합니다.  


     



    책에 대해서 소개를 하자면 앞서 말씀드린 것처럼 R 스튜디오에 대한 인문서이며, 직접 따라 할 수 있는 실습 예제와 함께 예제를 따라 했을 때 화면에 출력되는 결과들을 담고 있는 전형적인 프로그램 책입니다. 책의 디자인이나 구성은 한빛미디어에서 출판한 말끔 깔끔하고 필요한 내용들만 담겨있었고 다만 아쉬운 점이었다면 입문서인 만큼 조금 더 전문적인 그리고 실무에 가까운 활용에 대한 부분은 조금은 부족하다는 생각이 들었습니다. 



    책을 직접 따라 하면서 느꼈던 점이라면 R 스튜디오가 가지는 여러 장점들. 쉽고 간편하다 그리고 무료이다.라는 것을 느낄 수 있었고 다른 빅데이터를 처리하는 프로그램과도 비교하면서 읽어보았는데요. 프로그래밍에 대해서 전혀 모르거나 처음 빅데이터를 접하는 이들에게 R 스튜디오는 좋을 것 같다는 생각이 들 만큼 간단하면서 직관적인 부분이 많다고 생각이 듭니다. 또한 다른 측면에서는 가볍게 빅데이터의 개념에 대한 학습하고 싶으시다면  R 스투디오를 추천합니다. 그리고 다른 R 스튜디오에 대한 서적을 접하지는 못했지만 'R 데이터 분석'은 기본에 충실하면서 빅데이터와 R 스튜디오에 흥미를 느낄 수 있는 여지를 많이 남겨놓은 입문서라는 느낌을 받기에 충분했습니다. 


     



    책에 소개되어 있는 예제들은 처음 프로그램을 배웠을 때, 접하게 되는 여러 프로그래밍 입문서들과 비슷한 수준으로 작성되어 있는데요. 프로그램에 대해서 전혀 모르는 사람이라도 쉽게 접근할 수 있을 만큼 친절하게 설명되어 있었습니다. 또한 단순하게 보고 따라 하는 것이 아니라 왜 이렇게 사용하는지에 대한 이론적인 배경도 간단하지만 소개되어 있는 만큼 어렵지 않게 소개하고 있는 것이 가장 큰 특징이자 장점입니다. 


     

     


     

     


     



    다만 조금 아쉬운 점이 있었다면, 입문서인 만큼 처음 접하는 사람들에게는 좋은 책이지만 R 스튜디오를 어느 정도 사용을 하고 있고 프로그램에 대해서 공부를 한 사람들에게는 부족한 부분이 많이 느껴지는 책이기도 합니다. 실무적인 부분에서 크게 활용되는 부분인 통계 쪽 내용이 다른 내용들에 비해서 부족한 점은 이 책의 다음 시리즈가 나와야 하지 않을까?라는 생각으로 이어질 만큼 아쉬운 점으로 기억될 것 같습니다. 그럼에도 불구하고 앞서 말씀드린 기본기에 충실한 입문서인 만큼 빅데이터와 R 스튜디오에 대해서 관심이 있으신 분들이라면 첫 시작을 이 책을 선택하시면 후회하지 않을 겁니다. 


     

     


     

  • 바야흐로 정보를 다루는 것이 가장 큰 이슈로 작용하고 있는, 빅 데이터의 시대입니다. 분위기에 동조해서 초보자를 대상으로 만들어진 ‘처음 시작하는 R 데이터 분석’을 접하게 되었습니다.


     



    처음 시작하는 R 데이터 분석 이미지책은 320여 페이지로 얇은 편입니다.


    7일. 일주일안에 데이터 분석의 입문에 해당하는 지식을 익힐 수 있도록 구성되어 있습니다. 기대 됩니다.


     



    처음 시작하는 R 데이터 분석 이미지책에서 제시하는 로드맵


    당연하지만, 어디까지나 이 기준은 R에 대해 전체적이고 대략적인, 하지만 R에 친숙해질 수 있을 수준을 기준으로 하고 있습니다. 서점에 가보면 상당히 두꺼운 책들을 보신적이 있을 겁니다.


     



    처음 시작하는 R 데이터 분석 이미지1차원을 벡터라고 하는군요..


    각 장에서는 제목과 해당 장에서 학습하게 될 내용을 다루고 있습니다.


     



    처음 시작하는 R 데이터 분석 이미지각 예제의 화면


    각각의 예제는 명령어를 입력 화면과 실행 결과를 같이 보여 줍니다. 따라 하면서 화면에 어떤 결과물이 나와야 하는지 비교하면서 진행하기에 적합한 방식이라 생각되었습니다. 덕분에 틀린 곳을 빠르게 찾을 수 있기도 했습니다.


     



    처음 시작하는 R 데이터 분석 이미지학습에 도움을 주는 여기서 잠깐!, 팁, 주의


    페이지 곳곳에는 코딩시 주의해야 하거나 익혀두면 좋을 팁등이 있음으로 참고 하면서 읽으면 좋도록 구성되어 있습니다.


     



    처음 시작하는 R 데이터 분석 이미지각장의 정리를 하는 페이지 ‘한입에 쏙'


    각 장의 마지막에는 해당 장에서 다루었던 내용중 중요한 내용들을 모아두고 있음으로 나중에 찾아 보거나 할때 조금 수월할 것 같습니다.


     



    처음 시작하는 R 데이터 분석 이미지배운건 응용해 봐야 하죠! 연습문제 풀어보기


    뭐든 배웠으면 얼마나 이해하고 있는지 알아봐야 하는 관문이 있습니다. 마찬가지로 각 장의 마지막에는 연습문제가 있습니다. 이제 배우기 시작한 새내기가 얼마나 잘 이해하고 있겠습니까.


     


    다시 앞쪽을 뒤적이며 겨우겨우 풀어 봅니다.


     



    처음 시작하는 R 데이터 분석 이미지한글이 깨져 보이긴 하지만, 처음 만들어본 치킨집 분포 통계결과



    책을 보면서 계속 걸리던 부분이 한글 부분이었습니다. 콘솔에서 한글이 표시되지 않는 현상은 해결을 했지만, 그래프쪽에서는 해결을 보지 못한 상태입니다. 이 부분은 계속해서 방법을 찾아 봐야 할 것 같습니다.


     



    전체적으로 초보자가 따라하기 편하게 잘 만들어진 책이라 생각되었습니다. 다만 편집, 교정쪽의 정말, 살짝 아쉬웠던 부분을 지적하자면, P83~84의 코드실행부분일것 같습니다. 데이터를 가져오는 곳에서는 아무런 설정이 없었는데 실행결과 부분에서 갑자기 header = TRUE 라는 값이 붙어 있어서 다시 앞뒤로 다시 확인을 해보다 바로 아래쪽에서 옵션항목에서 다루는 것을 확인 했습니다.


     


    잘 따라가다가 KoLNP 플러그인 인스톨 부터 시간을 잡아 먹다가 그게 해결되니 이번엔 필터링 문제가 생겼습니다. 예제를 잘 따라했다고 생각했는데 어디서 문제인지를 모르겠기에 한참을 뒤적거리다 우연히 발견하게된 코드힌트기능에서 문제점을 발견했습니다. 책에서는 'filter()' 를 사용하고 있는 반면 코드힌트에서는 'Filter()' 로 대문자를 사용해야 하더군요. 정확한 이유는 모르겠지만 이것 때문에 한참을 돌고 돌았던 것 같습니다.


     



    이미 R을 어느정도 사용하고 있는 분에게는 추천드리기가 조심스럽습니다. 상당히 자세히 동작 하나하나에 대한 설명이 붙어 있는 관계로 초보자에게 적합하기 때문입니다.  R을 접하기 위한 스터디에서 교제로 사용해도 좋을 것 같다는 생각이 들었습니다. 혼자서도 따라하기 쉬운 난이도이지만, 익숙한 분이 조금씩 예제를 바꿔 가면서 진행한다면 좀더 재미가 있지 않을까 싶습니다.


     


    책에서 소개된 곳만으로도 초보자에게는 신기한 곳이지만, 통계데이터를 구할 수 있는 곳들을 이곳저곳 소개시켜 주었다면 좀더 좋지 않았을까 하는 아쉬움도 살짝 있었습니다.


  • [도서리뷰] 처음 시작하는 R 데이터 분석


     


     





    R을 처음 시작하는 또는 통계를 사용해 무엇인가 수치를 측정해보고 싶은 사람에게 딱 맞는 책이라 할 수 있다. 


    처음을 시작하게 도와주는 책 답게 앞으로 사용하게 될 프로그램의 기능이나 각 메뉴에 대해 자세히 설명하고 한글이 깨지는 문제 상황에 대해서도 적어주었다.


    분석에 사용될 데이터의 정의나 데이터 분석이 왜 필요한지 데이터 분석의 일련의 과정을 먼저 설명해주면서 데이터 분석을 왜 해야 하는지 데이터 분석이 어떤 상황에서 필요한지에 대해 잘 설명해주고 있다. 문과라면 어려울 수 있는 명칭이나 개념들은 그림을 사용해 설명하여 문과 계열의 전공자도 데이터 분석을 접하는 데 도움이 될 수 있도록 책을 구성한 점은, 실제 비즈니스를 하는 사람이나 경영을 하는 사람도 데이터 분석이 무엇인지 알 수 있게 해주고 더 나아가 기본적인 데이터 분석을 할 수 있도록 도움을 준다.


     


    책의 중반부부터는 데이터를 가공하는 과정에서 사용되는 기능들에 대해서 예를 들면서 보여주고 있다. 초보자를 위한 책답게 꼼꼼한 설명이 들어가 있어 독자의 이해를 돕고 있다.


    다만 초보자 위주의 책이고 실습 위주의 내용이 많다 보니 좀 더 어려운 기능이나 책에 없는 기능들에 대해서는 어떤 내용을 참고하면 좋을지에 대한 내용이 많지 않아 R이란 데이터 분석 언어에 대해 더 깊게 공부하고자 하는 사람에게는 오히려 정보가 부족해 정말 필요한 정보는 없다고 생각이 들 수도 있다는 느낌을 받았다.


     


    그래도 초보자가 보기에 충분한 예제들과 프로젝트로 진행하는 것들에 대해서는 데이터를 어디서 얻으면 되는지에 대한 안내와 더불어 가공하는 방법들도 상세히 다루고 있어 초보자가 접하여 R 언어를 익히기 위한 입문서로 좋은 책이란 것은 의심할 여지 없이 분명하다.


     


     



    [처음 시작하는 R 데이터 분석] 책의 자세한 내용은 [링크]에서 확인할 수 있다.


     

  • 1) 서평시작


     


    지은이 머리말에 적힌 대로 “데이터 분석에 처음으로 도전하는 사람을 위한 책” 이다.


    데이터 분석하는 과정 전체를 간단하게 설명 해주고, 데이터분석 실전 프로젝트 예제를 통해 전체 과정을 한번 실습 할 수 있게 해준다. 그 과정에서 프로그래밍 언어 R을 사용 하는 여러 방법을 알려 주고 있다. 


     


    2) 책의 구성


     


    7일 완성 학습 로드맵이라는 부제를 내세워서 챕터와 별개로 7단계로 학습할 과정을 나누어 제시하고 있다. 


     


    3) 학습준비하기


     


    작업환경 세팅은 항상 재미 있다.


     


    4) 데이터 수집 및 가공


     


    분석할 데이터를 준비 하는 단계이다. 그 전에 먼저 데이터 분석의 단계와, 데이터의 구조에 대해서 배운다. 데이터 세트, 데이터 프레임 등 모르는 용어가 막 등장 한다. 하지만 뭐 “다 아는 것들이구먼…”


    txt 나 csv 로 된 데이터를 불러오는 것은 늘상 하던 작업이지만, R 을 사용해서 하니 굉장히 편했다.


    데이터 분석을 위한 기초 통계 분석 함수를 소개 하는 부분에서는 약간 좌절이었다. 이래서 수학공부가 필요 하다.


     


    5) 치킨집이 가장 많은 지역 찾기


     


    불과 5장의 내용으로 원하는 목적에 맞는 결과를 도출 할 수 있었다. 그림을 빼면 정말로 얼마 되지 않는 내용이다.  


    도수분포표를 만들고 데이터프레임으로 변환 한뒤 이것을 트리맵으로 시각화 하는 과정이 간단하게 이루어 졌다.


     


    6) 감상


     


    대작 게임의 튜토리얼을 막 끝낸 느낌이다. 데이터 분석이 뭔지 잘 몰랐는데, 간단하게 나마 데이터분석에 대한 감을 잡을 수 있었고 기본적인 것을 배울 수 있었다.


     


    데이터 분석이라는게 데이터를 획득 하고 정리해서 잘 저장하는 것이 반이라는 생각이 들었다. 나머지 반은 데이터에서 무엇을 얻고자 하는지 하는 목적의식 및 domain knowledge.


     


    프로그래밍 언어 R에 관해서는 이게 왜 대표적 데이터 분석용 프로그래밍언어인지 잘 알것 같다. 생각보다 많은 작업을 정말 단순하게 할 수 있었고  정리, 분석, 시각화 까지의 모든 과정에 필요한 도구를 제공해 주는 것이 놀라웠다.


     


    반대로 R이 아닌 내가 알고 있는 프로그래밍 언어로 이 작업을 했을 때의 걸렸을 시간을 생각 해 보니 더욱 그러 했다. 다양한 언어를 배워야 하는 이유 이다.

  • #한빛미디어 #r데이터분석 엑셀로 비주얼 기능 최적화하고 #형태소분석 까지 _ #실무바이벌 이가 없음 잇몸으로 #자습으로 하나씩

  • 또 한권의 R 학습서를 읽었다.


     


    벌써 3권째의 R 학습서를 실습하면서 공부한 결과... 


    이제는... 자주 사용하는 패키지와 함수, 문법 등은 이제 눈에 익은 듯 하다.


    역시 공부는 반복학습이 최고인가 보다.


     


     


    이번에 "처음 시작하는 R 데이터 분석"을 선택한 이유는...


     


    1. R에 대해 여전히 관심을 가지고 있었고...


    2. 그 동안 2권의 학습서를 익혔음에도 불구하고, R 프로그래밍에 대한 지식의 부족을 느끼고 있기 때문이며,


    3. 한빛 미디어에서 발간한 신간이 궁금했기 때문이다.


     


     


     


    그럼 이 책에 대해 이야기 하자면...


     


    이 책은 R을 활용한 데이터 분석 방법에 대한 책이다.


     


    특히, 목차와는 별도로 7일간의 학습 스케줄을 제시하여, R을 공부하고자 하는 (나와 비슷한) 독자들에게 목표의식을 심어주고 있다.


    실제 내가 학습 스케줄을 따라해 본 결과, 하루의 학습분량을 따라가기에 큰 어려움은 없었다.


    R 프로그래밍 단기 완성... 정도라고 할 수 있겠다.


     


     


     


    그리고, 초보자를 위해 이해하기 어려운 개념은 간단한 그림(다이어그램)을 통해 알기 쉽게 설명해 주고 있다.


    기초적인 부분이지만, 잘 이해하기 힘든 데이터 구조에 관한 설명도 아래와 같이 그림을 활용해 알기 쉽게 설명해 주고 있다.


     


     


     


    R 스튜디오의 여러 가지 기능도 충실히 설명하고 있다.


    나는 R 스튜디오의 메뉴에서 원시 데이터를 불러오는 기능이 있단걸, 이 책을 통해서 처음 알게 되었다.


    생각보다 많은 기능이 있음에도 몰라서 활용하지 못함이 부끄러워지는 순간이었다.


     


    각 챕터의 마지막 부분에선 본문의 내용을 엑기스 형태로 정리를 하고 있으며, 연습문제를 통해 점검할 수 있도록 구성되어 있다.


    즉, 본문 학습 + 엑기스 정리 + 연습문제 = 3회 반복 학습.. 으로 구성되어 있다.


     


    데이터 분석 실전 프로젝트를 통해...


    "공공 데이터 수집 -> 정제 -> 시각화 -> 분석"까지의 데이터 분석 사례를 실습해볼 수 있도록 구성되어 있다.


    소위 고기를 잡는 방법(프로세스)을 직접 해볼 수 있게 유도하고 있다.


     


    인터렉티브 그래프나 워드 클라우드... 다른 책들도 다루고 있는 부분이긴 하다.


    그런데 사용하는 패키지나 방법이 달라서 실습해 보는데 재미있었다.


    (앞으로도 시각화 패키지는 계속 개발될테니, 자신이 잘 활용할 수 있는 패키지를 선택하면 될 듯 하다)


     


    하나 더, 이 책의 저자는 유튜브에서 강의를 제공한다. (유튜브 채널 : JANY)


     


     


     


     


    몇 가지 아쉬운 부분은...


     


    이 책에선 R이 가진 가장 중요한 장점인 "통계 분석 기법"에 대해서는 상대적으로 빈약하다.


    부록으로 "카이제곱 검정, t 검정, 상관분석" 정도만 간단히 소개하고 있다.


     


    초보자의 입문용 학습서라는 기획의도에 맞도록 맛보기만 수록했다는 설명이 있긴하지만... 


    왠지 아쉽기는 하다.


     


    사실 "통계 분석"이란 부분은 별도의 학문으로 정립이 되어있을 정도로 방대하면서 전문적인 부분이다.


    통계 분석을 조금 깊게 다룬다면... 책이 무척 두껍고 어려워 졌을 수도 있을 것이다..


     


     


    그리고 책 내용에서 몇 가지 오류를 발견했다. (데이터 파일은 한빛 미디어에서 다운받은 파일 기준이다.)


     


    1. "read.table()함수로 TXT 파일 가져오기" 챕터(83 p.)의 데이터 파일(data_ex.txt)의 내용이 교재와 다르다. 수정이 필요하다


    2. 125 p. 예제 파일(Sample4_y17_history.xlsx, Sample4_y16_history.xlsx)의 내용이 교재와 다르다. 파일내용 수정 후 사용하면 된다.


    3. 189 p. filter() 함수에 오타가 있다. 책에선 소문자로 filter()로 기재되어 있는 부문을 대문자 Filter()로 수정해야 제대로 실행이 된다.


    4. 그리고...  (트위터, 구글지도) API를 활용하는 부분에서 오류가 발생했다. 추가 작업이 필요한 것 같은데...


    이건 해결 방법을 몰라 실습해보질 못했다. (개인적으로 가장 아쉬운 부분이었다.)


     


     


     


    몇 가지 아쉬운 부분이 있지만...


     


    전반적으로, 이 책은 "R 데이터 분석 초보자의 입문서"라는 목적에는 충실한 책이라고 생각한다.


    소프트 웨어 인스톨과 기능에 대한 설명, 다이어 그램을 활용한 쉬운 소개, 공공 데이터 수집 방법과 정제방법...


    데이터 분석의 기본에 대해선 그 어느 책보다 충실한 입문서가 아닌가 생각된다.


     


     


    개인적으로 아쉬운 부분은...


    3권의 책을 공부해보고, 스터디도 했었지만 여전히 초보를 못 벗어났다.


    고수가 되려면 어떻게 해야 하나.... 고민이다.


     


    되고 싶다.. 고수...


     


  • 많은 입문자들이 데이터 분석 입문 언어로 R언어를 뽑고 있다. 파이썬과 다르게 R만의 장점이 있다는 것이다. 이 책은 R언어의 입문을 다루는 책이다. 따라서 초보자들이 R스튜디오를 설치하는 방법부터 시작해 데이터 분석을 시작하기에 적합한 책이다. 

    이 책에서 소개하는 관점은 다음과 같다.
    -전공을 막론하고 초보자가 쉽게 이해하고 따라 할 수 있는 상세한 설명
    -데이터 분석에 대해 체계적으로 이해할 수 있도록 기초부터 단계적으로 설명
    -분석 결과를 가시적으로 표현하는 시각화 기법에 대한 기본 설명
    -현장 밀착형 데이터 핸들링 기법 및 분석 기법에 대한 예시 활용







    본인의 실력에 맞게 알맞은 학습 로드맵을 정할 수 있다. 입문기를 다루고 있으며, R이라는 언어의 진입장벽은 낮기 때문에 7일만에 끝낼 수 있다.



     

















    챕터 구성은 초보자도 쉽게 이해할 수 있게 구성되어 있다. 프로그램 설치부터 기본기 다지기, 패키지와 함수에 관한 내용까지 다룬다. 패키지란 R언어에 필요한 기능을 추가하는 요소이다. 따라서 사용자가 필요한 패키지를 다운받아 쉽게 설치해 사용한다. 초보자에게는 패키지를 어떻게 활용하는지만 배워도 빠른 속도로 진도를 나아갈 수 있다.























    이제 실제 프로젝트를 진행하면 폴더 관리가 중요하다. 코드 실행에 있어 작업 폴더 영역을 설정하고 데이터가 있는 폴더를 구분해 좀 더 직관적인 코드와 구성이 가능하다.























    데이터 프레임은 R언어에서 중요한 데이터 타입이다. 리스트형의 확장 형태인 데이터 프레임은 데이터 분석을 좀 더 용이하게 해준다.























    R언어의 코드는 직관적이고 간단하며 사용자위주이다. 단 몇줄만으로도 의미있는 데이터 분석이 가능하다는 것이다. 보시다시피 단 한줄로도 변수의 중첩 부분을 정렬해 데이터를 나타낼 수 있다.
























    R언어에서는 패키지에 대한 이해가 필수이다. 물론 최근의 대부분의 프로그래밍 언어는 패키지와 라이브러리를 활용한 코딩이 대세를 이루기 때문에 패키지와 라이브러리를 원활히 사용할 줄 알아야 한다.

    R언어는 CRAN이라는 R언어 패키지 매니저를 통해 관리된다. 따라서 간단한 명령어를 이용해 패키지를 설치할 수 있다. 데이터 분석과 R언어에 필수적인 패키지와 유용하게 사용되는 패키지가 많이 소개되고 있다.























    워드클라우드란 단어의 빈도에 따라 글자의 크기를 달리해 시각적으로 빈도가 높은 단어와 낮은 단어를 쉽게 구분할 수 있도록 지원한다. 워드클라우드를 생성할 단어 데이터만 정돈되 있다면, 단 2줄만으로도 워드클라우드를 생성할 수 있다.























    ggplot2 패키지는 막대그래프, 꺽은선 그래프, 히스토그램, 산점도 등을 다양한 차트와 그래프를 나타낼 수 있는 R언어의 필수급 패키지입니다. 데이터를 이용한 그래프와 제목, 축 등 다양한 디자인 요소와 함께 googleVis패키지와 함께 사용하면 더욱 좋다.
























    R언어는 파이썬과 다른 언어들과 함께 데이터 분석에 있어 중요한 도구이다. 그 언어를 사용하는데 있어 수많은 입문서와 활용서들이 존재한다. 그 중 이 책은 R언어를 전혀 모르는 사람부터 시작할 수 있는 훌륭한 입문서이다. 쉬운 구성한 간단한 코드 구성 및 패키지 활용까지 다양하게 알려주고 있다. 















    "여러분을 위한 가장 기초의 R언어 입문서"

     












  • undefined


     



    한마디로 잘 정리된 요약서라고 표현하고 싶어요.


    더이상 할 말이 없어요. ㅋ


    이 기준으로 책 사실때 판단하시면 좋을 것 같아요.


    누가 읽으면 좋을까 했을때, 요약서도 선호도가 많이 갈리잖아요.


    어떤 지식을 처음 접했을 때, (1) 일단 간단하게 요약된 것을 보고, 깊숙하게 공부하는 사람이 있는가 하면, (2) 책은 좀 두껍지만, 초보자를 위해 상세하게 설명한 책을 좋아하시는 분들이 계시잖아요.

     



    이 책은 전자에 가깝습니다.

     



    SAM_6718.JPG


     



    목차를 보시면, 최근 R 에서 자주 사용하는 패키지 등을 사용합니다.


    가끔 시대에 뒤떨어지는 패키지를 사용하는 책들도 있는데, 뭐 무난합니다.

     



    저는 요즘 tidy 시리즈로 R 을 사용하거든요. 그래서 기본 함수보다 tidy 계열 함수를 더 선호한답니다. 이 책은 완전한 tidy 라기 보다는 대중성을 고려한 것 같아요.

     



    SAM_6719.JPG


     



    이 책의 좋은 점 중 하나가, 간단하지만, 우리가 놓칠 수 있는 것들을 잘 설명한다는 점입니다.

     



    팁을 잘 보실 필요가 있습니다.

     



    undefined


     


    R 스튜디오 작업 환경 설정 설명도 잘 되어있습니다.


     



    undefined


     



    이론 설명도 군데군데 그림과 함께 간결하게 설명하고 있습니다.


    이점이 장점이자 단점입니다. 간결해서, 기존에 통계나 R 을 공부하신 분들은 쉽게 쉽게 그냥 그냥 넘어갈 수 있지만, 처음 시작하시는 분들은 참 어려울 수도 있습니다.

     



    R까기2 처럼, 이런말 저런말로 상세하게 설명한 책이 처음 하시는 분들에게는 더 도움이 될 수도 있습니다.

     



    SAM_6724.JPG


     


    깨알같은 주의 표시. 사실 핸즈온때 뒤에서 보조강사하다보면 의외로 이런 곳에서 많이 막힙니다.


     



    SAM_6725.JPG


     


    어떤 데이터분석 책에서나 나오는 워드 클라우드. 간혹 별다른 설명이 없기 때문에, 때로는 본인이 많이 검색하고 따로 공부하셔야 이해하실수도 있습니다. 뭘 공부해야 하는지 단초를 알려주는 느낌을 군데군데서 느꼈습니다.


     



    SAM_6726.JPG


     


    R 데이터분석의 핵심인 dplyr 을 따로 챕터를 뽑아서 하나하나 설명해 놓았습니다. 저는 간결한 설명이 좋았습니다.


     



    SAM_6727.JPG


     


     



    마지막에는 실습을 할수 있도록, 데이터 처리 전 과정을 따라해봅니다. 


    실습 주제도, 별로 어렵지 않은 내용들이라서 이해가 쉽습니다.

     


     


    이 책은 원래 요약서를 좋아하시거나, 전에 R을 조금 공부했는데  다시 공부하고 싶으시거나, 정리집이 필요하신 분들이 찾아보기용으로 옆에 두시면 좋을 것 같습니다. 책도 얇아서 들고 다니기 좋습니다. 사실 이 책에 나오는 내용들만 제대로 이해하고, 사용해도 엄청나니까, 이 책으로 여러번 반복하시면, 그 외에 조금 더 깊은 이야기들도 쉽게 공부하실 수 있을꺼에요. ^^








  • 한빛미디어 9월 리뷰 이벤트!
























    아주 잘 도착했습니다:) 

    외관부터 깔끔하고 두깨도 타 프로그래밍 언어와 달리 얇은(?) 편이라 마음에 들었습니다.
    '7일 완성 로드맵' 이라는 문구가 더 끌려서 원했는지도 모르겠습니다.

    7일 완성 과정은 다음과 같습니다.
























    1일차 학습 준비하기
    2일차 데이터 수집 및 가공
    3일차 데이터 분석 과정
    4일차 데이터 행렬 전환
    5일차 한글 분석하기
    6일차 데이터 가공 마법사
    7일차 데이터 시각화
    (목차도 대략 같은 맥락으로 진행된다.)

    여느 프로그래밍 책처럼 "Hello World!" 출력하는 것이 나옵니다.(반갑)
























    R프로그래밍은 처음이라 설치하는 것부터 따라해보았습니다.
    간혹 다른 책을 보면 중간에 생략된 것이 있어서 진행 사항에서 불편했던 기억이 있었는데,
    이건 깔끔+정확하게 나와 술술 넘어갔습니다.
    다양한 예제 덕분에 새로 접하는 함수도 어렵지 않게 익힐 수 있었습니다.
    또한, 챕터마다 요점 정리와 연습문제가 실려있어서 해본것을 다시 되새김할 수 있어 좋았습니다.
    ※ 책 속 예제들은 한빛미디어 홈페이지에서 다운로드할 수 있습니다.


































    (+) 참고로 유투브 채널에 동영상 강의도 있습니다. 
    직접 해당 유투브 채널로 가 보았는데, 전체 강의가 다 올라와 있지는 않고 현재 2강까지 업로드되어 있었습니다. ( 10월 10일 기준 ) 이해하는 데 도움이 될 듯 싶습니다.

    한줄평: 구성이나 내용 정리가 깔끔하다. 
    (but!! 7일 완성은 조금 무리가 있었습니다...)













     








     


  •  



    책 제목 : 처음 시작하는 R 데이터 분석



    저자 : 강전희, 엄동란



    출판년도 : 2018.10.05









     






    최근 데이터 사이언티스트라는 직업에 관심을 가지게 되었는데 마침 기회가 되어


    데이터 분석의 첫 발을 이 책을 통해 내딛게 되었다.


     


    책 표지에 있는 "치킨집이 가장 많은 지역은 어디?" 라는 문구가 무척 익숙하다.


    티비에서 가끔 치킨집이 얼마나 있고 어디에 가장 많이 있는지 분석을 해  주는데


    내가 직접 데이터를 분석해서 할수 있다니!


     


    항상 가장 꼼꼼하게 읽는 책 머리말을 보면 이 책의 정확한 타겟층을 알 수 있다.



    나처럼 데이터 분석에 처음으로 도전하는 사람을 위한 책이다.


     





     







    책의 내용을 살펴보면...



    책이 기초서라 그런지 무려 "7일 만에 끝내는 R 데이터 분석" 이다.


    R 데이터 분석을 위해 프로그램 설치부터 데이터를 수집 및 가공하고 분석하는 과정을 


    단계별로 학습할 수 있도록 구성이 되어있다.


     





     


     


     


    프로그래밍을 접한지 15년이 되었지만 처음 접해보는 R 언어.



    초보자를 위한 책 답게 R언어란 무었인가 부터 어떤 프로그램을 설치해서 



    어떻게 시작해야하는지 잘 설명되어 있다.


     








     


    그 이후로는 데이터를 분석하는 방법, 형태, 구조, 관리등에 대해서 설명하고


    데이터를 저장 및 불러오기, 처리하는 방법에 대해서 설명한다.


    어느 정도는 지루한 문법 및 개념이 힘들 때 즈음 여러 패키지를 사용하여 몇몇가지


    시각적인 프로젝트를 만들며 기존에 배웠던 내용들을 활용할 수 있게 구성되어 있다.


    그리고 실적 프로젝트로 "치킨집이 가장 많은 지역 찾기", "지역별 미세먼지 농도 비교하기",


    "트위터 키워드 크롤링으로 워드 클라우드 그리기", 지하철역 주변 아파트 가격 알아보기"


    를 직전 만들어 보면서 배움의 재미를 더해준다.


     


     





     


     


     



    책을 읽으면서 마음에 들었던 부분은...






    유튜브 인강 링크


     



    나의 기준에 있어 전공서는, 특히 입문서는 어떻게 해서든 독자에게 정보를 쉽게 전달해 줘야 한다고 생각한다.


    기술관련 전공서는 내용자체가 기술에 대한 설명이라 딱딱해서 쉽게 지치기 마련이다.


    그러므로 입문서는 쉽고 가볍게, 장황한 설명보다는 같이 해나가는 방식으로 호기심과 흥미를 유발해야 한다.


     



    이 책은 예제 자체도 생활과 밀접한 내용으로, 흥미있을 만한 주제로 진행이 되고,


    프로젝트가 실습형이라 따라하면서 실제로 구현되는 걸 보며 보람도 느낄 수 있다.


    그리고 저자가 제공하는 유튜브도 입문자에게 꽤나 유용하다.


    개인적으로 치킨집 분석과 아파트 부동산 실거래가 분석은 나에게 무척 흥미로운 주제였다.


     


     


     



    책을 읽으면서...


    요즘 새롭게 떠오르는 직군인 데이터 분석에 있어 가벼운 마음으로 쉽게 접근할 수 있는 책인것 같다.


    책이 담고있는 분량과 내용도 초보자에게 부담스럽지 않고 좋았다.


    데이터 분석이 어떤 일이고 어떻게 하는지 간단히 맛보고 싶다면 이 책이 좋은 시작점이 될 것이다.



    이 책을 통해 데이터 관리, 분석에 대해 쉽고 재미있게 접근해 볼 수 있었다.


     


     


     


     



    Reference Link



    r download



    예제 파일 다운로드



    책 소개 및 목차, 구매 (한빛미디어)



    저자의 동영상 강의


     

  • 제목 :  처음 시작하는 R데이터 분석


     



    수정됨_처음시작하는R데이터분석.jpg


     


    그동안 R에 대해 많이 들었고, 빅데이터니 뭐니 해서 언젠가는 꼭 해보고 싶었는데, 어려운 책들이 많았습니다.


    다행히, 이 책을 통해서 용기를 얻었네요. 어렵게만 생각했던 R을 이제는 편하게 대할수 있었다는것이 성과라고 할 수 있겠네요.


     


    제 경우, 통계학은 잘 모르고 수학도 못했는데도 불구하고 내용이 어렵지 않았습니다. 


    최대한 쉽게 설명하려는 의도였는지도 모르겠습니다.


     


    외형적인 특성을 보자면, 그림이 많고 다양한 색상으로 편집되어, 편하게 읽을수 있었습니다.


    가독성도 좋습니다.


     


    다행히도 페이지수가 많지 않아서 "이 정도는 충분히 할 수 있겠다"는 생각이 들었습니다.


    그래서, 7일만에 끝낼수도 있겠지만, 휴일 하루 날잡아서 처음부터 끝까지 따라하면 하루만에도 가능할것 같습니다.


    (다만, 어떤 실습을 하던, 타이핑 실수등의 문제로 의도치 않은 결과가 나올때도 있어서 중간에 포기하거나 시간이 좀 더 걸릴수도 있습니다)


     


    장점이면서 단점인데, 입문서라서 모든 내용이 다 있지는 않겠지만, 한발 더 나아갈수 있는 계기가 될 수 있을듯 합니다.


     


    로드맵을 꼭 확인해서, 이 책이 어떻게 구성되었는지 확인한후, 깃헙에 나와있는 데이타를 다운받은후 실습을 시작하세요.


    유튜브 동영상도 있긴한데, 책만으로도 충분할듯 싶습니다.



    수정됨_로드맵.jpg


     



    수정됨_깃헙_유튜브위치 (2).jpg


     


     


    실전프로젝트에 나와있는 치킨집 분석을 우리동네로 적용해 보니, 꽤 재미있는 실습이 되었습니다.


    이 자료를 통해, 어디에 치킨집을 해야할지 결정하는데 큰 도움이 될것 같습니다.


    (그렇다고 치킨집을 한다는것은 아닙니다 ^^)



    undefined


     


     





  • 최근 계속해서 R책을 보고 있다. 결국 원하는 건 세이버매트릭스 분석을 따라해보고 싶은건데, 꾸준히 안 본 탓도 있지만, R코드가 왠지 눈에 잘 들어오지 않아서 그렇기도 하다(특히 index가 1부터 시작하는 부분은 굉장히 어색함). 그래서 더 초보용 책을 보는 중인데, 이번에 보게 된 책은 정말 초보자들에게 유용할 거 같다. 물론 프로그래밍을 모르는 사람이 보면 다를 수도 있겠지만, 이 정도면 솔직히 떠먹여주는 급이 아닐까 생각한다.


    초보용 책이라고 하더라도 그 안에서 다시 난이도가 나뉜다고 생각하는데, 이 책은 그 중에서도 낮은 난이도를 갖는다. 책의 품질이 안 좋다는 게 아니라 오히려 보기 쉽게 잘 정리해서 품질이 좋다는 뜻이다. 각 장마다 연습문제가 있는 걸 보면 교재용으로도 의도한 거 같은데, 이 역시 목적 달성을 위해 좋다. 소소하게는 전체가 컬러로 되어 있는 점도 보기 좋다고 생각한다.


    실습



    초보자용 책이기도 하고 프로그래밍 책이기 때문에 설치부터 설명을 하는데, 지난 번 다른 책을 보면서, mro version 설치를 하다 문제가 생겼고, 시간이 없어 재설치를 못해 R Studio를 사용할 수 없는 상황이었다. 어떻게 할까 하다가 우연히 https://rstudio.cloud를 알게 되어서, 이 참에 테스트를 해봐야겠단 생각이 들어 여기서 실습을 진행해봤고, 한글 문제만 제외하면 초보자들에겐 정말 적절한 사이트란 생각이 들었다. 아래 스크린샷처럼 대부분의 코드가 잘 동작했다.


    p55, 기본 변수 설정


    p81


    p81, readxl 설치


    p81, readxl 설치 후 엑셀 파일을 읽어 살펴보기


    p105, 엑셀 파일 속성, 행/열 개수, 열 제목 확인


    p107, dplyr 설치 후 ID를 ID_NUM이라고 변경해봄


    p168, R에 내장된 airquality data set을 이용해 reshape2 기본 동작 테스트


    p225, R에 내장된 economics data set을 ggplot2로 사선 그리기


    실습 프로젝트


    마지막에는 4가지의 실습 프로젝트 코드를 보여주는데, 간단한 분석이라면 이런 코드를 가지고 조금만 수정하면 잘 쓸 수 있을 거 같다. 3번째 project는 한글이 깨져서 워드 클라우드를 그려봐야 제대로 나오지 않으므로 하지 않았고, 4번째 project는 csv file을 그냥 upload하면 encoding 문제로 사용할 수 없어 iconv로 utf8로 바꾼 후 해봤지만 결국 실패했다. R studio 문제를 해결하면 다시 해보고 싶다.


    project 1






    treemap에서 한글이 깨진 점만 제외하면 실행이 잘 된다


    project 2








    역시 boxplot에서 한글이 깨지는 점만 빼면 잘 된다


    기타


    책에 나온 실습 코드를 진행하면서 psych, descr, reshape2, extrafont, wordcloud2, ggplot2, googleVis, ggmap, treemap은 전부 설치하고 실행하는 데 문제가 없었고, 딱 하나 문제가 발생했다. 한글 분석을 위한 “KoNLP”인데, 오류가 발생해서 몇 가지 시도를 했지만 결국 실패를 했다. 이 부분 역시 R Studio문제를 해결하면 다시 해보고 싶다.


    KoNLP 설치 실패


    locale을 바꿔서 다시 해보려 했으나 역시 실패


    localeToCharset()의 결과를 보면 되야 할 거 같으나 실패



    KoNLP 문제 해결을 위해 참고했던 link들
    https://github.com/haven-jeon/KoNLP/issues/53
    http://hreeman.tistory.com/174
    http://euriion.com/?p=154
    http://r-bong.blogspot.com/2016/03/rstudio_26.html



  • IMG_20181001_140510_781.jpg


     


    #한빛미디어


    #나는_리뷰어다


     


     


     



    "한 권으로 끝내는 R 로 하는 데이터 분석 입문의 모든 것"


     


     


     


     


    최근에 인공지능에 대해서 공부하면서 


    케글Kaggle이라는 사이트를 통해서 


    여러가지 도전과제들을 해보는것을 목표 삼고 있었습니다.


     


    인공지능을 딱! 하고 입문을 하고 나니


    정말로 크게 다가오는 것은 


    뭐니뭐니 해도


     


    데.이.터.


     


    였습니다.


     


    아시는 분은 아시겠지만 이 데이터라는걸 제대로 분석을 해두는 것만으로도 


    굉장히 큰 도움이 되기 때문입니다. 


     


    그래서 데이터 사이언스 관련된 책들을 보던 찰나에 


    데이터 분석용을 위한 R 이라는 언어가 눈에 들어왔습니다.


     


    그런데 막상 데이터 분석 쪽도 공부해야하고


    R에 대해서도 알아야 한다 라는 막연한 두려움이 있었죠.


     


    그러던 찰나에 한빛미디어의 나는_리뷰어다 9월 리뷰로 당첨된 도서가


    뙇!!


     


    바로 이 <처음 시작하는 R 데이터 분석> 이었습니다. !! 


     


     


     


     



    01 - hello world.PNG


     


     


     


     


    막연한 두려움을 갖고 책을 보기 시작했는데 


    오우야


     


    마치 바로 앞에서 손을 붙잡고 계단을 올라가는 것처럼 


    책에 나와있는 것을 하나하나 따라하면서 나아가다보면


    큰 어려움 없이 따라가는 부분들이 많았습니다.


     


    R에 대해서 쉽게 설명이 되어 있고 


    그런 R과 데이터 분석에 대해서도 


    책의 제목처럼 처음시작하는 사람들을 위해 친절하고 이해하기 쉽도록 설명을 잘 하고 있습니다.


     


    어느정도 프로그래밍을 할줄 아는 사람이라면 누구나 쉽게 


    그리고 설령 프로그램에 대해서 잘 모른다고 하여도 


    책에 나와있는 설명대로 따라한다면 어느순간 자기도 모르게


    마치 엑셀이나 파워포인트를 다루는 것처럼 R 이라는 언어와 R 스튜디오라는 도구를 통해서


    책이 보여주는 것들을 따라하며 이해하는 모습을 볼 수 있었습니다.


     


    R 이라는 언어와 데이터 분석이라는 분야와 상관없이


    초보자들도 이해하기 쉬운 방법으로 이야기하며 


    책에 나와있는 커리큘럼대로 따라할 수 있게 만든


     


    "자! 밥상은 차려놨으니 숟가락만 가지고 와!


    아 미안, 숟가락도 있다 몸만 와!"


     


    같은 느낌이랄까요?! 


     


     


    데이터 과학에 관심이 있고 


    데이터 분석을 해보고 싶으며


    R이라는 언어도 궁금하지만


    약간의 두려움을 가지고 계신 분이라면


    적극 추천합니다! 

  • 요즘 4차산업혁명시대가 대두 되면서 인공지능이나 빅데이터 관련된 부분이 이슈가 되고 있는데요...


    그 중에서 빅데이터 관련되어 R 데이터 분석이나 통계 관련된 내용을 심심치 않게 볼수가 있었어요.






    그런데 저는 아직 R 프로그래밍이란 것이 무엇인지 접해 볼 생각도 못했고 접해 보지도 않았었는데 이번에 한빛미디어에서 출판된 처음시작하는 R데이터 분석이라는 책을 만나게 되었네요.







    R데이터분석






    처음 보았을때 첫 표지에 7일 완성 로드맵이라는 글자가 왠지 거슬리더라구요.^^ 


    일반적으로 책을 사면 20일 완성... 몇일 완성 이렇게 되어 있는데 정말 책을 읽다 보면 그 몇일안에 완성하는 것이 얼마나 어려운지 매번 깨닫기 때문에 이 R데이터도 어떻게 7일만에??? 라는 느낌을 갖고 있으면서 책장을 넘겨 보았어요.


    하지만 책장을 덮을때 쯤에는 7일 완성 로드맵을 적어 놔도 되겠다는 생각을 갖게 되더라구요.






    1장에서는 빅데이터와 R의 장점과 단점, R프로그래밍 설치 하고 실행하는 방법 들에 대해서 다루고 있는데요...


    저는 1장을 보면서 가장 좋았던 부분은 한입에 쏙 부분이었어요.













    R 스튜디오를 설치 하고 나서 단축키를 사용하는 방법에 대해서 자세히 다뤄 놓았더라구요. 일반적으로 프로그래밍을 다룰때 단축키를 사용하는 부분은 코딩하는 속도를 무척이나 단축 시켜 주지만 이렇게 정리가 되어 있지 않으면 익숙해 질 때까지 단축기가 무엇인지 찾는데 많은 시간을 허비 하는 경우가 많기 때문에 이렇게 주로 사용하는 기능들에 대해서 정리 해 놓은것이 참 마음에 들더라구요.






    2장부터는 본격적으로 R프로그래밍을 사용하기 위한 준비 작업과 문법적인 부분들을 설명하고 있는데요.


    이 책을 읽다 보니 처음에는 파이썬 인가? 라는 생각이 들었네요.^^






    사용하는 방법이 무척이나 파이썬과 닮아 있었기 때문이었는데요. 파이썬 만큼 많은 기능이 있지는 않다고 하네요.^^ 대신에 데이터 가공하는 면에서는 월등하기에 빅데이터 관련 프로그래밍이겠죠.^^






    4장 이후에 본격적인 빅데이터 관련된 자료를 보면서 엑셀기능과 많이 유사하구나 하는 생각이 들었는데요.


    이러한 엑셀이나 TXT 데이터를 불러 와서 데이터 가공하는 능력이 정말 대단하다는 생각이 들더라구요.






    물론 자료를 가공하기 위해서는 명령어를 알고 넘어 가야겠지만 일반적인 TXT 파일로 된 데이터를 이렇게도 가공할 수 있겠구나 하고 느끼게 되었네요.






    제가 엑셀을 그렇게 썩 잘하지는 못하지만 엑셀에서 구현하지 못하는 기능들(제가 엑셀을 전체를 다 알고 있지는 못해서 어쩌면 구현이 가능 할수도 있습니다.) 을 단 몇줄의 코드로 데이터를 가공하는데는 정말 신선한 충격을 받기도 했네요.






    마지막 파트 데이터분석 실전 프로젝트에서는 치킨집이 가장 많은 지역 찾기 또는 지역별 미세먼지 농도 비교하기 등....


    실제 사이트에서 데이터를 다운 받아서 가공하면서 R 프로그래밍을 직접 다루기도 하고 트위터 API를 활용하여 위드클라우드로 표현하는 방법등을 실습하면서 R 프로그래밍의 매력에 빠져 볼 수 있었네요.







    자세한 정보는 한빛미디어 홈페이지 - http://www.hanbit.co.kr/store/books/look.php?p_code=B6952054209 에서 미리보기를 해 보실 수 있습니다.






    이 책을 읽기 전에는 R 프로그래밍이 무엇인지 무척 궁금하기만 했었는데...


    이 책을 읽고 나니 R 프로그램이란것이 무엇인지 알 수 있게 된것 같네요.






    이 책은 갑자기 R 프로그래밍을 해야 하는분이 쉽게 접근 할 수 있게 구성이 되어 있고요.


    프로그래밍을 전혀 모르는 사람도 그냥 교재에서 나오는 데로 따라만 하면 하나 하나 결과를 볼 수 있게 구성이 되어 있어서 누구라도 무난하게 따라 할 수 있을것 같네요.






    특히나 제가 생각하는 장점은 실습위주라서...( 사실 프로그래밍 공부는 실습 하고 결과 나오면서 문법을 분석하는 것이 좀더 실감 나는 것 같아요) 지루 하지 않게 볼 수 있는 점이라고 생각 하고요.






    회사 관리자 분들도 그냥 가볍게 R 프로그래밍이 무엇인가 하고 보셔도 괜찮을것 같아요.


    이 책을 읽다 보면 이런 데이터를 이렇게도 가공할 수 있네? 라는 생각이 드니 엑셀에서 어렵게 가공하거나 데이터베이스에서 테이블 만들어서 가공하고 다시 추출하고 이러한 과정 없이도 명령어 몇개에 가공 되는 것을 보면...


    업무 특성에 맞춰서 어떤 것을 사용하면 좋을지 안내해 주는 역할을 하셔도 손색이 없을것 같네요.^^






    그리고 실제 업무를 하시는 분들도 그냥 가볍게 읽어 보시고 엑셀에서 처리하지 못했던(?) 아니면 어렵게 가공해야 했던 일들을 가볍게 가공할 수 있다는 것을 배워 두시면 데이터 가공 할때 특성에 맞게 사용하신다면 선택의 폭이 넓어질 것이라고 생각이 드네요.






    학생들 입장에서는 나중에 업무에서 필요할때 읽어 봐도 될만한 책이라고 생각되기에 미리 공부해 둘 필요는 없을것 같아요.


    그래도 궁금한 학생이 있다면 훑어 보면서 이런 기능들이 있고 이런 것을 만들때 사용하면 좋겠다 라는 정도로 이해 해 둔다면 혹시라도 나중에 프로젝트 할때 많은 부분에서 유리 할 수는 있겠네요.^^


  • 최근들어 빅데이터, 인공지능으로 데이터의 처리가 많은 관심을 받고 있습니다. 그중에서도 데이터 처리를 위한 R언어가 주목을 받고 있습니다.







    초보자들이 놓칠 수 있는 세세한 부분까지 과할 정도로 설명이 되어 있습니다. 프로그램에 대한 첫입문을 한 분이거나, R을 처음으로 접하는 분들은 쉽게 따라하실 것이라 생각이 듭니다.







    R스튜디오와 코드로 작성하는 방법에 대해서 상세히 비교 설명합니다. 또한, 데이터를 처리할 수 있는 페키지와 처리 함수들에 대해서 소개를 합니다. 마지막에는 이둘을 이용하여 공개데이터를 받아 처리하는 실습을 같이 해볼 수 있는 부분까지 설명이 되어 있네요.


     



    짧은 시간 부담없이 읽을 수 있는 책입니다.

  • 컴퓨터 언어의 세계를 떠난 지가 한참 되어서 요즘에 어떤 언어가 각광을 받는지 어떤 언어가 나왔는지는 잘 모른다. 가끔 이런 책을 받을 때 잠시 그 세계로 들어가 보기도 한다. 다소 생소한 R이라는 언어는 대체 어디에 사용하는 것인가. 데이터 분석이라고 하면 빅 데이터와 떼려야 뗄 수 없는 관계다. 


     


     


     


     


    생각 외로 R은 최근에 나온 언어가 아니었다. 벨 연구소에서 만든 S프로그래밍 언어를 참고하여 누구나 사용할 수 있도록 만든 R은 1993년에 처음 소개되었다. 그리고 그 언어는 빅데이터 시대가 도래한 이후에 거대 IT기업에서 사용하면서 알려졌다. 1분 동안 구글은 무려 69,500,000건의 단어를 번역한다고 한다. 빅데이터는 대용량의 데이터와 데이터의 가용성, 데이터의 기하급수적인 성장 속에서 의미 있는 정보를 뽑아낸다. 


     


     


    R의 공식 웹사이트는 https://www.r-project.org/ 로 들어가면 CRAN Mirrors에서 R설치 파일을 다운로드할 수 있다. 책에는 다운로드하고 각종 설정을 할 수 있도록 자세하게 안내하고 있다. 그리고 마무리가 되면 스크립트 생성 및 코드를 실행하면 되는데 코딩 좀 해봤다는 사람은 모두 안다는 "Hello world!"를 출력하면 끝이다. 


     


    프로그래밍을 해본 사람이라면 이 책을 이해하는 데에는 큰 어려움은 없을 것이다. 프로그래밍할 때 역시 변수, 함수, 패키지가 사용되는데 R도 똑같이 사용하여 작업한다. 패키지를 설치할 때도 패키지를 로드할 때도 사용하는 형식은 아래와 같다.


     


     


     


    install.packages('설치할 패키지명')


     


    library (로드할 패키지명)


     


     


    데이터 종류는 단일형인 벡터, 행렬, 배열이 있고 다중형으로는 리스트, 데이터 프레임이 있다. 책을 읽다 보니 책에서 다루고 있는 것이 통계학과 분석에서 많이 겹친다는 것을 볼 수 있다. 연산자와 비교 연산과 논리 연산, 데이터 추출부터 정제까지의 과정은 통계학의 신뢰성을 확인하는데 필수적이다. 앞에서 풀어서 설명한 후에 챕터가 끝날 때에는 요약을 해서 이해하기 쉽도록 핵심만 정리하고 있다. 그리고 연습문제를 같이 실어놓았다. 


     


     


    TV의 시사나 예능프로에서 흔히 볼 수 있는 워드 클라우드는 R로도 만들 수 있다. wordcloud2() 패키지를 설치하면 되는데 기본형 워드 클라우드를 생성하는 것이나 배경 등 색상 변경하고 모양 변경 등을 할 수 있다. 


     


     


     


    선택한 색상만 반복되는 워드 클라우드


     


     wordcloud2(demoFreq, size = 1.6, color = rep_len(c("red", "blue"), nrod(demoFreq)))


     


    원하는 이미지에 워드 클라우드 표시하기


     


     wordcloud2(demofreq, figPath = "peace.png")


     


    일정한 방향으로 정렬된 워드 클라우드


     


    wordcloud2(demoFreq, minRotation = -pi / 6, macRotation = -pi / 6, rotateRatio = 1)


     


     


     


    책의 뒤에는 데이터 분석을 위한 실전 프로젝트를 담아두었다. 치킨집이 가장 많은 지역 찾기나 지역별 미세먼지 농도 비교하기, 트위터 키워드 크롤링으로 워드 클라우드 그리기, 지하철역 주변 아파트 가격 알아보기 실습을 따라 해 볼 수 있다. 예를 들어 대전의 한 지역의 치킨집 분포를 알아보려면 아래처럼 시도하면 된다. 


     


     


     


    01 http://www.localdata.kr/  에서 지역별로 다운로드할 수 있는데 대전광역시의 [다운로드]를 누른다.


    02 다운로드한 대전광역시 데이터의 압축을 풀면 치킨집만 있는 엑셀 파일을 선택한다.


     


    03 엑셀 파일 속의 필요 없는 데이터는 삭제하고 치킨집과 주소명만 남긴다.


     


    04 데이터 가공과정을 거친다. 


     


    library("readxl")


     


    ck <- read_excel ("치킨집_수정.xlsx")


     


    head(ck)


     


     


     


    addr <- substr (ck$소재지전체주소, 11,16)


     


    head(addr)


     


     


     


    addr_num <- gsub("[0-9]", "" , addr)


     


    addr_trim <- gsub (" ", "" , addr_num)


     


    head(addr_trim)


     


     


     


    library(dplyr)


     


    addr_count <- addr_trim %<% table() %>% data.frame()


     


    head(addr_count)


     


     


     


    treemap(addr_count, index = ",", vSize = "Freq", title = "대전 서구 동별 치킨집 분포")


     


     


     


    책의 뒤에는 도움이 될 수 있는 정보들이 있다. 변수 간의 차이를 확인할 수 있는 카이제곱 검정이나 변수 간의 연관성을 확인하는 상관분석, 그룹간의 평균을  비교하는 t검정이 간단하게 기술되어 있다. 

  • 예제소스

    등록일 : 2018-09-21

    • R로 배우는 데이터 분석 기본기 데이터 시각화 : 예제와 함수 중심으로 배우는 빅데이터 분석

      후나오 노부오

    • IT CookBook, R로 배우는 딥러닝

      박혜정 , 석경하 , 심주용 , 황창하

    • 그것이 R고 싶다

      양중기

  • 닫기

    해당 상품을 장바구니에 담았습니다.
    장바구니로 이동하시겠습니까?