한빛출판네트워크

IT/모바일

파이썬 라이브러리를 활용한 머신러닝(번역개정2판)

사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

한빛미디어

번역서

판매중

파이썬 라이브러리를 활용한 머신러닝(번역개정2판)
좋아요: 3
  • 저자 : 안드레아스 뮐러 , 세라 가이도
  • 역자 : 박해선
  • 출간일 : 2022-02-25
  • 페이지 : 504쪽
  • ISBN : 9791162245279
  • 물류코드 :10527
  • 구판정보 :이 도서는 <파이썬 라이브러리를 활용한 머신러닝>의 개정판입니다.

합계 : 29,700

  • 사이킷런 핵심 개발자에게 배우는 머신러닝 이론과 구현 

     

    현업에서 머신러닝을 연구하고 인공지능 서비스를 개발하기 위해 꼭 학위를 받을 필요는 없습니다. 사이킷런(scikit-learn)과 같은 훌륭한 머신러닝 라이브러리가 복잡하고 난해한 작업을 직관적인 인터페이스로 감싸주는 덕분이죠. 이 책에서는 사이킷런의 핵심 개발자가 복잡한 수학을 동원하지 않고 실용적으로 머신러닝을 구축하는 모든 단계를 설명합니다. 미적분, 선형대수, 확률 이론을 공부하지 않았어도 이 책을 통해 머신러닝을 활용할 수 있게 될 것입니다.

     

    ※ 본 번역개정2판은 scikit-learn 업데이트에 따라 전반적으로 내용을 갱신한 원서 4쇄를 기반으로 합니다. 오탈자를 바로잡고, 시각적 편의를 위해 풀컬러로 인쇄했습니다.

     

     

     

    상세이미지_파이썬 라이브러리를 활용한 머신러닝(번역개정2판)_940px.jpg

     

     

  • [저자] 안드레아스 뮐러

    독일 본(Bonn) 대학교에서 머신러닝으로 박사 학위를 받았습니다. 1년간 아마존의 컴퓨터 비전 응용 부서에서 머신러닝 연구자로 일한 뒤 뉴욕 대학교의 데이터 과학 센터에 합류했고, 현재는 컬럼비아 대학교에서 ‘Applied Machine Learning’ 과목을 가르치고 있습니다. 지난 4년 동안 학계와 산업계에서 널리 사용하는 머신러닝 툴킷인 사이킷런의 핵심 기여자와 관리자로 활동했습니다. 또 잘 알려진 여러 머신러닝 패키지를 직접 만들거나 개발에 참여했습니다. 뮐러의 소망은 머신러닝 애플리케이션 개발의 진입 장벽을 낮추고, 수준 높은 머신러닝 알고리즘을 손쉽게 사용할 수 있는 공개 툴을 만드는 것입니다.

     

    [저자] 세라 가이도

    오랫동안 스타트업에서 일해온 데이터 과학자이자 뛰어난 콘퍼런스 발표자입니다. 파이썬, 머신러닝, 대량의 데이터와 기술 세계를 좋아합니다. 미시간 대학교의 대학원에 입학했으며, 지금은 뉴욕에 거주하고 있습니다. 

    [역자] 박해선

    기계공학을 전공했지만 졸업 후엔 줄곧 코드를 읽고 쓰는 일을 했습니다. 텐서 플로우 블로그(tensorflow.blog)를 운영하고 있고, 머신러닝과 딥러닝에 관한 책을 집필하고 번역하면서 소프트웨어와 과학의 경계를 흥미롭게 탐험하고 있습니다.

    『인공지능 전문가가 알려 주는 챗GPT로 대화하는 기술』(한빛미디어, 2023), 『혼자 공부하는 데이터 분석 with 파이썬』(한빛미디어, 2023), 『혼자 공부하는 머신러닝+딥러닝』(한빛미디어, 2020), 『Do it! 딥러닝 입문』(이지스퍼블리싱, 2019)을 집필했습니다.

    『핸즈온 머신러닝(3판)』(한빛미디어, 2023), 『코딩 뇌를 깨우는 파이썬』(한빛미디어, 2023), 『트랜스포머를 활용한 자연어 처리』(한빛미디어, 2022), 『케라스 창시자에게 배우는 딥러닝 개정 2판』(길벗, 2022), 『개발자를 위한 머신러닝&딥러닝』(한빛미디어, 2022), 『XGBoost와 사이킷런을 활용한 그레이디언트 부스팅』(한빛미디어, 2022), 『구글 브레인 팀에게 배우는 딥러닝 with TensorFlow.js』(길벗, 2022), 『파이썬 라이브러리를 활용한 머신러닝(번역개정2판)』(한빛미디어, 2022), 『머신러닝 파워드 애플리케이션』(한빛미디어, 2021), 『파이토치로 배우는 자연어 처리』(한빛미디어, 2021), 『머신 러닝 교과서 with 파이썬, 사이킷런, 텐서플로(개정3판)』(길벗, 2021), 『딥러닝 일러스트레이티드』(시그마프레스, 2021), 『GAN 인 액션』(한빛미디어, 2020)을 포함하여 여러 권의 책을 우리말로 옮겼습니다.

     

     

  • CHAPTER 1 소개

    1.1 왜 머신러닝인가?

    __1.1.1 머신러닝으로 풀 수 있는 문제

    __1.1.2 문제와 데이터 이해하기

    1.2 왜 파이썬인가?

    1.3 scikit-learn

    __1.3.1 scikit-learn 설치

    1.4 필수 라이브러리와 도구들

    __1.4.1 주피터 노트북

    __1.4.2 NumPy

    __1.4.3 SciPy

    __1.4.4 matplotlib

    __1.4.5 pandas

    __1.4.6 mglearn

    1.5 파이썬 2 vs. 파이썬 3

    1.6 이 책에서 사용하는 소프트웨어 버전

    1.7 첫 번째 애플리케이션: 붓꽃의 품종 분류

    __1.7.1 데이터 적재

    __1.7.2 성과 측정: 훈련 데이터와 테스트 데이터

    __1.7.3 가장 먼저 할 일: 데이터 살펴보기

    __1.7.4 첫 번째 머신러닝 모델: k-최근접 이웃 알고리즘

    __1.7.5 예측하기

    __1.7.6 모델 평가하기

    1.8 요약 및 정리

     

    CHAPTER 2 지도 학습

    2.1 분류와 회귀

    2.2 일반화, 과대적합, 과소적합

    __2.2.1 모델 복잡도와 데이터셋 크기의 관계

    2.3 지도 학습 알고리즘

    __2.3.1 예제에 사용할 데이터셋

    __2.3.2 k-최근접 이웃

    __2.3.3 선형 모델

    __2.3.4 나이브 베이즈 분류기 

    __2.3.5 결정 트리

    __2.3.6 결정 트리의 앙상블

    __2.3.7 (한국어판 부록) 배깅, 엑스트라 트리, 에이다부스트

    __2.3.8 커널 서포트 벡터 머신

    __2.3.9 신경망(딥러닝)

    2.4 분류 예측의 불확실성 추정

    __2.4.1 결정 함수

    __2.4.2 예측 확률

    __2.4.3 다중 분류에서의 불확실성

    2.5 요약 및 정리

     

    CHAPTER 3 비지도 학습과 데이터 전처리

    3.1 비지도 학습의 종류

    3.2 비지도 학습의 도전 과제

    3.3 데이터 전처리와 스케일 조정

    __3.3.1 여러 가지 전처리 방법

    __3.3.2 데이터 변환 적용하기

    __3.3.3 (한국어판 부록) QuantileTransformer와 PowerTransformer

    __3.3.4 훈련 데이터와 테스트 데이터의 스케일을 같은 방법으로 조정하기

    __3.3.5 지도 학습에서 데이터 전처리 효과 

    3.4 차원 축소, 특성 추출, 매니폴드 학습

    __3.4.1 주성분 분석(PCA)

    __3.4.2 비음수 행렬 분해(NMF)

    __3.4.3 t-SNE를 이용한 매니폴드 학습

    3.5 군집

    __3.5.1 k-평균 군집

    __3.5.2 병합 군집

    __3.5.3 DBSCAN

    __3.5.4 군집 알고리즘의 비교와 평가

    __3.5.5 군집 알고리즘 요약

    3.6 요약 및 정리

     

    CHAPTER 4 데이터 표현과 특성 공학

    4.1 범주형 변수

    __4.1.1 원-핫-인코딩(가변수)

    __4.1.2 숫자로 표현된 범주형 특성

    4.2 OneHotEncoder와 ColumnTransformer: scikit-learn으로 범주형 변수 다루기

    4.3 make_column_transformer로 간편하게 ColumnTransformer 만들기

    4.4 구간 분할, 이산화 그리고 선형 모델, 트리 모델

    4.5 상호작용과 다항식

    4.6 일변량 비선형 변환

    4.7 특성 자동 선택

    __4.7.1 일변량 통계

    __4.7.2 모델 기반 특성 선택

    __4.7.3 반복적 특성 선택

    4.8 전문가 지식 활용

    4.9 요약 및 정리

     

    CHAPTER 5 모델 평가와 성능 향상

    5.1 교차 검증

    __5.1.1 scikit-learn의 교차 검증

    __5.1.2 교차 검증의 장점

    __5.1.3 계층별 k-겹 교차 검증과 그외 전략들

    __5.1.4 (한국어판 부록) 반복 교차 검증

    5.2 그리드 서치

    __5.2.1 간단한 그리드 서치

    __5.2.2 매개변수 과대적합과 검증 세트

    __5.2.3 교차 검증을 사용한 그리드 서치

    5.3 평가 지표와 측정

    __5.3.1 최종 목표를 기억하라

    __5.3.2 이진 분류의 평가 지표

    __5.3.3 다중 분류의 평가 지표

    __5.3.4 회귀의 평가 지표

    __5.3.5 모델 선택에서 평가 지표 사용하기

    5.4 요약 및 정리


    CHAPTER 6 알고리즘 체인과 파이프라인

    6.1 데이터 전처리와 매개변수 선택

    6.2 파이프라인 구축하기

    6.3 그리드 서치에 파이프라인 적용하기

    6.4 파이프라인 인터페이스 

    __6.4.1 make_pipleline을 사용한 파이프라인 생성

    __6.4.2 단계 속성에 접근하기

    __6.4.3 그리드 서치 안의 파이프라인 속성에 접근하기

    6.5 전처리와 모델의 매개변수를 위한 그리드 서치

    6.6 모델 선택을 위한 그리드 서치

    __6.6.1 중복 계산 피하기

    6.7 요약 및 정리


    CHAPTER 7 텍스트 데이터 다루기

    7.1 문자열 데이터 타입

    7.2 예제 애플리케이션: 영화 리뷰 감성 분석

    7.3 텍스트 데이터를 BOW로 표현하기

    __7.3.1 샘플 데이터에 BOW 적용하기

    __7.3.2 영화 리뷰에 대한 BOW

    7.4 불용어

    7.5 tf–idf로 데이터 스케일 변경하기

    7.6 모델 계수 조사

    7.7 여러 단어로 만든 BOW(n-그램)

    7.8 고급 토큰화, 어간 추출, 표제어 추출

    __7.8.1 (한국어판 부록) KoNLPy를 사용한 영화 리뷰 분석

    7.9 토픽 모델링과 문서 군집화

    __7.9.1 LDA

    7.10 요약 및 정리


    CHAPTER 8 마무리

    8.1 머신러닝 문제 접근 방법

    __8.1.1 의사 결정 참여

    8.2 프로토타입에서 제품까지

    8.3 제품 시스템 테스트

    8.4 나만의 추정기 만들기

    8.5 더 배울 것들

    __8.5.1 이론

    __8.5.2 다른 머신러닝 프레임워크와 패키지

    __8.5.3 랭킹, 추천 시스템과 그 외 다른 알고리즘

    __8.5.4 확률 모델링, 추론, 확률적 프로그래밍

    __8.5.5 신경망

    __8.5.6 대규모 데이터셋으로 확장

    __8.5.7 실력 기르기

    8.6 마치며

  • 실제 문제에 대한 해법을 찾는 머신러닝 기술자를 위한 본격 머신러닝 입문서 

    사이킷런 1.x 버전을 반영하고 구글 코랩에서 실습 가능한 번역개정2판 

     

    이 책은 머신러닝 알고리즘을 밑바닥부터 만드는 법을 다루지는 ‘않으며’, 대신 사이킷런과 다른 라이브러리에 이미 구현된 방대한 양의 모델을 사용하는 법에 집중합니다. 머신러닝과 인공지능에 대한 사전 지식이 필요 없는 입문서로, 파이썬과 사이킷런을 중심으로 머신러닝 애플리케이션을 성공적으로 만드는 모든 단계를 밟아갑니다. 여기서 소개하는 방법들은 상용 애플리케이션을 만드는 데이터 전문가는 물론 연구자와 과학자에게도 도움이 될 것입니다. 파이썬과 NumPy, matplotlib 라이브러리에 친숙하다면 이 책의 대부분을 이해할 수 있습니다.

     

     

    ★ 번역개정2판의 특징

    본 번역개정판은 원서 4쇄를 기반으로 하며, 초판 발행 이후 알려진 오탈자를 모두 바로잡았습니다. 또한 scikit-learn 1.x 버전 릴리스에 따라 전반적으로 내용을 업데이트했습니다. 나아가 구글 코랩에서 실습이 가능하도록 전반적으로 수정했습니다.

     

     

    주요 내용

    • 머신러닝의 기본 개념과 응용
    • 널리 사용되는 머신러닝 알고리즘의 장점과 단점
    • 머신러닝으로 처리한 데이터를 표현하는 방법
    • 모델 평가와 매개변수 튜닝을 위한 고급 방법
    • 체인 모델과 워크플로 캡슐화를 위한 파이프라인
    • 텍스트 데이터를 다루는 기술
    • 머신러닝과 데이터 과학 기술 향상을 위한 조언 

     

    추천사

     

    이 책은 사이킷런이 제공하는 핵심 알고리즘들의 사용법을 알려줍니다. 여기에 정성 가득한 역자주까지 더해져서, 머신러닝에 입문하는 파이썬 개발자에게는 더할 나위 없는 선물입니다.

    _오동권, 니트머스 CTO

     

    이 책은 복잡한 수식은 걷어내고 사이킷런을 기반으로 각 머신러닝 알고리즘의 원리와 구현 방법을 다양한 예제로 설명합니다. 약간의 프로그래밍 지식만 있다면 복잡한 이론적 배경 없이도 혼자 학습하기 좋은 책입니다.

    _이상훈, 삼성생명 DA Lab

    _‘한국 스파크 사용자 모임’ 운영자, 『실시간 분석의 모든 것』 역자

     

    머신러닝 시장을 선도하는 라이브러리의 핵심 개발자가 쓰고, ‘텐서플로 코리아 그룹’에서 한국 인공지능 개발자들을 위해 애써주시는 박해선 님이 우리말로 옮겼습니다. 중간중간 받아본 번역 원고에서 느껴지는 저자와 역자의 내공과 정성에 감명받았습니다.

    _개앞맵시, 『밑바닥부터 시작하는 딥러닝』 역자

     

    파이썬으로 머신러닝을 시작하려는 사람을 위한 환상적인 안내서입니다. 제가 사이킷런을 시작했을 때 이 책이 없던 게 한스러울 따름입니다!

    _해나 월릭, 마이크로소프트 리서치 선임 연구원

    •  


      사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서



      Introduction to Machine Learning with Python


      파이썬 라이브러리를 활용한 머신러닝 (번역개정2판)


       


      표지


       


      C / C++ / Java 등의 프로그래밍 언어를 공부하고


      Linux, Server, Network 등에 대해서 경험을 쌓아오며 지금까지 밥벌이를 해온 나에게


      머신러닝 / 딥러닝 이라는 신문물이 등장하면서 상당한 당혹감을 느낄 수 밖에 없었다.


       


      그래서 먹고 살기 위해 머신러닝에 대해 공부를 시작할 수 밖에 없었는데,


      벡터, 행렬, 접선, 미분 ... 나를 괴롭히는 수학 !


      이과생이지만 사실 수포자인 나에게 정말 가혹한 현실이 아닐 수 없다.


       


      지금까지 Software Engineer로 먹고살아온 나로써는


      이러한 수학적인 접근 보다는


      라이브러리를 이용한 활용 중심으로도 접근해보고 싶다는 생각이 있었다.


       


      이에 걸맞는 책이 바로 이 책이 아닐가 싶다.


       


      번역개정2판 1쇄


       


      나와 같은 Needs가 있는 사람이 적지 않았던 것 같다.


      2017년 초판에 이어 개정판을 한 번도 아니고 두 번째나 발행 한 것을 보면 말이다.


       


      번역개정2판 특징


       


      그런데, 개정을 해주는 것만으로도 감지덕지인데, 그냥 그저 그런 수정판이 아니다.


      scikit-learn 1.x 버전에 맞춰 업데이트 된 것 뿐만 아니라 내용도 더 추가가 되었다.


       


      구성


       


      오래된 이미 검증된 책이라 그런지


      책의 전체적인 구성도 너무나 잘 요약해서 설명해주고 있다.


       


      저자 인터뷰


       


      한국어판을 위한 저자 인터뷰도 실려있다.


      형식적인 인터뷰가 아니라 독자들의 질문에 대한 답까지 포함된


      저자의 솔직한 심경도 그대로 담겨진 그런 인터뷰다.


       


      한국어판 부록


       


      목차를 보면 한국어판에서 추가된 항목을 볼 수 있다.


      Chapter 한 개당 하나 정도씩 추가 되어 있고, 그 내용도 정말 충실하다.


       


      술술


       


      개조식 서술 방식이 아니라 이야기 하는 방식으로 풀어나가는 책 내용도 정말 마음에 든다.


      말 그대로 술술 읽어나가며 공부할 수 있기에 책에 대한 부담감이 훨씬 적게 느껴지기 때문이다.


       


       


      그리고 이 책의 가장 큰 장점 중 하나라고 꼽고 싶은 예제 파일 !!!



        - https://github.com/rickiepark/intro_ml_with_python_2nd_revised


       


      옮긴이 박해선님이 훨씬 더 좋게 업그레이드 해준 내용을 담고 있다.


       


       


      최근 딥러닝의 인기에 조금 버림받은 것 같은 느낌이 들긴하지만


      사실 대부분의 문제는


      scikit-learn으로 구현되는 머신러닝으로 해결하는 것이 훨씬 더 효율적이지 않을까 한다.


       


      머신러닝 또한 수학적인 배경을 갖고 깊이 공부하는 것이 중요하긴 하지만


      활용을 중심으로 scikit-learn 라이브러리 활용에 대해 공부하는 것도 괜찮은 접근일 것이다.


       


       


      요즘 공부할 것이 너무 많아 걱정이긴 하지만


      꼭 공부해야할 책 목록에 이 책을 꼭 포함시킬 것이다 !!!


       


       



      "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."





    • [도서리뷰] 파이썬 라이브러리를 활용한 머신러닝(번역개정2판) Introduction to Machine Learning with Python



      *     "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


       




       


      TLDR; 머신러닝에 처음 입문하는 분들에게 추천드립니다. 한권을 읽으면 머신러닝을 경험해 볼 수 있고, 어떤 공부를 해야하는지를 알 수 있습니다. 


      개발자라면 누구든, 아니 개발자가 아니더라도 머신러닝이랑 키워드엔 관심이 있을 것이다. 시중엔 머신러닝 입문에 대한 여러가지 책이 나와있고, 많은 책의 종류 만큼 다양한 방식으로 머신러닝에 대해 알려주고 있다. 이론부터 알려주는 책이 있는가 하면 실습부터 하는 책이있고 두가지를 복합적으로 하는 책도있다. 그중 "파이썬 라이브러리를 활용한 머신러닝"은 실습위주의 방식으로 머신러닝을 알려주고 있다. 사이킷 런을 이용해서 기존에 제공되는 학습데이터를 이용한 지도학습 머신러닝을 시작으로 비지도학습과 데이터 전처리, 데이터 표현과 특성공학, 모델 평가와 성능 향상, 알고리즘 체인과 파이프라인, 텍스트 데이터 다루기를 실습해보며, 책을 마무리하며 머신러닝과 관련된 여러 이론, 사이킷런 외의 프레임워크와 패키지, 챙킹, 추천시스템과 그 외 알고리즘, 확률 모델링, 신경망 등 더 공부할 주제에 대해서 알려준다.


       이 책을 한권 읽고 공부한다고 해서 머신러닝에 대한 모든것을 알 수는 없지만 책을 읽고나면 당장 머신러닝을 적용할 능력을 갖추게 될것이고, 머신러닝을 심화학습하기 위해 필요한 컴퓨터공학 / 수학적 이론들에대한 소개를 받기때문에 본격적으로 공부를 시작할 수 있는 가이드로서 좋은 역할을 한다.


       이 책은 머신러닝에 관심이 있는사람 중 이론적인 부분먼저 하기보단 실제 실습을 토해 결과를 보면서 학습하기 원하는 사람에게 추천한다. 







    • 파이썬은 사용하기 편리한 언어로 수학계산에 용이성으로 인해 머신러닝 분야에 많이 활용되는 언어입니다. 이런 많은 라이브러리를 가지고 데이터 과학자가 활용하기 편리한 기능들을 제공합니다.


       



      수정됨_IMG_3259.jpg


       


       



      해당 도서는 scikit-learn을 이용하여 머신러닝을 하는 내용에서 설명을 해 줍니다. 해당 라이브러리 외에도 jupyter notebook, Numpy, pandas, SciPy 그리고 matplotlib 이 필요합니다.



      도서는 파이썬을 2, 3 버전 모두 활용이 가능하나 3버전을 추전합니다. 2버전은 이제는 지원이 끝났기 때문에 새로운 기술을 익히기 위해서는 3버전으로 시작하라고 합니다.



      책은 모두 8장으로 이루어져 있습니다.



      • 소개


      • 지도학습


      • 비지도 학습과 데이터 전처리


      • 데이터 표현과 특성 공학


      • 모델 평가와 성능 향상


      • 알고리즘 체인과 파이프라인


      • 텍스트 데이터 다루기


      • 마무리



      도서의 차트는 칼라 인쇄로 데이터 결과물을 확인하는 데 도움이 됩니다.



       



      수정됨_IMG_3260.jpg


       


       



      도서의 예제는 바로 github에 존재합니다. 예제 에서 확인이 가능합니다.



      외국도서이기 때문에 7장의 텍스트 데이터 다루기 부분에는 영어로 된 부분만 설명이 되는데 추가 부록으로 KoNLPy를 활용한 영화리뷰 분석이 들어가 있습니다. KoNLPy를 이용하여 네이버 리뷰를 분석하는 예제가 있어 텍스트 분석을 위한 예제에 조금 더 도움이 됩니다.



      지도학습 및 비지도학습을 이용한 여러 알고리즘 등이 설명되어 있어 머신러닝을 활용한 제품이나 기술에 대한 이해를 위해 도움이 되는 도서입니다.



      * 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다. 

       

       




    •  


       


      지금으로부터 불과 몇년 전에, 초판 번역서였던 이 책을 접한 기억이 납니다. 지금은 상대적으로 딥러닝 분야가 크게 발전하며 관련 분야에 관심을 가지는 분들이 훨씬 많아졌지만, 당시만 하더라도 scikit-learn을 필두로 하여, ML이 큰 위세를 떨쳤던 것으로 기억합니다.


       


      역자이신 박해선 님께서는 scikit-learn 정식 1.0 버전이 릴리즈 되고, 여기에 맞추어 코드와 전체적 내용을 업데이트 했다고 합니다. 또한, 모든 코드는 구글 코랩에서 실행 가능하도록 변경 되었다고 하는데요. 아무래도 일부 학습 과정에서 로컬 PC로 다소 시간이 많이 소요되는 경우가 있다보니, 반갑지 않을 수 없는 변화입니다.


       


      지난 초판을 접할 때만 하더라도 아무것도 모르던 학부생이였던 제가, 인공지능대학원에 진학해서 개정2판을 보고 있으니 여러모로 감회가 새롭습니다. 모쪼록, 책의 내용을 좀 더 살펴보도록 하겠습니다.


       


       


      아무래도 최신 데이터과학 서적들은 딥러닝에 초점을 맞춘 책들이 꽤 많습니다. ML 기법은 여러 통계학 기법에서 시작하여 발전된 기술들이 많고, 그 기저의 내용들은 크게 변화되지 않았기 때문인데요. 반면에 딥러닝은 계속해서 신기술이 나오고, 또 나오다보니, 지난 기초 서적들도 Transformer와 Self-Attention과 같은 내용을 탑재시킨 개정판을 내는 경우가 종종 보이곤 합니다. 당연히 새로운 신간도 계속해서 출간되고 있습니다.


       


      그럼에도, 이 책이 가지는 특징과 장점은 뚜렷합니다. 


      여전히 머신러닝은 많은 분야에서 유효하고, 많은 장점을 가진 기술입니다. 딥러닝의 경우 많은 분야에서 굉장한 성능을 내고 있지만, 그만큼 학습이 오래 걸리거나, 과도하게 많은 자원을 요하는 경우가 많습니다. 또, 실제로 풀어야 하는 문제의 종류에 따라서, 머신러닝으로 훨씬 더 쉽고 간결하게 해결 할 수 있는 경우도 많습니다.


       


      예를 들어, 3장의 비지도 학습 파트에서 실습하는 DBSCAN을 이용한 얼굴 데이터셋 군집화의 경우, 아마도 딥러닝을 적용하면 얼굴 데이터의 Feature를 더욱 효과적으로 추출하고, 학습할 수 있을 것입니다. 하지만, 실습에서 DBSCAN으로 군집화 해낸 몇몇 카테고리 (웃는 여성, 옆모습 등)를 확인하거나, 데이터셋의 전반적인 추이를 확인하는 정도의 작업만 필요한 상황이었다면, 굳이 CNN 등을 적용하여 얼굴 데이터 셋의 Feature를 학습할 이유는 없을 것입니다.


       


      게다가, 많은 경우, 머신러닝의 방법론과 딥러닝의 방법론은 서로 유기적으로 연결되어 있는 경우가 많아, 하나의 학습과 경험이 결국 다른 쪽의 학습에도 영향을 주게 됩니다. 


       


      특히 이 책의 경우, 더 뚜렷한 장점이 있는데요. 


      매번 쓰는 MNIST 같은 학습용 데이터만 사용해서 실습을 해보는 것이 아닌, 좀 더 다양한 데이터를 통해 다양한 상황에서의 실습을 진행할 수 있습니다. 또한, 실습에 사용하는 코드의 설명이 상세하고 친절합니다. 일단 코드를 쭉 나열하고, 실습해봅시다, 정도로 끝나는 것이 아닌, 단계별로 나누어져서 실습을 진행할 수 있는 구조인데요. 덕분에 잘 설계된 일련의 교과 과정 속에서 머신러닝을 배우는 것과 같은 느낌을 받을 수 있었습니다.


       


      시각화 또한 비교적 충실하게 실습을 진행하는 경우가 많습니다. 저도 따라해보면서, 이런 식으로도 데이터를 나타낼 수 있구나... 하면서 많이 배우게 되었는데요. 하나하나 세심하게 실습 과정을 따라하다보면, 책의 메인 콘텐츠 이외로도 유용한 스킬들을 많이 습득하실 수 있을 것입니다.


       


      많은 경우, ML/DL 학습자 분들은 이미 한 두권 이상의 책을 보았거나, 강의를 통해 기본적인 학습을 진행하셨을 것입니다. 기초 ML 학습 단계에서 한 계단 더 도약하기 위해, 심화된 도서를 찾으신다면, 본 도서가 분명히 많은 도움이 될 것입니다. 


       


    • "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."






      <파이썬 라이브러리를 활용한 머신러닝>


       


       



      파이썬을 이용한 머신러닝 모델 제작시 가장 중요한 것은, 다양한 모듈, 함수 등의 라이브러리를 상황에 맞게 얼마나 잘 활용하느냐라고 생각한다.



      문제에 알맞는 머신러닝 모델을 선정하고, 필요한 것들을 라이브러리에서 효율적이고 빠르게 가져오는 것이 코딩의 완성도를 좌지우지하게 된다.


       



      웹상에는 다양한 사람들이 많든 수많은 tool들이 있지만, 사이킷런은 그러한 라이브러리 중에서도 특히 머신러닝에 많이 사용되는 도구 중 하나이다.






      머신러닝에는 사이킷런 외에 케라스, 텐서플로도 자주 사용되지만, 개인적인 생각으로는 사이킷런이 좀 더 쉽고, 유저 친화적인 느낌이다. 또한, 기존 머신러닝 모델들을 그대로 적절한 변형을 통해 사용이 가능하다는 것이 큰 장점이라고 생각된다.


       


       



      보통 이런 식으로 문제의 목적, 데이터의 크기, 형태 등에 따라 수많은 알고리즘들을 적용하고 평가할 수 있다. 사이킷런에서는 대부분 이러한 프로세스로 진행하면서 해결이 가능하며, 본 책에서는 이러한 지도학습, 비지도학습 별 종류들과 회귀, 분류 시 사용되는 알고리즘들을 자세히 소개해 놓았다. 예시를 따라하면서 쉽게 어떤 프로세스로 진행되는지 확인할 수 있었다.


       


       



      특히 머신러닝의 핵심인, 모델 평가 및 모델 성능을 향상하기 위한 방법들에 대해 자세히 수록돼 있었다. 모델의 복잡도나 데이터 크기와 특성, 적용 알고리즘들을 모두 고려하여 최적의 머신러닝 모델을 만드는 것이 책의 목적이며, matplotlib 등을 통해 많은 예시들과 그래프로 쉽게 설명을 이해할 수 있었다.



      ​일반적인 머신러닝의 대표적인 예제 중 하나인 붓꽃 문제를 직접 머신러닝 알고리즘을 적용하면서 쉽게 이해할 수 있었다.


       


       



      머신러닝 프로젝트 수행시 옆에 두어야 할 책





       



      총평하자면, 머신 러닝을 실제로 적용하는데 있어 기초적이면서도 실용적인 내용들이 담긴 파이썬 머신러닝 책이다. 다양하고 수많은 데이터가 쏟아지는 시점에서, 분류, 군집, 회귀 등 다양한 문제들을 머신러닝으로 해결하고 싶은 이러한 사람들에게는 꼭 추천하는 책이다. 옆에 놔두면서 항상 참고하고 제대로 이용할 수 있을 것 같다.


    • 1.jpg


       























      컴퓨터 조립은 못해도 프로그래밍을 할 줄 아는 사람이 있듯이 머신러닝으로 필요한 앱을 만드는 것과 그 동작의 이론까지 모두 아는 것은 필요에 의한 차이가 있다. 그래서 애플리케이션을 만들어보면서 흥미롭게 머신러닝을 배울 수 있다.


















      제목처럼 파이썬 라이브러리를 활용한다. numpy 등 대표적인 머신러닝에 활용하는 라이브러리를 다루기 때문에 수학이 싫고 머신러닝을 재미있고 배워보고 싶다면 추천한다!






      "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."










    • 월에 읽게 될 책은 파이썬 라이브러리를 활용한 머신러닝 입니다!






      개인적으로 읽고 싶었던 책이 배송이 되어서 기분이 좋았네요 ㅎㅎㅎ






      먼저 2월달에 리뷰를 했던 금융 전략을 위한 머신러닝과 순서가 조금 잘못 된 것 같지만 한번 리뷰를 해보겠습니다.


















      먼저 이 책은 머신러닝에 입문하는 사람을 위해서 작성된 책 입니다.






      머신러닝과 사전 지식이 필요 없는 입문서라고 할 수 있습니다.






      pythonscikit-learn 을 중점으로 설명하기 때문에 천천히 따라가면 누구나 어렵지 않게 이해할 수 있을거라 생각합니다.






      이 책의 구성을 간단하게 설명해보겠습니다.






      1장 : 머신러닝과 머신러닝 애플리케이션의 기초 개념



      2,3장 : 실전에 가장 널리 사용하는 머신러닝 알고리즘 설명



      4장 : 머신러닝에서 데이터를 표현하는 방법이 얼마나 중요한지와 데이터의 어떤 면을 주의 해야하는 지 설명



      5장 : 모델 평가와 매개변수 튜닝을 위한 고급 방법, 교차 검증과 그리드 서치



      6장 : 모델 연결하고 워크플로를 캡슐화하는 파이프라인 개념 설명



      7장 : 앞 서 설명한 방법들을 텍스트 데이터에 적용하는 방법 설명



      8장 : 심화 내용


       


       



      머신러닝에 관심이 많은 초심자 분들이 공부하면 굉장히 좋을 책이라고 생각이 듭니다.






      꼼꼼하게 코드가 잘 설명되어 있으며 쉽게 따라 할 수 있도록 설명이 되어 있습니다.






      그리고 전체적으로 머신러닝의 모든 과정을 훑어 주기 때문에 큰 그림을 잡는데에도 좋다고 생각합니다.






      각 장마다 바로 실습을 진행할 수 있어서 공부하는데 더욱 흥미를 주는 것 같아서 학습하기에 좋았습니다.


       








    • 이 책은 무려 Scikit-learn 핵심 contributor인 안드레아스 뮐러가 지은 '머신러닝 바이블'이라고 감히 소개한다. 머신러닝 이론과 실습을 전반적으로 시작/복습하기 좋으며, 머신러닝에 관심이 있는 개발자라면 누구나 이해할 수 있는 책이다. 물론 머신러닝을 해 본 사람들에게는 기초를 다시 닦기에도 너무 좋은 책이다. 즉 초급자부터 실무자에게 모두 도움이 되는 알찬 contents를 담고 있다고 할 수 있겠다. 다만 머신러닝에 관한 책이라 딥러닝은 keras만 잠깐 언급할 뿐 딥하게 다루지는 않는다.


      "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


      전체 서평 보기: https://sysout.tistory.com/88 [Emily's Tistory]



    • 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

      파이썬 2.x 대를 생각해보면 파이썬 파이코닉함이 힙하게 느껴졌었고
      그럼에도 불구하고 실속있고 사용하기 편해서 스터디 하고자하는 의욕도 충만했었다.
      그랬던 파이썬이 이제는 머신러닝 분야에서도 필수적으로 사용해야할 도구가 되었다.
      당연하게도 이책을 이해하기 위해서는 어느정도의 파이썬에 대한 지식이 필요하다.
      또한 이미지를 다루지는 않는다 목차를 보면 알겠지만 예제로써 텍스트 데이터를 다루고 있다.
      본인의 흥미나 적용하고자 하는 문제에 맞는지 한번 살펴보기를 바란다.

      보통 읽으시는 분들은 머신러닝을 스터디하며 딥러닝도 관심을 갖기 마련이다.
      분명 이책은 머신러닝에 대한 내용을 다룬다.
      딥러닝이 머신러닝의 서브셋이지만 이책은 머신러닝을 주로 다루니 이점 또한 본인의 의도와 맞는지 확인해보기 바란다.

      이 책을 통해 도메인 지식을 넓힌다는 점에서 긍정적이다 할 수 있겠다.
      당연하게도 머신러닝과 딥러닝은 떼어놓을 수 없다.
      머신러닝에 대해 학습이 필요하다면 읽어보기를 바란다.





      image1(2).jpeg


       



      image0(2).jpeg


       


    • 2022년 2월에 출간된 <파이썬 라이브러리를 활용한 머신러닝 2E>에 대해 소개합니다. 이 책의 부제는 '사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서'입니다. 이 책의 저자는 안드레이아스 뮐러(Andreas Mueller)와 세라 가이도(Sarah Guido)님입니다. 두 분 모두 관련 분야의 전문가로 활동하고 있습니다.   


       



      이 책의 초판 원서는 아마존 리뷰에서 우수한 점수(4.6점, 5점 만점)를 받았습니다. 필자는 이 책의 초반 버전을 봤었습니다. 이 책은 원서의 초판 4쇄버전을 기반으로 사이킷런(Scikit-learn)의 최신 버전을 반영하여 개정했습니다. 역자는 혼자 공부하는 머신러닝+딥러닝을 집필하신 박해선 님으로 이 분야에서 매우 유명하신 분이며, 관련 분야의 서적을 다수 번역한 이력이 있습니다. 번역자 님의 블로그에 기술된 이 책의 소개글입니다.


       



      <파이썬 라이브러리를 활용한 머신러닝 2E>은 약 500페이지로 구성되어 있어 휴대하면서 읽기에 크게 부담스럽지 않습니다. 전자책으로도 출간되어 있음으로, 전자책 뷰어가 있으시다면 전자책으로 만나보는 것도 좋을 것 같습니다. 구매 가격도 더 저렴합니다. 


       



      한빛미디어 평가단에 참가하여 작성한 글이며, 한빛미디어에서 제공해준 책을 읽고 작성했음을 밝힙니다. 
       



      이 책의 매력은?



      <파이썬 라이브러리를 활용한 머신러닝 2E>은 8개의 챕터로 구성되어 있습니다. 2019년에 출간딘 책의 개정판으로 최신 버전의 사이킷런을 반영하고 책을 읽으면 읽을 수록 독자를 배려한 부분이 눈에 띕니다. 또한, 원서보다 더 멋진 번역서라고 이야기하고 싶을 정도로 역자의 노력이 돋보이는 책이라고 생각합니다. 사이킷런을 활용하여 머신러닝을 학습한다면 매력적인 책입니다.



      머신러닝을 처음 접하시는 분은 다소 어려울 수 있습니다. 하지만 하나하나 예제를 따라가며 조금씩 진행하다보면 조금씩 지식이 체득되는 것을 느낄 수 있을 것입니다. 또한, 예제가 구글 Colab 기반으로 되어 있으므로 실습을 진행하는 데 부담이 덜합니다. 환경설정 등으로 낭비되는 시간을 줄일 수 있고, 예제를 조금씩 고쳐가면서 실습하고 바로 확인할 수 있는 점은 매력적입니다.


       



      <파이썬 라이브러리를 활용한 머신러닝 2E>은 파이썬을 어느 정도 알고 있는 분들이라면 이 책의 코드를 이해하는 것은 어렵지 않을 것 같습니다. 하지만 이 책에서 다루는 지식들은 쉽지 않습니다. 반드시 실습을 하고 응용을 해보는 것을 추천합니다. 단순히 실행하고 넘어간다면 쉽게 기억에서 지워질 것입니다.


       



      사이킷런을 활용하여 머신러닝의 세계에 입문하는 분들에게 추천하고 싶습니다.
       



      마치면서



      <파이썬 라이브러리를 활용한 머신러닝 2E>은 매력적인 책입니다.
      그리고 보면 볼수록 역자의 열정이 돋보이는 책입니다. 박해선 역자님에게 감사하다고 전하고 싶습니다. 


       



       "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

    •  


       



      한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.





      SE-3169949f-6bc1-4561-8352-4d01beb244ee.jpg

      번역개정2판의 특징

       



      번역개정2판은 전체 코드를 구글 코랩에서 실행할 수 있도록 변경했습니다.



      scikit-learn 최신 1.x 버전의 변경사항과 추가 기능을 반영했습니다. 그 외에도 QuantileRegresSor, 확률적 경사 하강법, plot_tree 함수, 히스토그램 기반 부스팅, permutation_importance 함수, 설명된 분산 비율, 엘보우 방법, RandomizedSearchCV/HalvingGridSearchCV, 오차 행렬/정밀도-재현율/ROC 곡선 그리는 방법 등이 추가되었습니다. 2장에는 트리 기반 앙상블 모델의 매개변수를 한눈에 비교할 수 있는 표가 추가되어 있습니다.


       







      대상 독자



      - 복잡한 수학을 동원하지 않고 실용적으로 머신 러닝을 구축하고 싶은 자


       







      좋은 점



      - 역자의 애정이 느껴지는 한국어판만의 양질의 주석과 부록



      - 초판은 흑백이었으나 2판은 칼라본으로 보는 눈이 즐겁다.



      - 코드의 문법 강조(Syntax Highlight)를 통해 직관적 이해에 도움이 된다



      - 다양한 예제






       



      총평



      1판의 아쉬운 점을 잘 보완한 책이다.



      내용이 최신 트랜드를 따라가고 더 많은 내용들이 추가되어 1판의 독자라면 가벼운 마음으로 다시 읽어보기에 좋다고 생각된다.



      자신이 대상 독자에 들어맞는다면 최고의 책이 될 것이다.


       

    •  



      KakaoTalk_20220331_110809883.jpg


       

       

       


       



      이 책은 머신러닝의 입문서라고 할 수 있다. 기본적인 머신러닝에 대하여 학습해본 사용자라면 실질적인 많은 도움을 줄 책이라고 생각한다.







      이 책에서는 어렵고 복잡한 수학적 개념을 제시하지 않는다. 어렵지 않게 머신러닝에 대하여 이해하고 다양한 실습을 할 수 있도록 한다.







      다양한 이론과 알고리즘을 접하고 사용하는 방법에 대하여 학습하게 될 것이다.







      이 책은 머신러닝이 왜 필요한지에 대하여 확실하게 알기 쉽게 설명해준다. 그리고 우리가 머신러닝을 적용하기 위하여 어떠한 방법으로 접근하고 사용해야 하는지에 대한 명확한 목적성을 확보하도록 해주는 책이다.







      머신러닝에서 사용되는 다양한 라이브러리를 사용하고 활용하고 이해하는데 충분한 내용으로 가득차 있다.







      붓꽃의 품종을 분류해 보는 학습과 데이터를 살펴보는 방법 그리고 사용되는 알고리즘에 대하여 설명하고 평가하는 법에 대해서 다루는데 이러한 형식으로 이 책은 다양한 학습 데이터를 활용하여 흥미롭게 접근한다.







      2장과 3장에서는 지도 학습과 비지도 학습에 대해 많은 내용으로 알차게 구성되어 있다. 두 가지 알고리즘의 차이점과 활용법과 다양한 알고리즘을 접할 수 있을 것이다. 꽤 상세하게 구성되어 있기에 충분히 만족할만한 학습 결과를 얻을 수 있다.







      그리고 4장에서는 데이터 표현과 특성 공학에 대하여 설명하고 있다. 데이터가 어떤 형태의 특성으로 구성되어 있는가보다 데이터를 어떻게 표현하는가가 머신러닝 모델의 성능에 주는 영향이 크다고 한다. 그래서 이장에서는 가장 적합한 데이터 표현을 찾기 위한 다양한 내용으로 구성되어 있다.







      그리고 5장은 모델 평가와 성능 향상에 대해서 설명한다. 교차 검증과 전략에 대해서 설명하고 평가 지표와 측정 법에 대해서 설명한다. 이 장을 통해서  머신러닝 알고리즘을 어떻게 평가하고 개선해야 하는지에 대해서 알게 될 것이다.







      그리고 알고리즘 체인과 파이프라인에 대한 설명, 텍스트 데이터를 다루기 위해서는 어떠한 방법으로 전처리를 해야하는지에 대한 내용으로 구성되어 있는 장도 있다.







      파이썬 라이브러리를 활용한 머신러닝에서는 중요한 알고리즘들을 다양하게 제시하고 적용하는 방법에 대하여 알차게 구성되어 있는 책이다. 그리고 다양한 조언들도 잊지 않고 전달하고 있다.







      이 책을 통해서 좀더 나은 머신러닝을 활용하는 법에 대하여 알게 될 것이다. 











      "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."






       

       

    • ‘파이썬 라이브러리를 활용한 머신러닝’은 사이킷런(scikit-learn)으로 머신러닝을 제대로 배울 수 있는 책입니다. 머신러닝(Machine Learning)은 어렵습니다. 직접 필요한 모델을 만들고 남들이 만들어 놓은 코드를 수정하기 위해서는 석박사 수준의 수학지식이 필요하다고 생각합니다. 머신러닝을 하려고 처음부터 수학공부를 하는건 좀 아니라고 생각합니다. 이 책은 사이킷런으로 머신러닝 사용에 중점을 두고 있습니다. 사용해보면서 머신러닝을 왜 사용하는지 이러한 데이터에는 어떤 모델을 사용해야하는지 조금은 이해할 수 있습니다.


       


       


      이 책은 총 8개의 장으로 되어 있습니다. 머신러닝을 소개하는 1장을 제외하고는 만만한 장이 없습니다. 2장부터는 직접 코드를 실행해보고 결과를 보면서 천천히 학습해야 합니다. 적어도 저는 그랬습니다. 그나마 다행인 것은 개발환경을 따로 세팅할 필요없이 구글 코랩에서 쉽게 코드를 돌려볼 수 있습니다. 코랩을 사용하면 파이썬 개발 접근성이 좋아 회사에서도 짬짬이 공부를 할 수 있었습니다. 이 책은 사이킷런 뿐만 아니라 넘파이(numpy), 판다스(pandas), matplotlib 등 필요한 다양한 파이썬 라이브러리를 사용합니다.


       


       


      파이썬 코드를 입력해서 나오는 출력 결과를 책에서 사진으로 모두 확인할 수 있기 때문에 코드를 직접 돌리지않아도 책을 보는대는 지장없습니다. 물론 직접 입력하고 출력하는 것이 공부에 도움은 됩니다. 지금 필요한 머신러닝 알고리즘을 찾아서 빨리 나의 데이터에 적용해 보는 것이 이 책의 목적이라 생각합니다. 최근접 이웃, 선형 모델, 나이브 베이츠, 결정 트리, 랜덤 포레스트, 그레이디언트 부스팅 결정 트리, 서포트 벡터 머신, 신경망 등 다양한 모델을 이 책에서 다루고 있습니다. 


       


       


      파이썬 사이킷런으로 머신러닝을 배우고 싶은 사람이라면 한번쯤은 읽어야할 책이라고 생각합니다. 저자가 사이킷런 핵심 개발자고 번역가가 머신러닝, 딥러닝 책을 많이 번역해봐서일까 책이 전반적으로 괜찮습니다. 책에 무슨 내용이 있는지 확인 후 나중에 필요한 내용을 찾아서 코드를 작성한다면 도움이 될 것 같습니다.


       


       


      "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


       


       



    • 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

       



      Intro


      개정되기 전부터 이 책은 머신러닝을 공부하기에 상당히 유명한 책 중 하나였습니다. 언젠가 한 번쯤 꼭 읽어보고 싶다는 생각을 했는데 이번 기회에 읽게 됐습니다!


      Book Review


      간단한 소개



      쉽게 설명하면 머신러닝에 관한 입문서라고 할 수 있습니다. 그러나 바닥부터 완전히 구현하는 것이 아닌 사이킷런이라는 라이브러리를 이용해서 이미 구현되어져 있는 것을 배우는 책입니다. TensorFlow, PyTorch을 사용하여 딥러닝을 하는 책이 아니라, sklearn 기반의 머신러닝 기초 지식을 배우는 걸 목표로 하고 있습니다. 또한, 딱히 코드를 실행하기 위한 환경 설정이 필요없으며 이 책의 모든 코드는 구글 코랩(Colab)에서 실습할 수 있습니다.


      주석



      이번 책의 역자님은 박해선님입니다. 역시나 다를까 역자님께서 번역하신 다른 책처럼 이번 책도 번역이 깔끔하고, 역주를 너무 자세하게 잘 활용해주셔서 읽기 편했습니다. 일반적인 책들의 주석이라면 출처 또는 참고할만한 것들만 간단하게 정리하지만, 박해선님이 번역하신 책에는 독자가 이해하기 쉽도록 부가적인 내용들까지 적혀 있습니다. 그렇기에 주석도 꼼꼼하게 읽어보시는 것을 추천합니다.


      마무리


      마무리 chapter 8에서는 앞으로 어떤 걸 더 공부할지 가이드를 해줍니다. 이 책을 벗어나 더 깊게 머신러닝을 공부해보고 싶은 사람들에게 추천하는 전문적인 자료들입니다. 저는 이 책처럼 키워드를 던져주는 책을 정말 선호하는 편입니다. 친절하다고 느껴지며 독자에게 매우 도움되는 내용이라고 생각합니다.


      한국어판 부록



      한국어판 부록으로 KoNLPy를 사용하여 한국어 자연어처리를 해봅니다. 이밖에도 역자님께서 더 넣고 싶은 부분들은 부록으로 추가해서 넣은 모습을 확인할 수 있습니다. 또한, 재밌었던 점은 이 책의 저자가 한국 독자를 위해 인터뷰를 했었다는 것입니다. 사이킷런의 변화와 관련된 내용이 있으니 사이킷런에 관심있으신 분들은 이 부분도 충분히 읽을 가치가 있어 보입니다.


      대상독자


      머신러닝에 관심이 생겨 입문하시는 학부생들께 추천드리며, 사이킷런이 업데이트 됨에 따라 뭐가 바뀌었는지 궁금하신 분이 읽으셔도 좋을 것 같습니다.


    • IMG_2363.jpg


       


      이 책은 사아킷런을 이용한 머신러닝에 대한 책입니다.


       


      사이킷런이 1.0으로 업그레드 되면서 변역서에 대해서만 개정2판을 출간한 것으로 알고 있습니다.


       


      사이킷런은 쉽게 머신러닝을 배울 수 있도록 여러가지 기능을 제공하는 라이브러리 입니다.


      gpu가 없어도 되고 또 각 알고리즘에 대해 깊숙한 이론적 지식 없이도 머신러닝을 쉽게 해볼 수 있도록 합니다.


       


      개정2판은 번역자분께서 코랩을 사용해서 소스를 돌려 볼 수 있도록 변경함으로써 


      학습자가 환경에 대한 부담감 없이 학습에 더 집중할 수 있도록 하고 있습니다.


       


      1장에서는 머신러닝과 여러 필수라이브러리에 대한 소개, 사아킷런에 대해 소개를 하면서 간단히


      지도학습인 k-최근접 이웃 알고리즘을 이용해 붓꽃의 품종을 분류할 수 있는 예제를 보여주고있습니다.


       


      그리고 나서 지도학습과 비지도학습의 여러 알고리즘을 설명하고 있고 


      데이터 표현에 대한 내용을 설명하고 있습니다.


       


      그리고 항상 모든 알고리즘에서 중요한 모델 평가와 성능향상 기법에 대해 설명을 하고 있습니다.


       


      이 책은 전 판과는 다르게 그래프와 그림에 적절히 컬러를 사용해서 보기 편하게 구성이 되어 있습니다.


       


      아직도 일부 태스크에서는 딥러닝 보다 머신러닝이 효과가 좋은 분야가 있습니다.


       


      딥러닝에 앞서 머신러닝이 무엇인지 알기 위해서 사이킷런으로 학습을 해보려 한다면


      이책을 추천합니다.


       


      "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."  



    • 다운로드.jpg


       



      머신러닝은 어려운가?


      사실 이 질문은 인공지능 책을 읽다보면 항상 드는 생각이다. 어렵기는 한데 포기할 정도로 어려운가? 라고 생각하면 또 그렇지는 않은것 같다. 어렵게 느껴지는 부분들은 대부분 수학이 나오는 부분들이다. 선형대수, 미적분, 확률등등 기초 수학 지식이 부족하면 앞으로 나아갈 수 없다. 그러니 어렵게 느껴질 수 밖에. 그럼에도 머신러닝을 전문으로 할 것이 아니면 기초 개념과 활용 정도만 잘 알아도 요긴하게 쓸 수 있지 않을까? 그렇게 보면 또 어렵지도 않다.


       


      파이썬 라이브러리를 활용한 머신러닝


      한빛미디어에서 번역 개정2판으로 출간된 '파이썬 라이브러리를 활용한 머신러닝'의 난이도는 B+ 정도이다. C 정도면 소설책 읽는 기분으로 쉽게 넘길 수 있는 반면에 B 정도면 정독해서 읽어야 내용의 이해가 바르게 되고 다음 챕터로 넘어갈 수 있다. 나름 조바심을 내지 않고 시간을 갖고 읽으면 꽤나 괜찮은 맛(?)을 느낄 수 있는 책이랄까? 책의 내용대로 파이썬 예제들을 실습해가면서 읽기를 추천한다. 코드를 눈으로 읽고 넘기면 읽기 지루할 수 있다. 열번 보는것보다 한번 코딩하는게 기억에 남는다.


      머신러닝의 기초 개념과 그래프 삽화가 많이 들어가 있어서 인공지능의 개념잡기에 좋다. 대신에 파이썬에 대한 어느정도의 지식은 필수이다. 그런것까지 일일이 설명하면 답이없다.


       


      개념서라기 보다는 실무서에 가까운 책


      개념이 적용되는 과정을 볼 수 있고 해볼 수 있는 책이다. 학문적인 부분을 원한다면 조금 약한 부분이 있다. 머신러닝을 다루는 법을 배우기에 적합한 책이다. 읽으면서 부족한 부분이 많고 기억이 나빠서 그런지 계속 책을 되돌아 가면서 읽고 있는데, 운동하는 기분이랄까? 열심히 갈고 닦으면 좀 더 인공지능 전문가에 다가갈 수 있지 않을까 기대해본다.


       


    • 네이버 블로그에서 이미지로 퍼온 게시글입니다. 보기 불편하신 분들은 블로그 원문을 봐주시면 감사하겠습니다.


       



      screencapture-blog-naver-rapperkjm-222686098536-2022-03-30-11_23_15-crop.png


       

    • 파이썬을 이용한 머신러닝이 한참 뜰 때쯤

      파이썬 스터디를 시작하고 얼마되지않은때라

      머신러닝 교육도 한창 듣곤 했는데

      그렇게 재밌을수가 없었다



      하지만 용어들이 영어다보니 조금은 힘든 점도 있었다



      이 책은 라이브러리를 이용해서 머신러닝하는 법을

      처음부터 알려주는 책이라고 봐도 무방할정도다

      널리 알려진 예제를 가지고 기본적인 과정을 차근차근 밟아가면서 설명을 하고있다

      또한 결과에 따른 분석에 대한 설명도 잘 하고있는것 같다

      모든 용어를 한국어로 번역해놓아서 처음에 영어로 배운 나는 조금 어색하긴 하지만 아~ 그렇구나 하는 용어들도 보인다

      ​흥미로운 예제들도 보여서 잘 추려서 수업에 쓰기에 무리가 없을듯하다



      전반적으로 두꺼운 책이라 내용도 많고 쓸만한 것들이 많아서 좋은 것 같다




    •  


      파이썬 라이브러리를 활용한 머신러닝(번역개정2판) 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서





      사이킷런 핵심개발자가 썼다는 것 하나만으로도 이 책을 설명할 수 있다. 1판으로도 사이킷런 공식문서를 보다가 이해되지 않는 부분이 있을 때 이 책을 찾아보면서 놓치고 있던 것들을 찾고 배울 수 있어서 1판이 출판된지 시간이 제법 지났어도 두고두고 봤다. 사이킷런은 버전1.0으로 넘어오면서 API에 여러 변화가 있었고 또 과거의 API로는 동작하지 않는 코드들도 일부 있다. 사이킷런을 사용하면서 점점 문서화나 시각화도 코드 밑바닥부터 구현해야 했던 디시전트리의 plot_tree 와 같은 모델을 설명하는 코드가 사용자 친화적으로 바뀌어 가고 있음을 느낀다.


      개정2판을 통해 역자분의 부록도 늘어났다. 1판에서도 한국어 자연어처리 예제가 있었는데 한국어 자연어처리 예제와 함께 앙상블 모델에서는 에이다부스트, 엑스트라 트리, 히스토그램 가발 그레디언트 부스팅도 따로 설명하고 있다. QuantileTransformer 과 PowerTransformer, 반복 교차 검증에 대한 내용도 따로 집필이 되어 있다.


      또, 1판 이후에도 여러 머신러닝, 딥러닝 책을 번역하고 집필하신 역자 분의 책이라 믿고 읽을 수 있는 책이다. 이 분의 역서나 집필서를 보면 이 분의 팬이 되지 않을 수 없다. 이 책의 1판을 통해 정말 많은 걸 배웠는데 업데이트 된 내용까지 읽어 볼 수 있게 되어 감사할 따름이다.


      1판에서와 마찬가지로 사이킷런 핵심개발자인 안드레아스뮐러의 인터뷰도 있는데 이 부분이 가장 재미있었다.





      • 이 책을 쓴 이유


      복잡한 수학을 동원하지 않고 실용적으로 머신러닝을 구축하는데 중점을 두고 있는 책이며, 수식보다는 scikit-learn API 를 통해 설명하기 때문에 추상화된 API에 대한 몇 가지 사용법만 알고 있다면 알고리즘을 깊숙하게 이해하고 있지 않더라도 머신러닝 모델을 활용한 어플리케이션을 개발 할 수 있도록 해준다. 미적분, 선형대수, 확률, 통계에 대한 수식을 모르더라도 사이킷런이 제공해 주는 API 를 통해 모델을 개발하고 성능을 개선해 볼 수 있기 때문에 수학에 대한 부담감은 내려 놓고 읽을 수 있는 책이고 또 사이킷런 라이브러리가 그렇다.


      어렵고 복잡한 수식보다는 사이킷런 API를 통해 주로 설명하고 또 핵심개발자에 의해 쓰여졌기 때문에 필수 알고리즘 위주로 설명하고 있다.





      • 딥러닝이 큰 붐을 일으키고 있다.


      딥러닝의 발전을 보면 꼭 딥러닝을 해야될 것 같지만 머신러닝으로 풀 수 있는 문제도 많다. 딥러닝은 의미를 찾기 어려운 데이터에서 특징을 추출하는데 뛰어나지만 정형 데이터에서는 여전히 머신러닝이 좋은 성능을 내며 딥러닝이 잘 맞지 않기도 하며 비정형 데이터를 딥러닝으로 훈련하기 위해서는 데이터와 자원이 많이 필요한데 소수의 연구자들만이 모델을 훈련시킬 자원을 갖고 있다는 내용도 공감이 된다.


      최근에는 colab, kaggle notebook 등을 통해서 GPU를 직접 구매하지 않고 사용할 수도 있지만 비정형 데이터를 다루다보면 여전히 속도가 오래걸려 원하는 결과를 얻기까지 시간이 오래 걸릴 때가 많다.





      • 가장 간단한 것부터 시작하자.


      오픈소스에 기여할 때는 가장 간단한 것부터 시작하라는 조언도 마음에 든다. 무슨 일이든 가장 쉽고 간단한 것을 먼저 해야 성취감을 얻으면서 앞으로 나아갈 수 있다. 1판에서도 사이킷런에 공헌하기 보다는 다른 작은 프로젝트에 먼저 공헌해 보라는 인터뷰 내용이 있었는데 작은 것부터 시작해서 조금씩 성장해 가는 좋은 자세에 대한 조언도 마음에 든다.


      1판에서도 인터뷰 내용을 재미있게 읽었었는데 2판에서도 인터뷰 내용이 인상적이었다. 사이킷런 버전1.0에서 변경된 부분이 많아서 워닝 메시지가 나올 때마다 비교해 보면서 개선된 점을 찾을 수 있었는데 개정2판을 통해 사이킷런을 좀 더 잘 익혀볼 수 있길 기대해 본다.


      이 책은 가장 자주 보고 많은 걸 배울 수 있던 책이었는데 2판도 앞으로 자주 열어보면서 사이킷런을 사용해 보려고 한다.


      이 리뷰는 한빛미디어의 나는 리뷰어다 이벤트를 통해 책을 제공받아 작성했습니다.

    •  


      파이썬(Pytnon)에 딥러닝(Deep Learning)을 위한 Tensorflow, Pytorch, Keras 라이브러리가 있다면 머신러닝(Machine Learning)에는 사이킷런(skikit-learn)) 라이브러리가 있습니다. 머신러닝에 필요한 복잡한 작업들을 간단한 코드로 수행할 수 있도록 인터페이스를 제공해주기에 초보자분들도 미적분, 선형대수, 확률 이론을 모른채 코드 사용법을 익히면 머신러닝을 수행하실 수 있습니다.

       

      머신러닝/딥러닝 관련 다수의 번역 경험을 가진 박해선 님의 도서 중 하나로 이번에 나온 번역개정 2판은 최근 업데이트된 skikit-learn 1.x 버전으로 설명이 변경되었으며, 개인 분석 환경이 없더라도 구글 코랩을 통해 실습할 수 있도록 제공합니다.

       

      개인적으로 개정 전 도서를 소장하고 있고, 주변에 머신러닝을 시작하려는 분들에게 추천하는 책이었습니다. 이번에 좋은 기회로 리뷰하게 되면서 책을 받자마자 간단히 훑어 보았을 땐 풀컬러 이미지들이 가장 먼저 눈에 띄었습니다. (모든 이미지가 컬러라니..! ^^)

       


      이후 시간을 잡고 자세히 내용을 살펴보면서 느낀 개선된 장점은 아래와 같습니다.


       

      1. 구글 코랩(Colab)에서 바로 실행할 수 있도록 정리된 코드

      2. 사이킷런 업데이트(1.x)로 변경 또는 추가된 기능들의 소개 및 비교

      3. 풀컬러 적용으로 확보된 가독성 : 코드 및 주석, 출력 이미지 등

       

      도서의 충실한 내용은 이미 알고 있었으나 이번 개정판에서 느껴진 학습자에 대한 배려는 너무 마음에 들었습니다.

      초심자분들도 이해할 수 있도록 내용 설명을 하고 있으나 파이썬(Python)에 대한 프로그래밍 기초를 익히신 분들에게 추천드리는 책입니다.

       



      mlp.jpg


       


       





    • https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=289735220 



       


      파이썬 라이브러리를 활용한 머신러닝


      사이킷런의 핵심 개발자가 복잡한 수학을 동원하지 않고 실용적으로 머신러닝을 구축하는 모든 단계를 설명한다. 미적분, 선형대수, 확률 이론을 공부하지 않았어도 이 책을 통해 머신러닝을


      www.aladin.co.kr




       



      1. 이 책을 고른 이유


      표지



      이 책의 표지에만 해도 AI에 관심을 갖는 사람이라면 흥미가 생길 문구가 무려 두 개나 있다.



      첫 번째는 '사이킷런 핵심 개발자가 쓴', 그리고 두 번째는 '사이킷런 1.x' 반영이라는 부분.



      인공지능에 대해 공부를 하는 학생이든, 현업에 종사하고 있는 실무자든 저 두 문구를 보고 매력을 느끼지 않을 수 있을까싶다.


       




       



      2. 간단한 소개



      한 줄로 설명하자면 다음과 같다.



      Scikit-Learn과 mglearn을 이용한 머신러닝 전반에 걸친 이해와 실습


      조금 더 자세히 설명하자면, 머신러닝에 대해 모르는 사람들조차 첫 장을 넘기기 시작하는 것만으로 머신러닝의 전주기에 대해 이해하고, 왜 그러한 과정이 필요한지, 그리고 어떤 효과를 거둘 수 있는지를 이해할 수 있도록 구성되어 있다. 



      이 과정에서 사이킷런의 버전 업데이트로 인해 추가된 기능이라거나, 하위 패키지들에 대해 설명하고 있으며 이러한 여러 알고리즘에 대해 수식을 제시하기는 하나, 이를 수학적으로 이해하라기보다는 인과(Input & Output)에 대해 설명함으로써 각각의 라이브러리가 어떤 기능을 가지고 있고, 어떤 의미를 지니고 있는지를 제시한다.


       




       



      3. 이 책의 장/단점


      8p 이 책에 대하여



      위에서 보다시피 이 책은 기본적으로 머신러닝과 인공지능에 대한 사전 지식이 필요 없는 입문서다. 그 위에서는 실제 문제에 대한 해법을 찾는 머신러닝 기술자를 위해 썼다고 되어 있지만, 솔직히 말해 현직 실무자로서 그리 동의할 수는 없는 부분이다.



      이 책은 명백하게 입문서용이며, 머신러닝 전주기에 대해 각 과정의 당위성, 가치를 중심으로 알고리즘 이해를 위한 mglearn의 사용, sklearn을 통한 실전적인 사용을 위한 책이다. 다만 실무자라고 한들, 하나의 라이브러리에 대해 모든 것을 알고 있을 수는 없다. 설령 알고 있었다하더라도 버전 업데이트로 인한 변경에 자유로울 수도 없다.



      특히 버전이 0.x에서 1.x로 바뀌는 것은 생각보다 엄청나게 큰 변화이기에 이러한 부분에 관심을 가질 수 있다. 하지만 아쉽게도 이 서적은 머신러닝의 전주기에 사용할 수 있는 기본적인 패키지를 소개한 구판(개정 전 버전)에 대해 버전 업데이트가 된 내용을 추가로 서술한 것이기에 1.x 버전에 대해 좀 더 자세히 알고자 한다면 공식 문서를 참조하는 편이 좋을 것 같다.


       



      정리하면 이 책은 철저하게 입문자용이며, 입문자용으로서는 무척이나 추천할만하다.



      내가 처음 인공지능을 학습할 때에만 하더라도 적어도 세 권 이상의 책을 통해서만이(어쩌면 그 이상으로 많은 책을 통해서) 온전하게 머신러닝/딥러닝의 전주기에 대한 학습이 가능했다. 그 과정조차도 그저 책에서 소개된 내용을 단순히 복사 붙여넣기하는 수준에 불과했고, 각각의 패키지 안에 무슨 기능이 있는지 혹은 그저 따라치며 사용한 코드가 어떤 알고리즘이며 어떤 의미가 있고, 어떻게 변경/개선할 수 있는지 아는 것은 무척이나 어려웠다. 



      캐글에 올려진 여러 사람들의 코드를 역으로 해석하고, 이를 공부하면서 배워야 했고 그렇게 몇 번쯤 클론 코딩이나 다름없는 머신러닝/딥러닝 프로젝트를 반복한 뒤에야 10%쯤 내 코드를 집어넣을 수 있었다. 심지어 이때에도 머신러닝 전주기에 대한 개념은 없어 간혹 사소하지만 아주 중요한 실수를 저지르곤 했다.


       



      그런 의미에서 파이썬에 대해 어느정도 다룰 줄 알고, 머신러닝에 대해 관심을 가지고 있다면 이 책을 추천한다.



      이전에 머신러닝/딥러닝을 처음 배우는 이들에게 가장 추천할만한 도서로 '이토록 쉬운 머신러닝&딥러닝 입문'을 추천한 적이 있는데, 이 책도 그 반열에 끼워넣을만한 책으로 생각된다.


       


       




       



      4. 이 책의 특징



      위에서 이 책을 입문자에게 추천할 두 권의 책 중 하나로 선정했는데, 엄밀히 말해 두 책은 성격이 다르다. 이전에 추천한 '이토록 쉬운 머신러닝&딥러닝 입문'이라는 책이 아무래도 머신러닝보다는 딥러닝에 초점이 맞춰져 있고, 전주기에 걸친 파이토치 기반의 코드 구현에 대해 자세히 설명함으로써 [딥러닝 & Pytorch]에 집중한다면, 이 '파이썬 라이브러리를 활용한 머신러닝'의 경우 sklearn과 mglearn을 바탕으로 머신러닝에 대해 중점을 두고 있으며, 알고리즘에 대한 수학적 이해없이 이를 제대로 활용하는 법을 가르침으로써 [머신러닝 & Scikit-Learn]에 더 집중하고 있다.


      p.128 거의 한 페이지의 반을 차지하는 옮긴이분의 주석



      또한 이 책이 개정판이 나오는 과정에서 옮긴이로 참여하신 분의 주석이 아주 유용하다 보여진다. 일반적으로 주석은 특정 주장에 대한 출처나 참고할만한 것들을 간단히 정리하는 것에 그친반면 이 책은 간혹 한 페이지의 20% 정도는 차지할 정도로 옮긴이의 주석이 많다. 그리고 그 많은 주석들이 아주 유용하다.



      이 주석들은 각 알고리즘에 대한 실제 분석, 개정 버전의 유무와 그로 인한 변화, 혹은 책에서 설명하지 않은 실무적 내용이나 실용적 관점에서의 평가를 제시한다. 때문에 이 책을 읽는 이들에게 본문만큼이나, 때로는 본문 이상으로 옮긴이의 주석을 꼼꼼하게 살펴보고 넘어갈 것을 추천한다.


       


       


       



        "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


    •  책 실습환경 / 대상독자



      • 실습환경은 이번에 코랩으로 구성되어서 제공됩니다. (환경구성에 일관성이 제공되어서 실습에 편리함을 제공합니다.)
        지금 시점의 코랩에서는 최신 Stable 사이킷런이 설치되어 있습니다.


       




       


      • 소스 코드도 별도로 github에서 제공되고, 변경사항은 지속적으로 관리됩니다. (박해선님의 github에서 관리)


      • 대상독자

        • 머신러닝, 딥러닝을 시작하시는 분들

        • 다른책에서 사이킷런을 조금 경험해보셨는데, 좀 더 구체적으로 학습하시려고 하는 분들

        • 사이킷런 1.0 정식버전의 코드를 경험해보고 싶으신 분들

        • 머신러닝을 좀 더 깊게 학습을 하고 싶으신 분들

        • 박해선 저자/역자님을 좋아하시는 분들






       책에 대한 소감



      • 대부분의 머신러닝,딥러닝 책에서 기본적으로 사이킷런이 소개되어지고 설명되어집니다.
        ex) 최소한 지도/비지도학습에 대해서  분류(classification - KNeighborsClassifier),회귀 (regression-KNeighborsRegressor)등을 사용해서 언급 되어집니다.
        이 책을 통해서 본격적으로 사이킷런을 학습할 수 있고, 최신버전으로 제공되는 예제는 실습 및 학습에 많은 도움이 됩니다.


      • 현업에서 머신러닝으로 해결가능하고, 조금 더 의미있는 결과를 낼 수 있는 다양한 경우가 많습니다. 
        머신러닝에서 사이킷런은 매우 중요한 위치에서 많은 편리한 기능을 제공합니다.
        사이킷런의 핵심개발자가 출간한 책을 믿고 많은 부분을 학습할 수 있습니다.

      • 1.0으로 릴리즈된 버전을 실습해보고, 코드를 경험할 수 있습니다.

      •  




         



        • 조금 더 구체적으로 머신러닝을 다루고 싶고, 사이킷런을 좀더 학습을 하고 싶은 경우에 많은 도움이 될 것 같습니다.
          이 책은 사이킷런을 이용해서 머신러닝에 대한 내용을 다루어 지고 있기 때문입니다.


      •  

    • 이 책은 국내에서 2017년 초판 발행후 2번째로 번역개정한 판본으로 코랩에서 바로 예제를 실행하도록 수정 및 사이킷런 변경사항등을 수정해 발간한 도서로 어려운 수학기호가 난무하는 다른 머신러닝 책과는 달리 사이킷런 라이브러리를 활용해 파이썬 언어로 이를 구현하도록 안내하고 있어 난해함으로 머신러닝에 대한 접근을 포기했던 일반인에게도 진입장벽이 낮아지게 되고 역으로 이러한 실습을 통해 수학적, 수리통계적 접근을 가능하게 가이드 하고 있다.


       


      저자는 안드레아스 뮐러, 세라 가이도 2명이 공저하였으며 안드레아스 뮐러는 독일 본대학에서 머신러닝으로 박사학위를 받은 후 아마존에서 컴퓨터 비전부문에서 연구자 생활을 하다 다시 뉴욕대 데이터 과학센터로 자리를 옮기고 현재는 컬럼비아대에서 'Applied Machine Learning' 과목을 가리치고 있다.


       


      한편, 다른저자 세라 가이도는 스타트업에서 활동하는 데이터 과학자로 미시건대 대학원에서 수학하였다.


       


      저자의 약력에서 살펴볼 수 있듯 기술에 대한 근본 이해를 바탕으로 응용성, 실용적 활용에 촛점을 두고 머신러닝을 바라보고 있어 본책은 현업에 종사하며 이러한 기술을 어떻게 활용할 것인가에 대한 원초적 물음을 가진 분들에게도 등불이 될 수 있어 보이며 책 내용은 기본적으로 파이썬 코드를 통해 실습이 가능하도록 구성되어 있다.


       


      책 내용은 전체적으로 본문 493페이지 가량의 두껍지도 않고 얇지도 않은 적당한 분량으로 총 8장으로 구성되어 있으며


       


      8장중 


      1장은 머신러닝에 대한 간단한 소개와 사이킷런, 파이썬에 대한 간단한 설치 안내와 통계학에서 대표적으로 다루는 예제인 붓꽃 품종 종류에 대한 머신러닝에 대해 간략히 설명하고 있다.


       


      2장은 지도학습에 대해 지도 학습 알고리즘을 중심으로 다루고 있다


       


      3장은 비지도 학습과 데이터 전처리를 다루고 있으며 통계학에서 많이 활용하는 주성분분석(PCA), 비음수 행렬 분해, 군집등에 대해 학습한다.


       


      4장은 데이터 표현과 특성공학을 다루고 있으며 구간분할, 이산화, 선형모델, 트리모델등을 다룬다.


       


      5장은 모델에 대한 평가와 성능향상을 언급하고 있으며 사이킷런의 교차검증, k-겹 교차 검증, 반복 교차 검증을 다루고 있다.


       


      6장은 알고리즘 체인과 파이프라인을 다루고 있으며 파이프라인 구축, 그리드 서치에 대해 설명하고 있다.


       


      7장은 텍스트 데이터 다루기를 설명하고 있으며 비정형 데이터 분석등을 통한 간략한 맛을 보여준다.


       


      8장은 1장에서 7장까지의 내용을 마무리하는 장으로 앞의 내용을 정리하며 앞에서 설명중 부족했던 부분인 다른 머신러닝 프레임워크, 신경망등에 대해 언급하고 있다.


       


      이 책의 장점으로는 앞에서도 언급하였지만 어려운 수학을 앞세워 머신러닝에 대해 호기심을 가져오도록 사례 중심으로 접근하여 궁극으로 다시 수학으로 역회귀 하도록 하는 좋은 책이라고 볼 수 있다.


       



      전체적인 총평은 난이도가 높은 편은 아니라고 보이나 이미 컴퓨터학 통계학관련 전공 학생, 전공과 무관하게 프로그래밍의 개념이 어느정도 있는 직장인, 파이썬에 대해 알고 있고 많이 공부하고자 하는 초중고생 일반인에게 적합해 보이며 기본적으로 파이썬, 프로그래밍 언어에 대한 이해도를 가지고 있다는 전제로 서술되어 있으므로 이에 대한 이해가 부족한 독자들은 책을 읽기전이나 읽는 도중에 이와 관련한 학습이 필요하다고 생각된다.


       



      "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


    • 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.



      실제 수학적인 지식보다는 모델을 사용하는 방법에 대한 설명에 초점이 잡혀있습니다. 다양한 소스코드를 지속적으로 제공 및 업데이트하고 있어서 초보자들이 입문하기 좋은 책입니다:)


       



      자세한 리뷰는 아래 링크를 참고해주세요:)



      https://blog.naver.com/tnsgh9603/222671427329


       

  • 내용이 없습니다.
  • 내용이 없습니다.
닫기

해당 상품을 장바구니에 담았습니다.
장바구니로 이동하시겠습니까?