한빛출판네트워크

IT/모바일

실무로 통하는 ML 문제 해결 with 파이썬

전처리부터 딥러닝까지, 216개 실용 예제로 익히는 문제 해결 기법

한빛미디어

번역서

판매중

실무로 통하는 ML 문제 해결 with 파이썬
좋아요: 6
  • 저자 : 카일 갤러틴 , 크리스 알본
  • 역자 : 박해선
  • 출간일 : 2024-04-29
  • 페이지 : 528쪽
  • ISBN : 9791169212373
  • 물류코드 :11237
  • 구판정보 :이 도서는 <파이썬을 활용한 머신러닝 쿡북>의 개정판입니다.

합계 : 33,300

  • [저자] 크리스 알본

    위키백과를 호스팅하는 비영리 단체인 위키미디어 재단의 머신러닝 이사입니다

     

     

    [저자] 카일 갤러틴

    데이터 분석가, 데이터 과학자, 머신러닝 엔지니어로 수년간 경력을 쌓은 머신러닝 인프라를 위한 소프트웨어 엔지니어입니다. 또한 전문적인 데이터 과학 멘토이자 자원봉사 컴퓨터 과학 교사입니다. 소프트웨어 엔지니어링과 머신러닝이 접목되는 분야의 글을 종종 발표합니다. 현재 카일은 엣시(Etsy)의 머신러닝 플랫폼 팀에서 소프트웨어 엔지니어로 일하고 있습니다.

    [역자] 박해선

    기계공학을 전공했지만 졸업 후엔 줄곧 코드를 읽고 쓰는 일을 했습니다. Microsoft AI MVP, GCP Champion Innovator입니다. 텐서 플로우 블로그(tensorflow.blog )를 운영하고 있고, 머신러닝과 딥러닝에 관한 책을 집필하고 번역하면서 소프트웨어와 과학의 경계를 흥미롭게 탐험하고 있습니다. 『챗GPT로 대화하는 기술』(한빛미디어, 2023), 『혼자 공부하는 데이터 분석 with 파이썬』(한빛미디어, 2023), 『혼자 공부하는 머신러닝+딥러닝』(한빛미디어, 2020), 『Do it! 딥러닝 입문』(이지스퍼블리싱, 2019)을 집필했습니다. 『머신러닝 교과서: 파이토치 편』(길벗, 2023), 『스티븐 울프럼의 챗GPT 강의』(한빛미디어, 2023), 『핸즈온 머신러닝 3판』(한빛미디어, 2023), 『만들면서 배우는 생성 딥러닝 2판』(한빛미디어, 2023), 『코딩 뇌를 깨우는 파이썬』(한빛미디어, 2023), 『트랜스포머를 활용한 자연어 처리』(한빛미디어, 2022), 『케라스 창시자에게 배우는 딥러닝 2판』(길벗, 2022), 『개발자를 위한 머신러닝&딥러닝』(한빛미디어, 2022), 『XGBoost와 사이킷런을 활용한 그레이디언트 부스팅』(한빛미디어, 2022), 『구글 브레인 팀에게 배우는 딥러닝 with TensorFlow.js』(길벗, 2022), 『(개정2판)파이썬 라이브러리를 활용한 머신러닝』(한빛미디어, 2022), 『머신러닝 파워드 애플리케이션』(한빛미디어, 2021), 『파이토치로 배우는 자연어 처리』(한빛미디어, 2021), 『머신러닝 교과서 3판』(길벗, 2021)을 포함하여 여러 권의 책을 우리말로 옮겼습니다.

     

     

    • 한빛미디어 출판사의 "실무로 통하는 ML 문제 해결 with 파이썬(카일 갤러틴, 크리스 알본 저/박해선 역)"를 읽고 작성한 리뷰입니다.

      표지

      머신러닝 입문자가 빠르게 실무에 적응할 수 있도록 도와주는 책. 가장 빠른 방법으로 실무 중심의 핵심만 빠르게 습득하는데 큰 도움을 준다.

      약 7년 만에 “파이썬을 활용한 머신러닝 쿡북”의 개정판이 나왔다. 알파고의 등장 이후 딥러닝을 학습하며 거의 처음으로 만났던 책이었기에 매우 반가웠고 몇해 흐르는 동안 관련된 지식을 이미 충분히 알고 있음에도 다시금 반갑게 개정판을 읽은 이유는 다음과 같다.

      먼저 1판의 텐서플로 버전과 개정판의 파이토치 버전을 비교해보고 싶은 마음 하나와 몇년 전에 읽었을때의 개념과 제법 실무를 쌓고 난 지금 시점에서 읽었을 때 얼마나 책의 내용이 다르게 다가오는지 느끼고 싶은 이유 때문이었다.

      결론을 말하자면 개인적으로는 파이토치와 텐서플로의 구현 방법의 차이를 조금 더 명확하게 정리할 수 있었고 당시 이해하기 어려웠던 개념들을 말끔하게 정리해 볼 수 있음을 느꼈는데 확실히 이 책은 머신러닝을 입문하는 독자들에게 큰 도움이 될 수 있는 내용이 담겨있고 그 내용들은 체계적으로 독자들에게 다가갈 수 있게 구성한 저자의 노력이 돋보였다.

      1~7장은 주로 다양한 성격의 데이터를 능숙하게 다루는 방법을 다루고 있다. 수치형이나 범주형으로 구성된 Tabular 성격의 데이터를 Pandas를 통해 가공, 추출하는 것에서 시작하여 텍스트와 같은 비정형 데이터를 다루는 방법을 담고 있다. 특히, 날짜나 시간 또는 벡터와 같이 다루기 까다로운 유형의 데이터를 다루는 방법을 집중하여 설명하고 있어 입문자에게 많은 도움이 된다.

      8장~12장에는 주로 전처리 내용을 다룬다. OpenCV로 이미지를 다루는 방법에서부터 차원 축소 등의 피처 엔지니어링 기법도 다루며 모델을 평가하는 방법이나 선택하는 방법 등 실무에 자주 활용되는 파이프라인의 큰 그림을 포괄적으로 이해할 수 있는 파트이다.

      OpenCV


       

      PCA

      14장~19장에는 가장 흔하게 널리 알려진 ML모델을 하나씩 살펴본다. 회귀나 분류 모델은 물론 나이브베이즈나 군집 모델에 대해서도 상세히 실습해 볼 수 있다. 또한 기본 베이스라인 수준의 코드들이 잘 갖춰져있기에 이 책의 모델을 조금만 수정하면 실무 어디에도 쉽게 활용할 수 있도록 구성된 점이 눈에 띈다. 제목에서 알 수 있듯 이 책이 실무에 많은 도움이 되는 내용이기도 하다.

      특히 몇년 사이에 ML 핵심 모델을 구현한 최신 라이브러리들의 활용법이 매우 간소화되었다. 이런 최신화 라이브러리의 트렌드를 잘 반영하고 있는 책이기에 1판을 읽었던 독자에게도 도움되는 내용들이 많다고 볼 수 있다.

      여담으로 예전에 1판 리뷰를 작성하며 제목에 조금 실무에 도움된다는 느낌이 반영되었으면 한다고 기록한 적이 있는데 어쩌면 출판사에서 그 리뷰 의견을 반영하여 개정판의 제목을 반영해주신건 아닐까 감사한 마음도 든다.

      20장 이후로는 딥러닝을 소개한다. Pytorch를 활용하는 기본적인 방법론 및 이미지, 텍스트 위주의 신경망 훈련 예제가 등장한다. 마지막 장에는 서빙을 다루는데 복잡한 서빙의 과정을 API화하여 독자가 쉽고 빠르게 서빙의 개념을 익힐 수 있도록 안배한 구성이 마음에 든다.

      시각화

      이 책의 특징을 종합하자면 머신러닝 입문자가 빠르게 실무에 적응할 수 있도록 도와주는 책이라고 할 수 있다. 모든 예제들은 베이스라인이 탄탄하여 약간의 변형을 가하여 실무에 바로 활용할 수 있고, 머신러닝의 근간이 되는 핵심개념들은 수식을 거의 활용하지 않고 구현과 예제 중심으로 학습할 수 있도록 되어있어 이해하기 애매모호한 부분을 최소화한 점이 강점이다.

      베이스라인

      물론 시대적으로 LLM, GPT, RAG, 랭체인 등이 등장하며 더이상 모델의 Core에 대한 이해가 중요했던 시기는 사라져가고 있는 것이 사실인 듯 하다. 주로 유명한 LLM의 API를 활용하여 그 위에 파인튜닝이나 랭체인을 활용하여 타 서비스와의 차별화를 두고 있고 내부적으로 임베딩의 기법에 차이를 두는 편인 것 같다.

      예전처럼 밑바닥부터 온프레미스 느낌으로 자체 모델을 구현하고 서빙했던 환경에서 차차 거대 LLM에 의존하는 현 상황에서 모델의 핵심에 대한 배경 지식이 예전보다 중요성이 떨어진 것은 사실이다. 그럼에도 LLM을 제대로 활용하고 차별화된 별도의 모델을 구현하기 위해 여전히 머신러닝의 코어 지식은 중요하다고 생각한다.

      그렇기에 이 책의 내용이 현 시점 트렌드와 약간 거리감이 있는 것은 사실이나 머신러닝이나 딥러닝 분야의 종사자라면 이 정도 모델의 핵심 개념과 활용방법 정도는 기본으로 숙지해야 할 부분이다. 해야할 것이 참 많이 시간이 부족한 요즘 이런 내용들을 가급적 가장 빠른 방법으로 실무 중심의 핵심만 빠르게 습득하는데 큰 도움을 준다는 점이 이 책의 가장 큰 장점일거라 말하고 싶다.



       

    • 1판은 "파이썬을 활용한 머신러닝 쿡북"


      전처리에서 딥러닝까지, 판다스와 사이킷런 중심의 실전 문제 해결 200선


       


      이번 2판은 제목이 바뀌었다.


      "실무로 통하는 ML 문제 해결 with 파이썬"


       


       


       


      이 책은 목차가 모든 것을 말해준다.


      1~8장은 데이터를 핸들링하는데 필요한 내용


      9~19장은 회귀, 분류를 위한 머신러닝 기본 기법들과 평가방법


      20장 이후에는 파이토치, 신경망 까지 포괄적으로 다룬다. 한마디로 "광범위"하다


       


      1장 벡터, 행렬, 배열 
      2장 데이터 적재 
      3장 데이터 랭글링 
      4장 수치형 데이터 다루기 
      5장 범주형 데이터 다루기 
      6장 텍스트 다루기 
      7장 날짜와 시간 다루기 
      8장 이미지 다루기 
      9장 특성 추출을 사용한 차원 축소 
      10장 특성 선택을 사용한 차원 축소 
      11장 모델 평가 
      12장 모델 선택 
      13장 선형 회귀 
      14장 트리와 랜덤 포레스트 
      15장 k-최근접 이웃 
      16장 로지스틱 회귀 
      17장 서포트 벡터 머신 
      18장 나이브 베이즈 
      19장 군집 
      20장 파이토치 텐서 
      21장 신경망 
      22장 비정형 데이터를 위한 신경망 
      23장 훈련 모델의 저장, 로딩, 서빙


       


      광범위하므로 내용이 많아져서 527page 지만, 한가지 주제에 아주 디테일한 건 아니다. 오히려 앞쪽 파트에 공을 많이 들인 느낌이다. 특히 2장을 보면 일반적인 데이터분석 관련 책들은 csv, xls 정도의 파일을 적재하는 부분만 알려주는데, 이건 JSON, SQL, 구글 시트 뿐만 아니라 AWS S3 적재 방법까지 알려준다. "감동"!


       


      _2.0 소개 
      _2.1 샘플 데이터셋 적재하기 
      _2.2 모의 데이터셋 만들기 
      _2.3 CSV 파일 적재하기 
      _2.4 엑셀 파일 적재하기 
      _2.5 JSON 파일 적재하기 
      _2.6 파케이 파일 적재하기 
      _2.7 아브로 파일 적재하기 
      _2.8 SQLite 데이터베이스로부터 적재하기 
      _2.9 원격 SQL 데이터베이스에 쿼리하기 
      _2.10 구글 시트에서 데이터 적재하기 
      _2.11 S3 버킷에서 데이터 적재하기 
      _2.12 비구조적인 데이터 적재하기


       


       


       


      2장은 꼭 필요한 내용과 더불어 유의사항도 알려준다.


      1) 적재하기 전에 파일의 내용을 확인


      2) 매개변수 체크


       


       


       


      파이썬 코드는 라인 바이 라인으로 주석이 달려있다.


      이 부분은 초심자를 위해서 꼭 필요한 부분인데, 많은 책들이 분량 문제인지 생략하는 경우가 많다.


       


      더불어 박해선 역자는 데이터분석 분야의 그냥 레전드 같은 분인데, 이 책엔 특별히 '덧붙임'을 통해 유사함수나 다양한 옵션을 추가로 설명하는 부분이 포함되어있다. 


      * 박해선 님 : 혼공 시리즈 저, 핸즈온 머신러닝 역 등 다수


       


      장점


      폭넓은 주제를 다룸


      Full color 로 코드에 대한 설명이 친절함


      실제 분석할때 꿀팁 들이 포함되어있음


       


      단점


      527page 에 다 담을 수 없었던지라 깊이가 부족함(2장은 충분히 자세함)


      완전초보가 보기엔 어려움, 중급 이상이 보는게 적절해보임


       


      초보자부터 시작한다면 아래 순서대로 책을 보는 것도 좋아보인다


      1. 혼자 공부하는 데이터 분석 with 파이썬 
      2. 혼자 공부하는 머신러닝+딥러닝 
      3. 데이터 분석가가 반드시 알아야 할 모든 것  
      4. 실무로 통하는 ML 문제 해결 with 파이썬 
      5. 파이썬 머신러닝 완벽 가이드 
      6. 핸즈온 머신러닝


       


       “한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.”

    • 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

       

      카일 갤러틴, 크리스 알본 지음 / 박해선 옮김

       우선 이번 달에 이 책을 리뷰할 수 있어서 너무 좋았습니다. 회사 업무적으로도 머신러닝을 사용하기 시작하면서 실무에 적용해 볼 수 있었습니다. 또한 ADP라는 자격증을 준비하고 있는데, 보통회차와는 다르게 이번 시험에서는 전처리가 기본 조건으로 주어졌습니다. 시간 부족으로 아쉽게 이번 회차에 ADP 실기에 떨어지게 되었는데, 이 책을 공부하면서 확실히 돌아오는 회차에서는 합격할 수 있다고 확신할 만큼 좋은 책입니다. 혹시나 ADP 실기 시험에 어떤 책을 가져갈까 고민이시라면, 이 책을 꼭 추천드립니다.

      1. 대상 독자

       이 책은 머신러닝과 딥러닝에 대해 공부해보고 싶은 분이라면 가장 먼저 추천할 만큼 좋은 책입니다. 물론, 파이썬에 대한 활용법은 어느 정도 알고 있는 분들(라이브러리 활용, 기본 문법)에게 확실히 도움이 될 것입니다. 보통 머신러닝이나 딥러닝 책이라고 하면, 모델을 주로 다루는 경우가 많습니다만, 이 책은 머신러닝이나 딥러닝을 사용하기 위한 처음부터 끝과정까지 모두 다루는 책이라고 볼 수 있습니다. 또한 현업에서 머신러닝 모델링하시거나 관련된 업무를 하신다면, 하나쯤 가지고 있으면 업무에 도움이 될 수 있을 것 같습니다.

      2. 책에서 다루고 있는 내용 소개

       이 책에서는 데이터 불러오는 방법부터 전처리, 모델링, 모델 평가, 신경망 모델링, 서빙까지 실무에서 필요한 일련의 과정을 처음부터 끝까지 다루고 있습니다.

       우선, 데이터를 불러오는 방법 중 흔히 알고있는 엑셀, csv 이외의 JSON, SQLite DB, 구글 시트 등 다양한 소스로부터 불러오는 방법도 소개하고 있습니다. 이 부분에서는 단순히 pd.read_csv 만 하셨던 분이라면, 다양한 환경으로부터 원하는 정보를 가져오는 방법을 배울 수 있습니다.

       데이터를 불러왔으면, 데이터를 우리가 활용할 수 있도록 전처리하게 됩니다. 저도 이 책을 읽으면서 생각보다 알고 있지 못한 전처리 방법을 습득할 수 있었습니다. 테이블 형태의 데이터에서 주로 다루는 수치형, 범주형 외에도 가장 번거로운 날짜형태의 데이터, 이미지, 텍스트까지 많은 영역에서의 전처리 방법을 다룹니다. 단순하게, 1가지 방법에 대해서 소개하기 보다는 다양한 방법을 소개하고, 어떤 부분에서 다른지, 참고할 만한 자료를 제공하고 있는 점이 가장 좋았습니다.

       텍스트 처리와 이미지처리 파트에서는 전처리에 필요한 내용뿐 아니라, 간단하게 분류기를 만들어보는 예제까지 진행할 수 있도록 구성되어 있습니다. 특히, 저의 경우에는 다양한 이미지처리를 많이 해본 경험이 있는데 이미지의 특징을 추출하기 좋은 과제 및 예시들이 많이 포함되어 있습니다. 

       모델링 부분에서는 각각의 내용에 대해 굉장히 디테일하게 설명하고 있어서, 이 책 한 권이면 ADP 시험에서 서술형 문제들은 충분히 설명할 만하다고 느껴졌습니다.

       또한 마지막 장에서는 훈련한 모델을 저장하고 불러와서 바로 prediction 하는 방법, flask로 구성된 웹서버에 훈련한 모델을 서빙하는 방법 등 미니 프로젝트로 서비스 만들 때 필요한 내용이 담겨있어서 좋았습니다.

      3. 책의 특징
       

      책은 기본적으로 과제 - 해결 - 설명 - 참고 순으로 216개의 과제를 풀어가는 방식으로 서술하고 있습니다. 모델링하거나, 전처리할 때, Min-Max Scaler를 쓸까, Standard Scaler를 쓸까 등 어떤 방법을 써야 할지 고민이 되는 문제들 위주로 작성되어 있어서, 읽어보면서 실무에 바로바로 적용할 수 있는 좋은 책입니다. 각 모델에 대한 설명도 충분하게 들어있으며, 적절한 그림과 코드가 배치되어 있어서 이해하기에도 수월한 책입니다.

      4. 정리하기

       머신러닝을 위주로 잘 공부하고 싶은 분, ADP 실기 보러 가야 되는데 머신러닝 교재로 뭘 쓸지 고민이 되시는 분, 업무에 머신러닝을 도입하려고 하시는 분들에게 도움이 될 책입니다. 꼭 한번 읽어보시길 추천드립니다. 저도 이번 기회에 이 책으로 10월에 있는 ADP 실기를 차근차근 준비해보려 합니다. 긴 글 읽어주셔서 감사합니다.

    • "현재 실무로 통하는 ML 문제 해결 with 파이썬"은 데이터 전처리부터 딥러닝까지 216개의 실용적인 예제를 통해 실무 문제 해결 방법을 자세히 다룹니다. KoNLPy와 Okt를 활용한 텍스트 처리, transformers를 이용한 감정 분석, NumPy와 OpenCV를 통한 이미지 조작 등이 포함되어 있어 머신러닝과 데이터 과학에 관심이 있는 모든 분들께 추천합니다. 이 책은 실무에 바로 적용할 수 있는 구체적이고 실용적인 지식을 제공합니다.

    • 한빛미디어 '나는 리뷰어다' 활동을 위해서 책을 제공받아 작성된 서평입니다.

       

      "실무로 통하는 ML 문제 해결 with 파이썬"은 2019년에 발표된 "파이썬을 활용한 머신러닝 쿡북"의 2판입니다.

      기본적인 프로그래밍 지식을 가진 독자들이 파이썬을 이용하여 머신 러닝 모델을 쉽고 빠르게 구현할 수 있도록 도와주는 실용적인 안내서입니다.

      200개 이상의 다양하고 실용적인 코드 예제를 제공하며, 간단한 행렬 생성부터 Pre-Trained Model을 이용한 분류 작업까지 폭넓은 주제를 다룹니다.

      이런 점이 좋아요

      책의 가장 큰 장점 중 하나는 다양한 파이썬 라이브러리와 프레임워크를 다룬다는 점입니다.

      Scikit-Learn, Numpy, Pandas는 물론이고, 최근 더욱 각광받는 PyTorch와 TensorFlow까지 포괄적으로 다루어, 독자들이 필요한 도구를 선택하여 사용할 수 있는 유연성을 제공합니다.

      특히 2판에 추가된 PyTorch에 대한 내용은 1판에 비해서 가장 중요한 변경 사항이라고 생각합니다.

      각 작업 단위별로 정리된 예제 코드를 제공하여서, 독자들이 필요할 때 즉시 코드를 Copy / Paste해서 사용할 수 있도록 하고 있습니다.

      이는 학습 과정을 훨씬 더 신속하고 효율적으로 만들어 줍니다.

      기본적인 머신 러닝 기법들에 대한 설명과 함께, 선형 회귀, 의사결정트리, KNN, 로지스틱 회귀, SVM, 나이브 베이즈, 군집화 등을 포함한 다양한 머신 러닝 알고리즘의 사용법을 안내합니다.

      또한, 하이퍼파라미터 튜닝 기법과 다양한 프레임워크에서 모델을 서빙하는 방법 등도 다루어, 실제 머신 러닝 프로젝트를 진행하는 데 있어 필요한 지식을 제공합니다.

      이런 점이 아쉬워요

      이 책은 최신 딥러닝 기술에 대한 설명이 부족합니다.

      LLM이나 생성 모델과 같은 고급 딥러닝 주제는 다루고 있지 않으므로, 이러한 최신 기술을 배우길 원하는 독자들에게는 다소 아쉬울 수 있습니다.

      하지만, 이 책의 목적 자체가 실무에서 많이 사용되고 활용도가 높은 머신 러닝 기법들을 빠르고 쉽게 사용할 수 있도록 해주는 것이 목적이므로 최신 딥러닝 주제를 다루는 것은 이 책의 목적과는 맞지 않을수도 있겠다는 생각도 듭니다.

      이런 분들에게 추천드려요

      "실무로 통하는 ML 문제 해결 with 파이썬"은 빠르게 실무에 머신 러닝 알고리즘을 적용해 보고자 하는 독자들이 옆에 두고 사전처럼 찾아보면서 응용해서 사용할 수 있는 유용한 책이라고 생각합니다.

      실질적인 머신 러닝 기술을 빠르게 배우고 싶은 독자들에게 강력히 추천할 만한 책입니다.

    • 머신러닝 기본서로 추천드리는 책입니다.

      진짜로.. 이 책을 왜 지금까지 못 봤지 싶은 후회가 들었어요.

      책에서는 다양한 예제를 다루고 있고참고 사항과 덧붙여 알면 좋은 내용들도 포함하고 있습니다. 지금까지 읽어본 개념서 중 가장 많은 개념을 다루고, 모델 훈련과 SVM, 파이토치와 같은 심화적으로 꼭 알아야 하는 내용들도 포함하고 있어 공부하기 좋았습니다.

      현재 머신러닝 관련 강의를 듣고 있는데 이미 배운 내용 + 과제에서 사용한 내용 + 곧 배울 내용까지 포함하고 있는 것 같았습니다. 관련 강의를 듣기 전 '실무로 통하는 ML 문제 해결 with 파이썬'으로 공부하시고 가면 도움이 많이 될 것이라 예상합니다.

       

      "한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 제공 받아 작성된 서평입니다."

  • 내용이 없습니다.
  • 내용이 없습니다.
닫기

해당 상품을 장바구니에 담았습니다.
장바구니로 이동하시겠습니까?