살아 움직이는 머신러닝 파이프라인 설계

책소개

효율의 끝판왕, 머신러닝 파이프라인으로 가장 손쉽게 자동화를 구축하는 방법!

많은 기업이 머신러닝 프로젝트에 수백억씩 투자한다. 안타깝지만 모델을 효과적으로 배포하지 못하면 엄청난 투자가 성과로 이어지기 어렵다. 이 책은 텐서플로 생태계를 사용하여 머신러닝 파이프라인으로 자동화하는 실용적인 방법을 단계별로 안내한다. 배포 시간을 며칠에서 몇 분으로 단축하여 레거시 시스템을 유지하고 관리하는 대신 새로운 모델 개발에 집중할 수 있도록 돕는 기술과 도구를 소개한다.

데이터 과학자, 머신러닝 엔지니어 및 데브옵스 엔지니어는 모델 개발을 넘어 데이터 과학 프로젝트를 성공적으로 제품화하는 방법을 배울 수 있으며, 관리자는 팀을 지원하는 데 필요한 역할과 업무를 더 잘 이해할 수 있을 것이다.
저자소개

[저자] 하네스 하프케

SAP Concur의 Concur Labs 수석 데이터 과학자이다. 머신러닝을 사용하여 비즈니스 여행자의 경험을 개선하는 혁신적인 방법을 연구한다. SAP Concur에 합류하기 전에는 의료, 소매, 채용, 재생 에너지 등 다양한 산업 분야의 머신러닝 인프라 문제를 해결했다. 또한, 자연어 처리와 딥러닝에 관한 출판물을 공동으로 집필했으며 다양한 콘퍼런스에서 딥러닝과 파이썬에 대해 발표했다. 그는 wunderbar.ai의 창시자이기도 하다. 또한 오리건 주립 대학교에서 전기공학 석사 학위를 받았다.

[저자] 캐서린 넬슨

SAP Concur의 Concur Labs 수석 데이터 과학자이다. 특히 개인 정보 보호 머신러닝과 기업 데이터에 딥러닝을 적용하는 데 관심이 있다. 이전에는 지구물리학자로서 고대 화산을 연구하고 그린란드에서 석유를 탐사했다. 더럼 대학교에서 지구물리학 박사 학위를 받았고 옥스퍼드 대학교에서 지구과학 석사 학위를 받았다.

[역자] 송호연

현재 인공지능 튜터 산타토익을 개발한 뤼이드의 VP of AIOps로 머신러닝 파이프라인 구축을 총괄한다. 네이버에서 AI 연구 엔지니어로 근무했으며, 카카오에서 데이터 엔지니어로 일한 경력이 있다. 국내 최대 인공지능 커뮤니티인 텐서플로 코리아와 머신러닝 옵스 코리아 운영진이다.
목차

CHAPTER 1 머신러닝 파이프라인

1.1 머신러닝 파이프라인의 필요성

1.2 머신러닝 파이프라인을 고려해야 할 시기

1.3 머신러닝 파이프라인 단계

1.4 파이프라인 오케스트레이션

1.5 예제 프로젝트

1.6 요약

CHAPTER 2 TFX - 텐서플로 익스텐디드

2.1 TFX 소개

2.2 TFX 설치

2.3 TFX 컴포넌트 개요

2.4 ML 메타데이터

2.5 대화형 파이프라인

2.6 TFX의 대체 솔루션

2.7 아파치 빔 소개

2.8 요약

CHAPTER 3 데이터 수집

3.1 데이터 수집의 개념

3.2 데이터 준비

3.3 수집 전략

3.4 요약

CHAPTER 4 데이터 검증

4.1 데이터 검증의 필요성

4.2 TFDV – 텐서플로 데이터 검증

4.3 데이터 인식

4.4 GCP를 사용한 대용량 데이터셋 처리

4.5 TFDV를 머신러닝 파이프라인에 통합하기

4.6 요약

CHAPTER 5 데이터 전처리

5.1 데이터 전처리의 필요성

5.2 TFT를 사용한 데이터 전처리

5.3. 요약

CHAPTER 6 모델 학습

6.1 예제 프로젝트의 모델 정의하기

6.2 TFX Trainer 컴포넌트

6.3 대화형 파이프라인에서 텐서보드 사용하기

6.4 분산 학습 전략

6.5 모델 튜닝

6.6 요약

CHAPTER 7 모델 분석 및 검증

7.1 모델 분석 방법

7.2 텐서플로 모델 분석

7.3 공정성을 위한 모델 분석

7.4 모델 설명 가능성

7.5 TFX에서의 분석과 검증

7.6 요약

CHAPTER 8 텐서플로 서빙을 사용한 모델 배포

8.1 간단한 모델 서버

8.2 파이썬 기반 API를 사용한 모델 배포의 단점

8.3 텐서플로 서빙

8.4 텐서플로 아키텍처 개요

8.5 텐서플로 서빙용 모델 내보내기

8.6 모델 서명

8.7 내보낸 모델 검사하기

8.8 텐서플로 서빙 설정

8.9 텐서플로 서버 구성

8.10 REST 대 gRPC

8.11 모델 서버에서 예측하기

8.12 텐서플로 서빙을 사용한 A/B 모델 테스트

8.13 모델 서버에서 모델 메타데이터 요청

8.14 추론 요청 배치 처리

8.15 배치 예측 구성

8.16 기타 텐서플로 서빙 최적화

8.17 텐서플로의 대체 서비스

8.18 클라우드 공급자를 통한 구축

8.19 TFX 파이프라인을 사용한 모델 배포

8.20 요약

CHAPTER 9 텐서플로 서비스를 사용한 고급 모델 배포

9.1 배포 주기 분리

9.2 배포를 위한 모델 최적화

9.3 텐서플로 서빙에서 TensorRT 사용하기

9.4 TFLite

9.5 텐서플로 서빙 인스턴스 모니터링

9.6 텐서플로 서빙과 쿠버네티스를 사용한 간편한 확장

9.7 요약

CHAPTER 10 고급 TFX

10.1 고급 파이프라인 개념

10.2 휴먼 인 더 루프

10.3 사용자 지정 TFX 컴포넌트

10.4 요약

CHAPTER 11 파이프라인 1부: 아파치 빔 및 아파치 에어플로

11.1 오케스트레이션 도구 선택

11.2 대화형 TFX 파이프라인을 프로덕션 파이프라인으로 변환하기

11.3 빔과 에어플로를 위한 대화형 파이프라인 변환

11.4 아파치 빔 소개

11.5 아파치 빔으로 TFX 파이프라인 조정

11.6. 아파치 에어플로 소개

11.7 아파치 에어플로를 사용한 TFX 파이프라인 설정

11.8 요약

CHAPTER 12 파이프라인 2부: 쿠베플로 파이프라인

12.1 쿠베플로 파이프라인 소개

12.2 쿠베플로 파이프라인을 사용한 TFX 파이프라인 조정

12.3 구글 클라우드 AI 플랫폼 기반 파이프라인

12.4 요약

CHAPTER 13 피드백 루프

13.1 명시적 피드백과 암묵적 피드백

13.2 피드백 수집 패턴 설계

13.3 피드백 루프를 추적하는 방법

13.4 요약

CHAPTER 14 머신러닝을 위한 데이터 개인정보 보호

14.1 데이터 개인정보 보호 문제

14.2 차등 개인정보 보호

14.3 텐서플로 개인정보 보호 소개

14.4 연합 학습

14.5 암호화된 머신러닝

14.6 기타 데이터 개인정보 보호 방법

14.7 요약

CHAPTER 15 파이프라인의 미래와 다음 단계

15.1 모델 실험 관리

15.2 모델 배포 관리에 관한 생각

15.3 미래의 파이프라인 능력

15.4 다른 머신러닝 프레임워크와 함께 사용하는 TFX

15.5 머신러닝 모델 테스트

15.6 머신러닝을 위한 CI/CD 시스템

15.7 머신러닝 엔지니어링 커뮤니티

15.8 요약

APPENDIX A 머신러닝에 유용한 인프라 소개

A.1 컨테이너 소개

A.2 도커 소개

A.3 쿠버네티스 소개

A.4 쿠버네티스에 애플리케이션 배포하기

APPENDIX B 구글 클라우드에 쿠버네티스 클러스터 설정하기

B.1 시작하기 전에 수행해야 할 작업

B.2 구글 클라우드의 쿠버네티스

B.3 쿠베플로 파이프라인을 위한 영구 볼륨 설정

APPENDIX C 쿠베플로 파이프라인 조작 팁

C.1 사용자 지정 TFX 이미지

C.2 영구 볼륨을 사용한 데이터 교환

C.3 TFX 명령줄 인터페이스
출판사리뷰
파이프라인으로 머신러닝 자동화를 구축하는 명확한 가이드!

이 책에서 처음부터 끝까지 단계별로 구체적인 예제 프로젝트를 안내하는 방식이 마음에 들었습니다. 많은 코드 예제와 명확하고 간결한 설명 덕분에, 여러분의 머신러닝 파이프라인을 가동하고 자신의 사용 사례에 맞게 조정하는 데 필요한 개념적 도구를 사용할 수 있을 것입니다. 노트북을 가지고 여러분이 배운 내용을 실제로 사용해보기를 강력히 추천합니다.

이제 전문적인 머신러닝 파이프라인을 만들 때입니다!

대상 독자

기본적인 머신러닝 개념을 이해하고 하나 이상의 머신러닝 프레임워크(예: 파이토치, 텐서플로, 케라스)에 익숙한 독자님께 추천합니다. 이 책의 머신러닝 예시는 텐서플로와 케라스를 기반이지만, 핵심 개념은 어떤 프레임워크에도 적용할 수 있습니다.
- 일회성 머신러닝 모델 학습을 넘어 데이터 과학 프로젝트를 성공적으로 출시하고자 하는 데이터 과학자와 머신러닝 엔지니어
- 프로젝트 관리자, 소프트웨어 개발자, 데브옵스 엔지니어
주요 내용
- 머신러닝 파이프라인 구축 단계 이해
- 텐서플로 익스텐디드(TFX)를 사용한 파이프라인 구축
- 아파치 빔, 아파치 에어플로, 쿠베플로 파이프라인을 사용한 머신러닝 파이프라인 조정
- 텐서플로 데이터 검증 및 변환을 사용한 데이터 작업
- 텐서플로 모델 분석을 사용하여 모델 세부 분석
- 모델 성능의 공정성과 편향성 조사
- 모바일 장치용 텐서플로 서빙 또는 텐서플로 라이트(TFLite)로 모델 배포
- 개인 정보를 보호하는 머신러닝 기술
추천사

이 책은 일반적인 프로덕션 머신러닝 시스템, 특히 TFX에 대한 포괄적인 관점을 알려주는 뛰어난 리소스입니다. 명확하게 설명하며 다양한 예시와 함께 사용 가능한 가장 정확한 정보도 제공합니다.

로버트 크로, 구글 데이터 과학자

독자리뷰

리뷰 쓰기

gutss***l2021-11-22

파이프라인개발에 좋은 참고가 될 책

본 서평은 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

머신러닝 파이프라인을 한번 잘 만들어두면 그 안에서 모델을 바꾸거나 실험을 통해 세부적인 사항을 바꾸면 되지요.

실무의 입장으로 보면, 사내에서 자체구축을 하기위해 바닥부터 만드는 경우도 있고

책과 같이 잘 되어있는 플랫폼, 프레임워크, 라이브러리 등을 차용하여 빠르게 구축하는 경우도 있겠습니다.

저는 전자인 바닥부터 만드는 경우의 환경을 경험해봤습니다만 이것으로 인한 장단점이 나뉘는 것 같습니다.

선호를 따지자면, 이미 잘 되어있고 검증된 것을 가져다 써서 빠르게 파이프라인을 구축하고

모델 실험이나 데이터 분석에 주력을 하는 것을 더 선호하지만

제 선호도 만으로 결정할 수 있는 부분은 아니다보니 이런저런 아쉬움이 있습니다.

머신러닝 파이프라인의 개념, 소개 그리고 TFX를 활용한 파이프라인 구축이 책의 전반적은 내용 인데요.

제 경험에 빗대보자면, 바닥부터 만들다보니 파이프라인 내에서 필요성을 통감하면서도

서비스 제공에 보다 중요한 모델 학습과 배포에 대부분 집중했던 것 같습니다.

데이터의 버전화, 데이터의 유효성 확인 및 데이터 드리프트의 확인

모델 검증 절차, 학습의 추적, 튜닝모델의 검증, 피드백 루프 등에 대해선

깊이 다뤄보지못한 부분이 많이 아쉽습니다.

현재 실무에서 머신러닝 엔지니어로서 자사 솔루션, 플랫폼의 자체개발에도 역량을 쏟으시는 분들은

본 책에 나오는 도구들을 (이미 알고계실 수도 있겠지만) 낱낱히 파헤쳐 필요한 기능을 뽑아 개발하시는 것도 좋을 것이라 생각합니다.

pbj0***l2021-11-21

머신러닝 파이프라인의 기본서(지만 쉽지는 않다.)

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

0. 도서 정보

- 도서명 : 살아 움직이는 머신러닝 파이프라인 설계

- 저자 : 하네스 하프케, 캐서린 넬슨

- 링크

1. 후기

- 딥러닝/머신러닝이 뜨기 시작하면서 관련된 강의나 서적들이 굉장히 많이 나왔었지만, 그것을 밑에서 받쳐주는 파이프라인에 관련된 책은 찾기가 쉽지 않았다. 이 책은 그런 책을 찾고 있는 분들에게는 단비같은 서적이 될 것 이라고 본다. 파이프라인 단계에 대한 설명부터 시작하여 각 단계에 대한 설명 및 관련된 코드, 그리고 주의해야 할 점 등도 기술했다. 그렇기에 상당한 양의 정보들이 뭉쳐져 있다고 봐도 과언이 아니다. 하지만, 그렇기 때문에 각 부분에 대한 설명은 조금 아쉬울수도 있다. 예를 들면 자동화를 도와주는 에어플로우의 경우 유데미 같은 교육사이트에서 찾아 볼 때 해당 기술 하나에 몇 시간에 걸쳐서 강의를 하기도 하는 만큼 양이 적다고 볼 수 없지만 해당 도서에서는 10장 미만의 내용으로 끝이 난다. 그렇기에 나같은 초심자가 보기에는 어렵다고 느껴질 수도 있을거 같지만, 머신러닝 파이프라인이 어떻게 구성되는지 각 파트에서는 어떤 일들이 일어나는지만 익혀두어도 괜찮을 것으로 보인다.

beholde***l2021-11-21

기존 머신러닝 모델 파이프라인 이 준비되어 있지 않은 회사에서 구축을 염두할 때 한번 읽고 참고할만 한 책

- 기존 머신러닝 모델 파이프라인 이 준비되어 있지 않은 회사에서 구축을 염두할 때 한번 읽고 참고할만 한 책이라고 생각합니다.

- 아주 실무지향적입니다.

- TFX를 염두에 두고 있었다면 그냥 이 책을 갖고 가는게 좋을 것 같습니다.

- 머신러닝 파이프라인을 구성하는 요소들과 그 개념, 설계상에 염두에 두어야 할 것들을 다시 한번 되짚을 수 있고 몰랐다면 개념을 다질 수 있습니다.

- 기반 코드들이 제공되어 실행해보면서 자신의 파이프라인을 한번 구성해볼 수 있습니다.

- 책의 디테일이 좋습니다. 프로젝트를 수행하면서 고려해야 할 사항들을, 모르고 지나쳤다면 나중에 맞닥뜨려야 할 문제들을 이 책에서 찾을 수 있습니다.

- 만족스럽게도 머신러닝 배포 부분이 잘 설명 되어 있습니다.

eehoesk***l2021-11-21

머신러닝 파이프라인 자동화 구축 지침서!

인공지능 프로젝트는 상당히 많은 부분을 자동화 소프트웨어로 대체 할 수 있다. 이 책에서는 머신러닝 파이프라인 자동화를 시작하는 명확한 지침을 제공한다. 뤼이드의 송호연님이 제시하고 있는 인공지능 프로젝트의 미래는 꽤 설득력 있다. 머신러닝 파이프라인을 세팅해주기만 한다면, AutoML을 수행하는 인공지능 에이전트가 해당 문제를 확인하고, 리소스를 얼마나 사용할지 사람에게 컨펌받고, 스스로 모델을 디자인하여 하이퍼파라미터를 최적화하고 이를 평가, 배포, 모니터링까지 수행할 수 있다고 말하고 있다.

즉, 미래에 우리는 문제를 정의해주고, 데이터와 목표값만 정해주면 된다는 것이다. 물론 간단한 문제는 이렇게 충분히 풀릴 수 있다. AutoML 기술도 매우 중요하지만, 앞으로 더 중요해질 일은 머신러닝 파이프라인을 세팅하고, 데이터를 목적에 맞게 준비하는 것 아닐까 싶다. 이러한 관점에서 이 책은 머신러닝 파이프라인을 구축하여 프로젝트를 자동화하는데 많은 소스가 될 수 있다.

이 책의 대상 독자는 다음과 같다.

✔️ 머신러닝 모델 학습을 넘어 데이터 과학 프로젝트를 성공적으로 출시하려는 데이터 과학자와 머신러닝 엔지니어
✔️ 데이터 과학 프로젝트 관리자, 소프트웨어 개발자, 데브옵스 엔지니어 (데이터 과학 프로젝트를 가속화 할 수 있도록 지원하는 사람들)

이 책은 이미 머신러닝 프로젝트를 다루고 있는 연구개발자들에게는 파이프라인을 자동화 할 수 있는데 방향성을 명확하게 제시해주는 책이고, 머신러닝 프로젝트를 시작하려는 사람들에게도 지침서가 되어줄 수 있는 책이다. 앞으로도 많은 산업에 기하 급수 적으로 머신러닝이 도입될텐데, 전반적인 IT 산업 시장에 머신러닝 파이프라인 자동화가 도입되어 효율적인 프로세스가 구축되기 위해 이러한 파이프라인이 반드시 필요하다는 것을 강조하는 사람들이 많이 생겨나고, 그러한 방법을 담은 책이 이 책을 시작으로 많이 출간되었으면 하는 개인적인 바램이다.

tbea***l2021-11-21

[Book Review] 살아 움직이는 머신러닝 파이프라인 설계

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

머신러닝 지식과 클라우드 지식

머신러닝 파이프라인을 설계해보려면 설계 전에 머신러닝에 대한 기본 지식은 알아야겠죠? 이 책을 읽기 전에 TensorFlow와 Keras 코드 읽기가 익숙하신지 생각해보시길 바랍니다. 또한, 파이썬에도 엄청 익숙하셔야 합니다! 이 책을 고려하시는 분이라면 당연하실 거라 믿습니다.

또한, 이 책을 읽기 위한 필수 지식은 아니지만 클라우드를 사용해보신 분이 읽으시면 책을 읽으시는 데 도움이 될 것입니다. 특히 GCP(Google Cloud Platform) 또는 AWS(Amazon Web Services) 환경을 한 번이라도 사용해보셨으면 됩니다. 파이프라인을 설계하면서 클라우드 서비스를 활용하여 최적화할 수 있는 방법들을 설명하기에 사전에 GCP 또는 AWS를 사용해보셨다면 읽으시는 데 훨씬 편할 것입니다.

전반적인 내용 정리

TensorFlow Extended(TFX)를 사용하여 데이터 수집 -> 데이터 검증 -> 데이터 전처리 -> 모델 학습 -> 모델 분석 및 검증 -> 모델 배포 순으로 파이프라인을 설계해봅니다. 전반적으로 텐서플로우 생태계를 사용해본다고 생각하시면 됩니다. TFX 공식 문서가 잘 번역이 되어 있어서 공식 문서도 보시면서 책을 읽으시면 더욱 도움이 될 것 같습니다!

마지막으로는 파이프라인을 실행하는 데 사용하는 오케스트레이션 도구를 사용해봅니다. 개인적으로 파이프라인을 설계하는 부분도 흥미가 있어 재밌게 읽었지만, 마지막 부분에 세 가지 오케스트레이션 도구(Apache Beam, Apache Airflow, Kubeflow)를 설명하는 부분을 꽤 재밌게 읽었습니다. 커뮤니티에서 듣기만 해봤던 도구들이라 이 책을 통해 사용해볼 기회가 생겨서 도움이 됐습니다.

부록

부록에서는 머신러닝에 유용한 인프라 도구이며 컨테이너를 관리하는 도커나 쿠버네티스를 간단히 소개합니다. 또한, 구글 클라우드에 쿠버네티스 클러스터를 설정해봅니다. 도커나 쿠버네티스를 사용해보시지 않으셨더라면 부록에서 체험해보실 수 있습니다.

대상 독자

이 책은 머신러닝 프레임워크에 익숙하시고 머신러닝 파이프라인을 설계해보시고 싶은 분들께 추천합니다. 비록 이 책의 머신러닝 코드가 텐서플로와 케라스 기반이지만, 핵심적인 개념은 어떠한 프레임워크에서도 적용할 수 있을 것으로 예상됩니다.

TensorFlow 생태계에 관심이 많으신 머신러닝 엔지니어분들이 읽으셔도 도움이 될 책이라고 예상합니다. 또한, MLOps에 관심이 있으신 DevOps 엔지니어 분이 읽으셔도 도움이 될 책이라고 생각합니다.

lees***l2021-11-21

[리뷰]살아 움직이는 머신러닝 파이프라인 설계
[도서 소개]

효율의 끝판왕, 머신러닝 파이프라인으로 가장 손쉽게 자동화를 구축하는 방법!

많은 기업이 머신러닝 프로젝트에 수백억씩 투자한다. 안타깝지만 모델을 효과적으로 배포하지 못하면 엄청난 투자가 성과로 이어지기 어렵다. 이 책은 텐서플로 생태계를 사용하여 머신러닝 파이프라인으로 자동화하는 실용적인 방법을 단계별로 안내한다. 배포 시간을 며칠에서 몇 분으로 단축하여 레거시 시스템을 유지하고 관리하는 대신 새로운 모델 개발에 집중할 수 있도록 돕는 기술과 도구를 소개한다.

데이터 과학자, 머신러닝 엔지니어 및 데브옵스 엔지니어는 모델 개발을 넘어 데이터 과학 프로젝트를 성공적으로 제품화하는 방법을 배울 수 있으며, 관리자는 팀을 지원하는 데 필요한 역할과 업무를 더 잘 이해할 수 있을 것이다.

[목차]

CHAPTER 1 머신러닝 파이프라인

CHAPTER 2 TFX - 텐서플로 익스텐디드

CHAPTER 3 데이터 수집

CHAPTER 4 데이터 검증

CHAPTER 5 데이터 전처리

CHAPTER 6 모델 학습

CHAPTER 7 모델 분석 및 검증

CHAPTER 8 텐서플로 서빙을 사용한 모델 배포

CHAPTER 9 텐서플로 서비스를 사용한 고급 모델 배포

CHAPTER 10 고급 TFX

CHAPTER 11 파이프라인 1부: 아파치 빔 및 아파치 에어플로

CHAPTER 12 파이프라인 2부: 쿠베플로 파이프라인

CHAPTER 13 피드백 루프

CHAPTER 14 머신러닝을 위한 데이터 개인정보 보호

CHAPTER 15 파이프라인의 미래와 다음 단계

[대상 독자]

- 일회성 머신러닝 모델 학습을 넘어 데이터 과학 프로젝트를 성공적으로 출시하고자 하는 데이터 과학자와 머신러닝 엔지니어

- 프로젝트 관리자, 소프트웨어 개발자, 데브옵스 엔지니어

[주요 내용]

- 머신러닝 파이프라인 구축 단계 이해

- 텐서플로 익스텐디드(TFX)를 사용한 파이프라인 구축

- 아파치 빔, 아파치 에어플로, 쿠베플로 파이프라인을 사용한 머신러닝 파이프라인 조정

- 텐서플로 데이터 검증 및 변환을 사용한 데이터 작업

- 텐서플로 모델 분석을 사용하여 모델 세부 분석

- 모델 성능의 공정성과 편향성 조사

- 모바일 장치용 텐서플로 서빙 또는 텐서플로 라이트(TFLite)로 모델 배포

- 개인 정보를 보호하는 머신러닝 기술

[서평]

지난 몇 년동안 머신러닝 분야는 엄청나게 발전 했습니다. GPU의 광범위한 가용성과 BERT와 같은 트랜스포터나 DCGAN과 같은 DANs등 새로운 딥러닝 개념의 등장으로 AI프로젝트의 수가 급증 했습니다. AI 스타트업의 수는 어마하게 생겨 났습니다. 최신 머신러닝 개념을 조직의 모든 종류의 비즈니스 문제에 더 많이 적용하고 있습니다.

아마 앞으로는 대부분의 비즈니스에 AI가 적용될것이라 생각해봅니다. 데이터 과학자와 머신러닝 엔지니어가 개발 속도를 높이고, 재사용하고, 관리 및 배포하는데 활용할 개념과 도구에 관한 좋은 자료가 부족합니다. 가장 필요 한 것은 바로 머신러닝 파이프라인의 표준화 압니다. 머신러닝 파이프라인은 머신러닝 모델을 가속, 재사용, 관리 및 배포하는 프로세스를 구현하고 표준화 합니다. 10여년 전 지속적인 통합과 지속적인 배포를 도입하면서 많은 변화가 있었습니다. 이런 CI/CD 프로세스는 몇개의 도구와 개념 덕분에 크게 간소화 되었습니다.

데이터 과학자와 머신러닝 엔지니어는 소프트웨어 엔지니어링에서 워크플로에 대해 많이 배울수 있습니다.

모델을 프로덕션에 배포하는 것을 목표로 하는 대부분의 데이터 과학 프로젝트는 대규모 팀을 갖추지 못합니다. 따라서 처음부터 전체 파이프라인을 구축하기가 어렵습니다. 머신러닝 프로젝트가 시간이 지나면서 성능이 저하되거나, 데이터 과학자가 기본 데이터가 변경되었을 때 오류를 수정하는데 많은 시간을 할애하거나, 모델이 널리 사용되지 않는 일회성 작업으로 변한다는 뜻입니다. 자동화되고 재현가능한 파이프라인은 모델 배포를 도와 줍니다. 파이프라인에는 다음 단계가 있어야 합니다.
- 데이터를 효율적으로 버전화하고 새로운 모델 학습 실행을 시작
- 새로운 데이터의 유효성을 확인하고 데이터 드리프트를 확인
- 모델 학습 및 검증을 위해 데이터를 효율적으로 전처리
- 머신러닝 모델을 효과적으로 학습
- 모델 학습을 추적
- 학습시키고 튜닝된 모델을 분석하고 검증
- 검증된 모델을 배포
- 배포된 모델을 스케일링
- 피드백 루프를 사용해 새로운 학습 데이터를 수집하고 성과 지표를 모델링
이책에서는 머신러닝 파이프라인 전체를 처음부터 끝까지 따라 하다보면 머신러닝 프로젝트에서 파이프라인을 구축 할수 있는 역량을 배울수 있을거라 생각합니다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

sihan***l2021-11-21

서비스를 위한 초고의 솔루션

머신러닝을 이용한 서비스는 지속적으로 늘어나고 있는 추세입니다. ML 서비스들은 항상 최고의 수준을 유지할 것라는 기댈를 갖게 합니다. 어제보다, 지난 달 보다 더 나은 추천을 해주고, 내가 원하는 목적지를 나보다 빨리 제안하고, 음악을 큐레이션 해주는 등 사용자 경험이 나아지길 기대하며 ML 베이스 서비스를 이용하고, 기업들에서도 제공하고 있습니다.

하지만 서비스의 성능을 지속적으로 발전시키기 위해서는 자동화되고 잘 짜여진 파이프라인이 필요합니다. 이런 파이프라인 없이 엔지니어가 데이터 셋 업데이트부터 모델 서빙까지 다 맡아서 하다보면 인원의 공백이나 교체 등에 의해 퀄리티가 널 뛰게 됩니다.

사실 연구나 학습 단계에서는 이런 파이프라인을 어떻게 구성할지 고민할 필요가 없습니다. 대부분 처음에 주어진 데이터 셋을 이용해 최종결과물까지 뽑아내기 떄문에 이미 완성된 모델을 업데이트하고 새로운 데이터를 집어넣고, 추가 학습을 하고 자동으로 서빙까지 될 필요가 없습니다. 그렇지만 여러분이 여러분의 모델을 이용해 서비스를 준비 중이거나 이미 서비스 중인데 파이프라인 구축에 어려움을 겪고 있다면 한글로 만날 수 있는 최고의 솔루션 중 하나입니다.

이 책은 ML을 공부하는 모두에게 필요한 책은 아닙니다. 정말 서비스와 자동화를 위한 책이지만 언젠가 서비스를 릴리즈하겠다는 목표로 공부 중인 분들도 충분히 읽어볼 만한 책입니다.

구글의 머신러닝 프레임워크인 Tensorflow의 프로덕션을 위해 나온 익스텐디드인 TFX를 이용한 파이프라이닝 구축에 관한 내용을 담고 있습니다. 이름은 Tensorflow Extended이지만 TF 뿐만 아니라 PyTorch, Keras등 다양한 ML 라이브러리에 접목할 수 있는 도구입니다.

서비스 서빙에 익숙하지 않으신 분들은 파이프라이닝 자체가 생소하실 수도 있지만 파이프라인이라는 것은 수도 배관 같은 것 입니다. 최종 사용자는 배관이 어떤식으로 구성되어 있고 작동하는지 모르지만 매일 싱크대, 화장실의 변기, 세면대, 샤워기 등 다양한 상호작용 가능한 것들을 이용해 수도를 문제 없이 사용합니다. 즉 데이터 파이프라이닝은 우리가 ML학습에 이용하는 데이터를 수집, 검증, 전처리, 학습, 모델 검증 등 모델 서빙에 필요한 과정들 배관을 설치하는 것과 같이 길을 만들어 주는 과정입니다.

이 책은 이 길을 만드는 기초 설계서로 여러분을 기대라고 있습니다. 이 책을 제대로 이용하기 위해서는 이 한가지 이상의 ML프레임워크를 자유롭게 이용할 수 있는 수준을 권장하고 있고, 모델 오케스트레이션 등 다양한 개념들이 한꺼번에 밀려 들어오기 때문에 준비가 조금은 필요한 책입니다.

추천대상: ML 모델 서비스를 준비 중이거나 자동화 파이프라이닝 구축이 필요한 분들

나는 리뷰어다 2021의 활동으로 작성 된 리뷰입니다

sincerit***l2021-11-19

본 책은 머신러닝 전 프로세스를 이해하고 이를 활용하여 실제 제품에 적용되는 모든 과정을 이해할 수 있는 책이라고 할 수 있다.

살아움직이는 머

서평 및 발제

계속해서 기계학습 관련된 책을 보고 리뷰를 올리고 있다. 인공지능과 딥러닝이 큰 인기를 끌고 있는데, 나는 여전히 머신러닝을 공부하고 있다. 하지만 지금이라도 머신러닝을 공부하고 배울 수 있으니 한편으로는 기존의 내가 있던 분야에서 몇 걸음 더 전진하고 있는 것 같다.

관심은 있었지만, 실무적으로 해보지도 못했을 법한 머신러닝의 분야를 계속해서 접하고 있고, 그 근처에서 헤매고 있다는 것만으로도 감사할 일이라 생각된다. 그 이유는 내 전공은 자연계이고 생물학, 생화학, 분자생물학, 유전공학, 약리학을 공부했기 때문에 공학, 머신러닝, 딥러닝은 기존의 전공과 연계성도 없고, 향후 커리어를 쌓을 때 필요 없을 수 있기 때문이다.

머신러닝을 공부하면서 느끼는 것은 재밌다? 신기하다?이다. 하지만 더 많이 느끼는 것은 어렵다?이다. ANN RNN CNN 듣기만 해도 어려운 단어들이 출몰하고, 머신러닝과 딥러닝의 차이는 이론적으로 알겠는데 막상 한걸음 들어가 보니 경계도 모호하다. 머신러닝을 배우고 있는데 왜 딥러닝 알고리즘을 배워야 하는지 모를 때가 많다.

머신러닝 파이프라인을 설게 한다!!! 멋진 말이다. 내가 가진 백그라운드에서 보면 생물정보 분석 파이프라인 설계는 접해보았는데, 머신러닝 파이프라인을 설계한다니 복잡한 Layer들을 계속해서 쌓는 것 같은 느낌이다.

본론으로 돌아가서 본 책에 대한 내용은 간단하게 적어본다.

차례 및 요약

CHAPTER 1 머신러닝 파이프라인

CHAPTER 2 TFX - 텐서플로 익스텐디드

CHAPTER 3 데이터 수집

CHAPTER 4 데이터 검증

CHAPTER 5 데이터 전처리

CHAPTER 6 모델 학습

CHAPTER 7 모델 분석 및 검증

CHAPTER 8 텐서플로 서빙을 사용한 모델 배포

CHAPTER 9 텐서플로 서비스를 사용한 고급 모델 배포

CHAPTER 10 고급 TFX

CHAPTER 11 파이프라인 1부: 아파치 빔 및 아파치 에어플로

CHAPTER 12 파이프라인 2부: 쿠베플로 파이프라인

CHAPTER 13 피드백 루프

CHAPTER 14 머신러닝을 위한 데이터 개인정보 보호

CHAPTER 15 파이프라인의 미래와 다음 단계

APPENDIX A 머신러닝에 유용한 인프라 소개

APPENDIX B 구글 클라우드에 쿠버네티스 클러스터 설정하기

APPENDIX C 쿠베플로 파이프라인 조작 팁

머신러닝 파이프라인 : GPU의 광범위한 가용성과 BERT와 같은 트랜스포머나 DCGAN과 같은 GANs 등 새로운 딥러닝 개념의 등장으로 AI 프로젝트가 급증했다. 모든 요소에 사용되는 다양한 머신러닝 모델을 가속, 재사용, 관리 및 배포하는 프로세스를 표준화 하는것이 머신러닝 파이프라인이라고 할 수 있다.

머신러닝 파이프라인의 단계

모델 학습 -> 데이터 드리프트 확인 -> 전처리 -> 학습 -> 추적 -> 튜닝 -> 분석/검증 -> 배포 -> 스케일링 -> 피드백 루프

머신러닝 파이프라인을 도표로 보면 아래와 같으며, 이 책은 아래의 프로세스 과정을 각 챕터별로 상세하게 설명하고 관련 코드와 예제를 활용할 수 있다.

TFX : TensorFlow Extended(TFX)는 프로덕션 ML 파이프라인을 배포하기 위한 엔드 투 엔드 플랫폼이다. 적합한 버전을 확인하여 설치할 수 있다.

tfx를 활용한 예제 코드이다.

워크플로의 분리 모델 : 모델 서빙 컨테이너는 한 번만 배포되고, 데이터 과학자는 버킷의 웹 인터페이스나 명령줄 복사 작업으로 새 버전의 모델을 스토리지 버킷에 업로드할 수 있다.

텐서플로 모델을 활용한 예제 코드이다.

아무리 많은 영상을 보고 공부해보았지만, 파이프라인은 또 정말 새롭다. 여러 알고리즘과 학습 모델이 있지만 배울 때마다 늘 새롭고 어렵다.

한 줄로 설명하자면 본 책은 머신러닝 전 프로세스를 이해하고 이를 활용하여 실제 제품에 적용되는 모든 과정을 이해할 수 있는 책이라고 할 수 있다.

1b***l2021-11-04

[살아 움직이는 머신러닝 파이프라인 설계_텐서플로와 함께하는 머신러닝 프로젝트 자동화] 머신러닝 프로세스와 과정관리를 고민하는 사람들을 위한 책

이 책은 머신러닝을 구현함에 있어 이의 프로세스 관리와 관련된 이야기를 다루고 있는데 일반적으로 머신러닝을 구현하기 위해 모델의 정확도 등도 중요하지만 과정관리가 제대로 되지 않으면 이러한 모델도 효율적으로 동작하지 않게 되는데 이책은 이러한 내용을 화두로 다루고 있는 Machine Learning Pipelines를 주제로 다루고 있다.

저자인 하네스 하프케(Hannes Hapke)는 SAP Concur의 Concur Labs 수석 데이터 과학자로 머신러닝 인프라에 관심을 가지고 연구하고 있으며 오리건 주립대 전기공학 석사학위를 가지고 있다 한다.

내용은 전체적으로 일반적인 컴퓨터 관련서적과 마찬가지로 초반에는 전반적인 이론을 설명하다 코드로 시스템 구축에 대한 설명을 하는 구조를 가지고 있으며, 총 15장으로 구성되어 있다.

각 장에서는 머신러닝 파이프라인의 소개, 파이프 라인의 사용시기, 구성단계등을 시작으로 TFX로 불리우는 텐서플로 익스텐디드를 설명하고 파이프라인에서 데이터 수집, 데이터 검증, 데이터 전처리, 모델학습, 모델 분석 및 검증, 텐서플로 서빙을 사용한 모델배포, 텐서플로 서비스를 사용한 고급 모델 배포, 고급 TFX, 아파치 빔 및 아파치 에어플로, 쿠브플로 파이프라인, 피드백 루프, 머신러닝을 위한 개인정보 보호, 파이프 라인의 미래에 대해 고찰을 마지막으로 각 장을 설명하고 있다.

전체적으로 책을 훑어 본 느낌은 중급자 이상이 보기에 좋은 내용으로 책을 접하기 전에 선행해서 미리 파이토치, 텐서플로, 케라스등에 학습이 필요해 보이며 항상 그렇듯이 독자 스스로 시간이 소요되더라도 어린 아기가 걸음마를 하듯 한걸음 한걸음 목표를 향해 걸어가듯 인내심을 가지고 꾸준히 걸어가면 어느덧 원하는 곳에 도달하지 않을까 생각한다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

오탈자 보기

오탈자 등록하기
부록/예제소스

내용이 없습니다.
추천도서

내용이 없습니다.

한빛출판네트워크

IT/모바일

살아 움직이는 머신러닝 파이프라인 설계

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

0. 도서 정보

1. 후기

살아움직이는 머

서평 및 발제

머신러닝 파이프라인을 설게 한다!!! 멋진 말이다. 내가 가진 백그라운드에서 보면 생물정보 분석 파이프라인 설계는 접해보았는데, 머신러닝 파이프라인을 설계한다니 복잡한 Layer들을 계속해서 쌓는 것 같은 느낌이다.

본론으로 돌아가서 본 책에 대한 내용은 간단하게 적어본다.

차례 및 요약