대규모 데이터셋 분석, 시각화, 모델링부터 분산 앱 패키징과 배포까지
한빛미디어
번역서
판매중
데이터 과학의 전체 워크플로를 단계별로 소개하는 종합 안내서
이 책은 대스크를 활용한 데이터 정리에서 배포에 이르기까지 데이터 과학의 일반적인 워크플로를 따라가는 여정으로 우리를 안내한다. 먼저 확장 가능한 컴퓨팅을 익히고 이를 대스크가 어떤 방식으로 활용하는지 살펴본다. 이어서 다양한 실제 데이터셋을 준비하고 분석, 시각화, 모델링하는 과정에서 대스크로 일반적인 데이터 과학 작업을 수행하는 방법을 실용 예제로 제공한다. 마지막으로 AWS에 자신만의 대스크 클러스터를 배포해 분석 코드를 확장하는 과정을 단계별로 소개한다.
주요 대상 독자는 초중급 데이터 과학자나 데이터 엔지니어다. 단일 머신의 한계를 벗어나는 크기의 데이터 작업을 아직 경험해보지 못했다면 특히 유용할 것이다. 파이스파크 등 다른 분산 프레임워크를 이전에 다뤄본 경험이 있다면 대스크만의 기능과 효율성을 비교해보는 것만으로도 도움이 될 것이다.
출판사 리뷰
파이썬 병렬 컴퓨팅을 실현하는 대스크로 더 쉽고 효율적인 데이터 분석하기
파이썬을 이용한 데이터 작업을 경험해본 사람이라면 한 번쯤 팬더스와 넘파이 패키지를 접해봤을 것이다. 하지만 대스크라는 패키지는 조금 낯설 수 있다. 대스크는 데이터 과학 분야에서 매우 유용하게 활용할 수 있는 도구다. 특히 이 책은 ‘대용량 데이터의 병렬 처리’라는 주제를 이해하기 쉬운 비유와 상세한 설명을 통해 쉽게 풀어놓았다. 기존에 팬더스와 넘파이를 이용하여 데이터를 처리한 경험이 있는 개발자라면 코드 예제를 따라 하기만 해도 대스크의 기본 원리와 새로운 기능을 금방 파악할 수 있을 것이다. 이 책이 대스크라는 새로운 ‘강력한 무기’를 하나 더 장착할 좋은 기회가 되기를 바란다.
주요 내용