안녕하세요? 이번에 소개할 도서 리뷰는 스파크를 이용한 자연어처리입니다.
새 책을 펼치면서 우리는 많은 기대를 합니다.
그런데, 그 분야의 책들을 많이 읽으면, 새롭게 얻는 지식을 적어질 수 밖에 없겠죠.
그래도 새 책을 읽는 이유는 그 작은 인사이트를 얻기 위해서가 아닐까 싶습니다.
이번에 읽은 스파크를 이용한 자연어처리가 저에게 그런 느낌입니다.
몇년 자연어처리책들을 읽어 왔던터라, 스파크를 이용한 자연어처리라는 말에, 대단한 스파크 이용법이라던가, 대규모 텍스트를 다루는 뭔가 특별한 것이 있을 것이라고 생각하였습니다.
이 책은 자연어처리를 어느 정도 할 수 있고, 똑같은 자연어처리 과정을 스파크 문법을 통해 해결하는 것을 한번 훓어본다는 느낌으로 보면 좋을 것 같습니다.
이 책의 핵심인 빌딩 블록 파트에서 단어처리부터 하나하나 우리가 알고 있는 자연어처리 기법들을 설명합니다.
머신러닝 이전, 머신러닝, 딥러닝까지 올때까지의 여러 것들을 조금씩 설명하고 있으므로, 기존의 지식을 정리하기에 좋습니다.
그러나 이론적 설명이 짧고, 번역투에, 뭔가 이해하기 어려운 용어들도 나오기에, 초보가 읽기에는 벅찰 수도 있습니다.
전, 가끔가다 나오는 팁들이 좋았습니다.
소스코드도 일반적인 자연어처리에서 보여주는 소스 코드 길이 수준입니다.
간단한 자연어처리 책 한권 정도 읽었다면, 파이썬 문법은 해석할 수 있는 수준입니다.
이 책이 아쉽게도 소스코드는 제공하는데, 코드에 대한 자세한 설명이 없습니다.
그래서, 파이썬 코드나 자연어 처리 공부를 한 적이 없다면, 어려울 수 있습니다.
그리고, sql 문법도 나오고, NLTK, 사이키런, 케라스도 나옵니다.
그러니까, 기존에 알고 있는 지식을 총동원해서, 스파크로 처리하는 과정을 이해해야 합니다.
한가지 다행이라면, 앞부분에서 소스소코드 하나하나 이해하면, 뒤에는 그 소스코드를 재활용하므로, 쉽게 쉽게 넘어갑니다. 400페이지 전부 다른 코드는 아니니까, 너무 걱정하지는 마세요.
다른 분들 리뷰보니까, 자바 등 설치에 문제가 좀 있는 것 같습니다. 저는 추석에 책만 읽어보았는데, 이제 MS 애저에서 설치된 환경에서 테스트해보아야 겠습니다. 가끔 이렇게 클라우드에서 테스트해보는 것이 더 편할때가 있는 것 같습니다.
이번에 읽은 스파크를 이용한 자연어처리는 제게는 자연어처리를 어느 정도 할 수 있으면, 스파크 머신러닝 라이브러리를 통해 쉽게 적응할 수 있을 것 같다는 느낌을 받았다는 점입니다.
평소 잘 설명되어진 자연어처리 책으로 공부하시다가, 대규모 텍스트 분석을 빠르게 분석할 필요가 있을때 이 책의 위력이 나타나지 않을까 생각해봅니다. 자연어 처리 전과정을 다시 복습해서 즐거운 시간이었습니다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."