발랄한 디자인의 표지와 제목으로 전문적인 내용보다는 입문서라는 것은 쉽게 알아챌 수 있다. 표지와 전체적인 내용이 데이터라고 하면 일단 복잡한 수학을 떠올리고, "데이터 = 기술"이라는 편견에 사로잡혀 지레 겁을 먹고 있는 비전문가들에게 다가가기 위한 노력의 결과물로 보인다.
1장부터 4장은 데이터, 데이터 과학에 대한 기초를 다루고 있는 부분이다.
책 전반에 걸쳐 데이터자체를 다루는 기본에 대해 큰 비중을 들여서 강조와 설명을 하고 있다. 비전문가인 독자가 어떻게 데이터 과학을 생활속에서 적용할 수 있는지 몇가지 안내를 한다. 해당 안내에 따라 언급된 책의 내용을 일부를 보면 어떤 책인지 더 잘 알 수 있으리라.
1. 문제 정의에서 시작하라
만약 나에게 문제 해결을 위해 한 시간이 주어진다면, 나는 55분 동안 문제에 대해 생각하고 5분 동안 해결책에 대해 생각하겠다. - 알버트 아인슈타인
데이터 과학을 간단히 정의하자면, 데이터를 기반한 방법으로 현실 세계의 문제를 해결하는 것이라고 할 수 있는데, 위의 아인슈타인의 인용구를 곁들여 강조하는 것은 문제를 해결하기에 앞서 문제를 명확히 정의하는 과정의 중요성이다.
일상 생활에서도 간과하기 쉬운데, 중요한 건 해결책이 아니라 문제 그 자체이다.
2. 스몰 데이터로 시작하라.
주어진 문제를 푸는데 필요한 최소한의 데이터를 스몰 데이터라고 하는데, 우리는 빅 데이터에만 관심을 갖고 있지 않았던가? 꼭 필요한 만큼의 데이터만 모아 이용하면 적은 시간과 노력으로 원하는 결과를 얻을 수 있기에 저자는 필요에 따라 데이터 양을 늘려가는 것이, 처음 부터 큰 데이터로 작업하는 비효율을 감수하는 것보다 훨씬 낫다고 한다.
데이터 작업은 스몰 데이터로 시작해서, 필요할 때만 빅데이터를 사용하자.
3. 주변에 있는 도구로 시작하라.
보통 데이터와 관련된 책에서는 R이나 파이썬등 프로그래밍 언어를 중심으로 다루는 책들이 대부분이지만, 이 책에서는 주된 대상인 비전문가 독자들이 쉽게 사용할 수 있는 엑셀을 활용하고 있다.
2014년 오라일리에서 데이터 과학 현업에 종사하는 800명을 대상으로 실시한 설문에 따르면 엑셀은 SQL 및 R과 함께 현업에서 여전히 많이 쓰이는 도구 중 하나이다.
저자의 경험에 따르면 대부분의 데이터 문제는 엑셀과 같은 단순한 도구와 기본적인 통계 지식으로도 해결할 수 있었다고 한다. 오히려 필요 이상으로 복잡한 도구와 기법을 사용하는 것은 오히려 문제 해결을 방해하고, 엑셀을 사용하는게 코드가 아닌 데이터가 중심이 되는 장점이 있기에 엑셀로도 충분하다고 한다.
( 다만 매크로나 VBA를 항상 써야 하는 수준에 이른다면 R을 고려하라고 충고한다. )
엑셀로 필자가 준비한 데이터를 가지고 실습을 하는 과정을 R로 똑같이 소개하면서, R의 모든 내용을 소개하는 것은 아니지만, R이 어렵다는 편견을 버리고 필요에 따라 공부할 수 있도록 안내하는 부분도 있다.
4. 간단한 분석 기법으로 시작하라. (데이터 마인드가 중요하다.)
데이터 과학이 어렵게 느껴지는 또 다른 이유는 분석 기법의 범람 때문이다. 데이터 과학에 관한 대부분의 자료들은 데이터 과학을 하려면 프로그래밍과 선형대수 및 통계에 대한 기본 지식이 필수인 것처럼 이야기 하고 있다.
또한 알파고의 등장 이후 기계학습이나 딥러닝등에 관한 수많은 기사가 이런 인식을 확산시키고 있다.
19세기 크림전쟁 당시 전선보다 후방병원에서 훨씬 많은 환자가 죽어간다는 사실을 발견한 나이팅게일, 19세기 유럽 전역을 공포에 떨게 했던 콜레라의 원인을 밝혀낸 의사 존 스노우, 자신의 인격을 완성하기 위해 매일 지키고자 했던 13가지 덕목을 정하고 기록했던 프랭클린 등의 위인들의 사례를 통해 이들의 업적과 성취에는 어떤 고급 통계나 프로그래밍 기술도 필요하지 않았고, 이들에게는 단지 남들과 다른 "데이터 마인드"가 있었음을 이야기 한다.
그들은 주어진 현상의 본질을 포착할 수 있는 데이터를 수집하고, 단순한 분석 및 시각화를 통해 데이터에서 유용한 패턴을 찾아내고, 그 가르침을 실천에 옮겨 중요한 사회문제 혹은 자신의 삶의 문제를 해결하는 바탕으로 삼았다.
5. 수집된 데이터를 제대로 준비해야 한다.
데이터 수집이 끝나면 분석에 바로 사용할 수 있는 데이터를 얻게 된다고 생각하기 쉽다.
하지만 보통은 수집된 원본 데이터를 분석에 사용할 수 있는 형태로 준비해야 한다.
여기에는 주어진 데이터를 정리하고, 오류를 검사하며, 원본 데이터에서 필요한 부분을 선택하는 등의 작업이 포함된다. 데이터를 제대로 준비하는 것은 문제 해결을 위한 필수 단계이다. 데이터 처리는 데이터 분석을 직업으로 하는 사람들이 대부분의 시간을 보내는 작업이기도 하다.
직관에 의한 문제 해결에 비해 데이터에 기반한 문제 해결이 갖는 장점 중 하나는 제대로 된 절차를 따를 경우 누가 해도 동일한 결과를 얻을 수 있다는 점,
그리고 여기에서 얻어지는 일반성과 신뢰성일 것이다.
하지만 이런 장점은 데이터 수집 및 준비 과정이 투명하게 공개되고 문서화된 경우에만 유효할 것이다.
이런 장점을 극대화하기 위해 데이터 준비 과정에 공을 들이는 습관을 들이자.
개인에 적용하는 데이터 과학
책의 나머지는 상당히 흥미로운 부분이다. 바로 필자가 데이터 과학자가 된 계기에서도 언급되지만, 저자는 대학을 다닐 때 부터 "내가 행복하다고 느낀 시간의 양을 최대화하는 것"이 인생의 목표중 하나라고 여겨왔고, 개인의 행복도를 측정하고 개선할 수 있는 방법을 찾아내기 위해 약 10년간 다양한 방법을 개발하였다.
QS(Quantified Self)라는 개인이 자신의 데이터를 이용하는 다양한 프로젝트와 사례가 소개된다. 데이터라고 하면 일에만 적용하는 것으로 생각하던 분들에게는 충격적일 것이다. ( 아마도 좋은 방향의 충격이 될 것이라 생각한다. )
저자는 "나의 목표는 무엇이며, 그것을 수치화 할 수 있는 방법은 무엇인가?"라는 물음을 통해 독자만의 프로젝트를 시작하고 싶은 욕구(?)를 자극한다.
마무리
책을 읽는 중 데이터 저널리즘 사이트인 에 실린 "여행객들이 과거에 항공 사고가 있었던 항공사를 피해야 할까?"라는 글을 소개한 부분이 있었는데, 기사에 사용된 원본 데이터를 기사 아래에 첨부하고 이를 자세한 설명과 함께 깃허브에 공개한 부분이 있었다.
이렇게 공개된 데이터는 기사의 신뢰성을 높이고, 관심 있는 독자들이 이 기사를 바탕으로 추가적인 조사를 가능하게 한다고 하는데, 우리나라 기사에서도 도입이 되어 많은 데이터가 소개 된다면 언론과 사회의 투명성과 데이터에 대한 인식을 높이는데 도움이 되지 않을까 하는 생각이 들었다.
https://github.com/fivethirtyeight/data/tree/master/airline-safety
개인에 적용한 데이터 과학에 이어 짧게 공개된 공공 데이터를 통한 사회 들여다 보기와 가장 기대되었던 식당 운영, 야구에 대한 짧은 사례가 소개되지만 책의 취지에 맞게 간단한 소개 정도로 마무리되어 아쉬움은 있다.
하지만 데이터, 데이터 과학에 대한 기본기, "데이터 마인드" 를 갖추는데는 좋은 입문서라고 생각한다.
해당 책보다 더 전문적인 내용은 저자의 블로그에서 만날 수 있다고 하니, 책을 읽은 후에 방문해보자.
http://www.hellodatascience.com