만들면서 배우는 기계 학습: 생각을 만드는 빅데이터 기술

책소개
C 언어 예제로 직접 실험하며 대용량 데이터를 처리하는 기계 학습 원리를 이해한다

사람의 말을 이해하는 아이폰의 시리, 사람의 말을 이해하고 퀴즈쇼 우승을 차지한 IBM의 왓슨, 구글의 자동 번역 시스템에는 모두 인공 지능 기술이 숨어 있다. 대용량 데이터 처리 기술이 발전하면서 과거에는 불가능하거나 어렵다고 여겨졌던 일이 가능해지기 시작했다. 체스 같은 제한된 규칙에서 인간과 경쟁하던 인공 지능 기술이 빅데이터를 통해 사람의 말을 이해하는 수준까지 발전했다. 왓슨은 470만 개의 특허와 1,100만 개의 저널을 분석해 250만 개의 화학혼합물을 분석했고, IBM은 이를 미 국립의료연구원에 기증하기도 했다.
빅데이터 기술은 기계 학습, 자연어 처리, 통계학, 분산 병렬 컴퓨팅 등의 기술이 결합된 시스템을 말한다. 이 책에서는 C 언어 예제를 통해 직접 실험하면서 데이터를 처리하는 기계 학습 원리를 학습할 수 있게 되어 있다. 기계 학습은 이론에 치우쳐 이해하기 어렵다는 단점이 있는데 간단한 코드와 실습을 통해 기초 원리를 쉽게 학습하게 구성되어 있다.
- 기계 학습의 역사
- 파라미터 조정과 학습
- 텍스트 마이닝과 귀납 학습
- 감독 학습
- 진화적 방법에 의한 규칙 학습
- 유전자 알고리즘
- 퍼셉트론과 신경망
- 역전파에 의한 학습
"데이터를 얻는 능력, 즉 데이터를 이해하는 능력, 처리하는 능력, 가치를 뽑아내는 능력, 시각화하는 능력, 전달하는 능력이야말로 앞으로 10년간 엄청나게 중요한 능력이 될 것이다." _구글 수석 경제학자, 할 베리언

런던의 투자기관 더웬트 캐피털(Derwent Capital)은 수백만 건의 트위터를 분석 후 경기를 '경계, 평온, 활기' 등으로 분류해서 시장을 분석했다. S&P 500 지수가 2.2% 하락한 2011년 7월에 헤지펀드 평균 운용수익률이 0.76%인데 더웬트는 1.86%를 기록했다.

decide.com은 온라인 쇼핑몰의 가격 추이, 블로그 리뷰, 신제품 출시 뉴스 등을 분석해 전자 제품의 향후 가격 등락을 판단하여 지금이 구매 적기인지를 판단해준다.

이처럼 대용량 데이터에 기반한 다양한 서비스와 응용 사례가 등장하고 있다. 소프트웨어 인프라가 오픈 소스로 풀리고 범용화하는 시스템에서 데이터는 유일한 가치의 원천이 되고 있다. 이러한 데이터를 이해하고 처리해서 가치를 뽑아내는 능력이 중요해지고 있다. 기계 학습은 간단하면서도 효율적인 방법으로 대용량 데이터를 처리하는 방법이다. 파라미터 조정에 의한 학습, 귀납 학습, 감독 함습, 진화적 방법에 의한 규칙 학습, 유전자 알고리즘, 신경망에 의한 학습 등을 C 언어로 작성된 프로그램 예제로 구체적으로 실험하고 공부할 수 있다.
저자소개

[저자] 오다카 토모히로

후쿠이대학 대학원 공학연구과 교수로 일본에서 『이거라면 할 수 있다 C 프로그래밍 입문』, 『기초부터 배우는 TCP/IP 애널라이즈 작성과 패킷 분석』, 『C로 하는 수치 계산과 시뮬레이션』 등 10여 권의 책을 집필한 베스트셀러 저자다.

[역자] 김성재
기술 분야 전문 번역가. 관심 분야는 IT 기술과 일본어 교육 콘텐츠 등이다. 최근에는 업무에 필요한 맥 OS와 iOS 애플리케이션의 개발과 리뷰, 환경 구축에 관심이 있다. 번역서로는 『만들면서 배우는 기계 학습』, 『빅데이터의 충격』, 『C언어로 배우는 리눅스 프로그래밍』, 『구글 웹로그 분석』(이상 한빛미디어) 등이 있다.

1장 기계 학습이란    1.1 기계 학습의 역사         기계 학습        기계 학습 시스템의 역사    1.2 기계 학습 종류        이 책에서 다루는 기계 학습 종류        기계 학습 프로그램 구현 방법2장 파라미터 조정에 의한 학습    2.1 파라미터 조정과 학습        학습 데이터 세트의 기계 학습과 파라미터 조정        파라미터 조정 실행 예    2.2 파라미터 조정에 의한 시계열 데이터 학습         학습 데이터 세트 작성        시계열 데이터의 변동 경향 학습 3장 귀납 학습    3.1 암기 학습        텍스트 마이닝과 기계 학습         n-gram 출현빈도에 기초한 텍스트 데이터 학습        일본어 텍스트 데이터 학습     3.2 일반화 도입        문서의 일반적인 특징 추출         특징 추출에 응용 4장 감독 학습    4.1 감독 학습이란         감독에 의한 학습         감독 학습 예     4.2 감독 학습에 기초한 데이터 분류 시스템 구성        의사결정 트리 구성 지원 프로그램         분류 지식의 기계 학습 프로그램5장 진화적 방법에 의한 규칙 학습    5.1 진화적 방법에 의한 기계 학습         랜덤 탐색과 계통적 탐색         진화 연산     5.2 유전자 알고리즘에 따른 지식 획득         유전자 알고리즘 실제            유전자 알고리즘에 의한 지식 획득 프로그램 6장 신경망    6.1 퍼셉트론형 신경망        신경망         퍼셉트론            퍼셉트론 학습     6.2 역전파에 의한 학습            역전파에 의한 학습 과정         역전파 프로그램     6.3 신경망에 의한 실제 데이터 학습        학습 준비         bp.c 프로그램에 의한 학습과 미지의 데이터 예측    부록    A. Cygwin 내려받기와 인스톨     B. testprogram.c 프로그램 소스 리스트    C. 문자 코드 변환 프로그램 iconv 사용 방법     D. 논리식과 논리연산    E. 전수검사에 의한 퍼즐 풀이 프로그램

출판사리뷰
독자리뷰
리뷰 쓰기
- ja***l2015-05-05
  
  만들면서 배우는 기계 학습
  
  책은 200 페이지 분량으로 책 자체는 얇은 편이다.
  
  책의 표지가 참 재미있어 더 흥미가 생긴 책이다.
  
  IT 쪽의 책의 다양성은 일본이 국내보다 좋은거 같다.
  
  아무래도 일본의 출판계의 상황이 그만큼 좋기에 많은 책이 나오는거 같아
  
  참 부럽기도 하다.
  
  국내의 출판계도 그만큼 좋으면 얼마나 좋을까 하는 생각도 든다.
  
  개인적으로는 정가제가 과연...하는 생각이 든다.
  
  이 책은 현재 나오는 빅데이타에 대한 것이라기보다는
  
  데이타를 가지고 분석하는 기계학습의 원리에 대한 부분을 다루고 있다.
  
  빅데이타가 이슈가 되다보니
  
  데이타를 분석하는 부분에 대해서도 관심이 많이 가는 듯하다.
  
  2장의 통계적 방법에 대한 부분은 사실 실무에서
  
  기초데이타를 가지고 여러 단계로 그 정보를 추출하여 통계를 만들어내는 방법과
  
  동일하다.
  
  방법에 있어서는 DB 데이타를 처리하거나 책에서 다룬 파일 데이타를 가지고 처리한다.
  
  대용량 데이타를 처리하기에 실시간 이라기 보단 배치프로그램으로 돌리는데
  
  그렇게 추출하는 방법을 볼 수 있어 좋은 듯 하다.
  
  책은 각 장마다 그에 해당하는 예제를 보여주고 그 예제의 실행결과를 보여준다.
  
  각 예제소스가 그리 길지 않기에 소스를 보고 따라해보면
  
  많은 도움이 될 듯 하다.
  
  소스의 구현시는 어떤 구조로 구현을 할지 먼저 설명을 하고 있는 부분은 괜찮은 듯 하다.
  
  다만 구현된 소스의 설명부분은 서술형식 보다는 좀더 보기편하게 되어 있다면 하는 아쉬움이 있다.
  
  개념부분은 책은 얇지만 잘 설명되어 있는듯 하다.
  
  개인적으로는 좀더 자세했으면 하는 아쉬움도 있다.
- eastx***l2012-07-02
  
  AI, 기계학습의 입문, 큰그림을 그려주는
  
  우리는 어릴때부터 각종 영화나 소설등을 통해 인공지능, 기계학습이란 개념을 듣고 자란다. 그에대한 호기심은 누구나 있을테고, 컴퓨터공학과인 나로서는 더욱 특별하게 다가왔다.
  
  그 원리와 개념, 가능성 등은 잠깐 살펴본 글귀나 기사, 등을 통해 짧게 주어들은 것이 전부인 상태였고, 관심만있었을 뿐이지, 특정 벽뒤에있어 쉽게접근 할 수없었다.
  
  이책이 출간되는것을 확인하고는 솔직히 기계학습이란 말이 무엇인지 몰랐다. 책소개와 목차를 보고서는 아 이책이구나 하는 생각이 들어 선택하게 되었다.
  
  우선, 얇은 두께와 작은 사이즈로 가볍게 들고다니며 읽을 수 있어 부담감이 없어 다가가기 쉬웠으며, 역사에서부터 파라미터조정, 마이닝, 감독학습, 유전자, 신경망 등까지 여러 기술과 알고리즘들의 개념부터 익힐 수 있다는 점에서 나와같은 입문자에게 추천하고자 한다.
  
  C코드를 통해 실제적으로 구현되는 것을 지켜볼 수 있어 더욱 도움이되고, 그것의 실습을통해 뇌리에 꽂힐 수 있었으며, 통계, 확률 등 기본적인 수학 지식이 부족한 나로서는 그나마 코드를 통해 친숙함을 높이지 않았다 생각해 본다.
  
  책 사이즈에 비해 가격이 다소높지만, 반대로, 해당 가격들과 대동소위하는 두꺼운책을 이렇게나 작게 함축해놓았다고 생각해보면 그 가치를 이해 할 수 있을듯 하다.
- rintian***l2012-06-30
  
  2월에 출간된다고 해서 기대하고 있던 책인데 6월에 나오다니!
  
  원래 생명 공학을 공부하던 개발자라 인공지능 개발에 굉장히 관심이 많아 책을 읽게 되었습니다. 책을 한빛미디어에서 2월 출간 예정 도서라고 쓰여있던 것을 본적이 있는데, 6월이 되어 책이 출간되었군요. 기대를 너무 많이 하고 있던 책이라 약간 실망이 있기는 합니다.
  
  사실 책의 전체적인 내용이 인공지능 개발의 아주 기본적인 예제들로 구성되어 있습니다. (기본적이라고는 하지만 기계 학습 분야가 상당히 고수준의 분야이므로 처음 접하는 사람에게는 어려울 수 있습니다.)
  
  장점이라면 굉장히 얇습니다. 기계 학습과 관련된 대부분의 내용을 모두 포괄하고 있습니다. (너무 적은 내용에 많이 넣어서 단점이 되는 것 같기도 합니다.) 또한 일본인이 책을 집필해서 유니코드와 관련된 n-gram 구현이 실려있습니다. 일반적인 원서에서 찾을 수 없는 내용이라 약간 흥미로웠습니다.
  
  단점이라면 왜 빅 데이터라는 제목이 붙었는지 모르겠습니다. 책의 예제들이 전부 날씨 자료나 주식 자료들로 구성되어 있습니다. 간단하게 단순한 수치 분석으로의 기계 학습을 다룹니다. 따라서 "기존의 데이터 처리 프로그램으로는 처리할 수 없는 데이터"라는 빅 데이터의 정의에서 굉장히 많이 벗어난 것 같습니다. 그리고 그림 없이 글만 가지고 대상을 설명하려는 부분이 굉장히 많습니다. 같은 내용을 여러 번 반복해서 읽어야 이해를 할 수 있었습니다.
  
  그리고 그냥 다음 판을 만든다면 수정하면 좋겠다는 부분이 있습니다. n-gram을 사용한 한국어 텍스트 학습 예에서 표본이 너무 적습니다. 조금 더 긴 데이터를 넣은 실행 결과를 보여주면 좋았을 것 같습니다. (메밀꽃 필 무렵의 상징적인 의미가 있어서 그렇게 한 것 같습니다.) 또한 소스 코드의 들여쓰기가 띄어쓰기 하나로 구성되어 조금 읽기가 힘듭니다. 들여쓰기 크기를 조금 늘리면 좋을 것 같습니다.
  
  그래도 재미있게 읽었습니다. 심심해서 책의 모든 예제를 자바스크립트로도 만들어 실시간으로 통계 그래프를 그릴 수 있게 활용 하니 재미있더군요.
- jeani***l2012-06-26
  
  제자나 후배에게 선물로 주고픈 책
  
  책 제목에서 두개의 키워드가 눈에 들어온다.! 빅데이터, 기계학습
  
  과연 이 작고 얇은 책에서 현재 이슈가 되고 있는 빅데이터와 예전부터 지금까지 기술의 최고봉은 기계학습에 대해서 어떻게 다룰것인가! 그냥 개론이나 다루겠구나! 라고 생각했었다.
  
  기존의 뉴로컴퓨터 및 신경망에 대한 도서들도 생각이 났다. 개론위주이거나, 너무 어렵거나, 방대한 소스만 나열된 도서들 뿐, 그래도 개론이라도 명확하게 해주는 몇몇 도서만 있을 뿐이였다.
  
  인공지능, 기계학습 트렌드, 기술변화, 정책에 관한 학회지같은 도서들, 최근 빅데이터에 대해서도 아직 다루는 도서들 수준이 그러하다.
  
  쉽게 원론이나 예제를 보여주기가 참 힘든 주제였다.
  
  이 두가지 주제를 이 얇은 책으로 나열한다니....
  
  책은 기계학습의 역사라고 해서 현재 우리가 인공지능이라 불리우는 역사의 초기부터 현재까지 알기쉽게 구분/설명하며, 관심을 유도한다. 학습방법에 대해서 예를 들면서 설명한다. 각 방법으로는 어떤것들이 있으며, 테스트 데이터로 어떻게 분석되는지 예를 보여준다.(일본 기상청 사이트를 예로 든다.) 형태소 분석이나, 통계를 공부했다면, 정말 알기쉽고 간결한 예제란 생각이 들정도이다.
  
  점차 진화된 방법과 규칙이라는 주제로 넘어가면서, 소스 길이도 길어지고 있으나, 소스에 대한 설명이 있어, 프로그램이 어떻게 동작하는지 머리속에 그림은 계속 그리며, 도서의 전개를 따라갈수 있다.
  
  그 유명한 유전자 알고리즘을 거쳐 인간의 뇌를 모방한 뉴로컴퓨터의 핵심 신경망에 대해서 기본적인 학습망과 함수적인 설명이 시작된다. 계속적인 자기학습으로 가중치를 조절하여 예측치를 도출하는 기본컨셉과 퍼셉트론을 이용한 논리회로 예제가 간결하고도 적절하게 설명되고 있다. 또한 역전파에 의한 학습법까지 신경망의 주요 컨셉을 다 설명해 주고 있다.
  
  무엇보다도 이책은 각 장마다 적절한 장의 주제 설명과, 예제 소스가 깔끔하고 알기쉽게 설명이 되어있다. 그래서 넓고 깊고 자세히 다루지는 못하지만, 기본 골격을 말해주고 있다. 물론 이점이 이책의 장점이자 자칫 겉모습만 보여주는 단점이 될수도 있겠지만, 가장 현실적으로 기계망을 설명해주는 입문서가 아닐까라는 생각을 해본다. 하지만 개인적으로 이도서가 초보자를 위한 입문서는 아니라는 생각이 든다. 적어도 대학교 3학년 이상의 학생들이 어느정도 컨셉과 궁금함을 지니고 이책을 접해야 부족한 연결고리를 제시해주는 도서라는 생각이 든다.
  
  아쉬운점은 제목에 있는 "빅데이터"란 단어의 비중이 작았다는 점, 마지막에 이런 학습법으로 빅데이터 분석이 더 좋아졌다는 트렌드라도 언급되었으면 어땧을까 하는 생각이 듭니다.
오탈자 보기

오탈자 등록하기
부록/예제소스

예제소스

2017-04-10

다운로드
추천도서
- 머하웃 완벽 가이드(Mahout in Action): 하둡에 딱 맞는 빅데이터를 활용한 기계학습
  
  션 오웬 , 로빈 애닐 , 테드더닝 , 엘렌 프리드만

한빛출판네트워크

IT/모바일

만들면서 배우는 기계 학습: 생각을 만드는 빅데이터 기술