한빛미디어
번역서
절판
C 언어 예제로 직접 실험하며 대용량 데이터를 처리하는 기계 학습 원리를 이해한다
사람의 말을 이해하는 아이폰의 시리, 사람의 말을 이해하고 퀴즈쇼 우승을 차지한 IBM의 왓슨, 구글의 자동 번역 시스템에는 모두 인공 지능 기술이 숨어 있다. 대용량 데이터 처리 기술이 발전하면서 과거에는 불가능하거나 어렵다고 여겨졌던 일이 가능해지기 시작했다. 체스 같은 제한된 규칙에서 인간과 경쟁하던 인공 지능 기술이 빅데이터를 통해 사람의 말을 이해하는 수준까지 발전했다. 왓슨은 470만 개의 특허와 1,100만 개의 저널을 분석해 250만 개의 화학혼합물을 분석했고, IBM은 이를 미 국립의료연구원에 기증하기도 했다.
빅데이터 기술은 기계 학습, 자연어 처리, 통계학, 분산 병렬 컴퓨팅 등의 기술이 결합된 시스템을 말한다. 이 책에서는 C 언어 예제를 통해 직접 실험하면서 데이터를 처리하는 기계 학습 원리를 학습할 수 있게 되어 있다. 기계 학습은 이론에 치우쳐 이해하기 어렵다는 단점이 있는데 간단한 코드와 실습을 통해 기초 원리를 쉽게 학습하게 구성되어 있다.
"데이터를 얻는 능력, 즉 데이터를 이해하는 능력, 처리하는 능력, 가치를 뽑아내는 능력, 시각화하는 능력, 전달하는 능력이야말로 앞으로 10년간 엄청나게 중요한 능력이 될 것이다." _구글 수석 경제학자, 할 베리언
런던의 투자기관 더웬트 캐피털(Derwent Capital)은 수백만 건의 트위터를 분석 후 경기를 '경계, 평온, 활기' 등으로 분류해서 시장을 분석했다. S&P 500 지수가 2.2% 하락한 2011년 7월에 헤지펀드 평균 운용수익률이 0.76%인데 더웬트는 1.86%를 기록했다.
decide.com은 온라인 쇼핑몰의 가격 추이, 블로그 리뷰, 신제품 출시 뉴스 등을 분석해 전자 제품의 향후 가격 등락을 판단하여 지금이 구매 적기인지를 판단해준다.
이처럼 대용량 데이터에 기반한 다양한 서비스와 응용 사례가 등장하고 있다. 소프트웨어 인프라가 오픈 소스로 풀리고 범용화하는 시스템에서 데이터는 유일한 가치의 원천이 되고 있다. 이러한 데이터를 이해하고 처리해서 가치를 뽑아내는 능력이 중요해지고 있다. 기계 학습은 간단하면서도 효율적인 방법으로 대용량 데이터를 처리하는 방법이다. 파라미터 조정에 의한 학습, 귀납 학습, 감독 함습, 진화적 방법에 의한 규칙 학습, 유전자 알고리즘, 신경망에 의한 학습 등을 C 언어로 작성된 프로그램 예제로 구체적으로 실험하고 공부할 수 있다.