한빛출판네트워크

컬럼/인터뷰

『처음부터 배우는 데이터 과학 with R』 강사 김승욱 - R을 R려 드립니다

한빛미디어

|

2018-03-23

by 한빛

 

cover2.jpg

통계, 데이터마이닝 및 그래프를 위한 언어인 R은 학술, 논문 등의 연구 분야에서나 쓰이다가, 최근 산업을 넘어 기업에서 각광받고 있다. 비즈니스 인텔리전스(BI)가 대두되면서 데이터 분석 언어로 R이 재조명받고 있는 것이다. 대용량 데이터 처리에 한계는 메모리 대신, 파일 단위의 처리하는 패키지의 등장으로 해결되는 등 5,000여 개가 넘는 R 패키지가 R의 단점을 하나 둘 극복한 결과다. 오픈소스를 무기로 데이터과학 분야에서 두각을 나타내고 있는 R의 이야기를 김승욱 저자로부터 들어봤다.

 

 

Q. 제어공학과 데이터분석, 딱히 관련이 없어 보인다. 전공을 뒤로한 채 데이터분석에 뛰어든 이유는 무엇인가? 특별한 계기가 있었던 것인가?

UNIST에서 주최한 빅데이터 설명회 갔다가 데이터 분석에 매력을 느껴 석사 전공을 비즈니스 분석으로 선택했다. 숫자를 조합하다가 새로운 사실을 발견했을 때 짜릿했다. 마치 유명한 화가의 그림을 현미경으로 살펴보다가 숨겨진 메세지를 발견하는 것과 같았다. 그리고 보통 데이터를 직접 만들지 않고 누군가가 만들어진 데이터를 해석하는 일이 많기 때문에 상대적으로 질책과 비난을 받을 일이 적다. 특히 반복적인 분석 업무는 자동화하기 쉬운데, 남몰래 자동화 코드를 만들어 놓으면 업무가 한결 여유로워졌다.

 

Q. 지금 몸 담고 있는 Rloha는 어떤 곳인가? 또 어떤 일을 하고 있는가?

1인 기업이다. 사실 저서인 <R좀R려줘>의 영문판 제목을 ‘Rloha’라고 하려 했는데 아무래도 다른 일이 바빠서 책을 쓸 시간은 없을 것 같아서 그냥 회사 이름으로 정했다. 그리고 요즘은 강의, 컨설팅, 저술 활동을 주로 하고 있다.

 

Q, 한마디로 R이란 무엇인가? 왜 R에 주목해야 하는가?

통계, 머신러닝, 시각화 등 데이터 분석을 위한 첫 관문이라고 본다. 엑셀 이전과 이후가 업무의 패러다임을 바꿨다면, R도 그러하다고 본다.

 

Q, 데이터분석 도구는 다양하다. R이 다른 도구에 비해 어떤 강점이 있다고 보는가?

다른 언어보다 문법이 쉽고 간결하여 다른 프로그래밍 언어 지식이 없어도 상대적으로 배우기 쉽다. 특히 데이터를 다루는 함수가 잘 갖춰져 있고 시각화 기능도 강력하다.

 

Q. 기업에서 실제로 데이터분석을 활용해야 할 실무자가 쓰기 쉬운지도 중요하다. 그런 점에서 엑셀이 얘기되기도 한다. 데이터분석 분야에서 R이 어떤 입지를 차지해 갈 것이라고 보는가?

대학원 때 모든 분석을 엑셀로 하는 교수님이 계셨다. 사실 본인도 수학과 통계의 정점에 올랐다면 R을 쓰진 않겠지만, 그렇게 공부할 시간도 없고 R로도 화려하게 시각화를 하여 보고자료를 풍성하게 만들 수 있어 R을 고집하고 있다. R은 통계 언어였지만 다른 언어와 호환되고 각종 패키지가 늘어나면서 점점 강력한 언어가 되고 있다. 이전에는 분석의 전 주기를 소화하려면 다른 언어의 힘을 빌려야 되는 경우도 많았지만, 이제는 R만 가지고도 거의 대부분의 업무를 처리할 수 있다.

 

Q. R은 국내에서 통계나 연구 등의 분야에서만 주로 쓰이는 듯하다. 최근 어떤 변화가 있는가? R의 주요 사례도 궁금하다.

내 경우 커리어 시작부터 숫자를 다루는 모든 작업을 R로 하고 있다. 엑셀은 다른 사람이 잘 볼 수 있도록 자료를 정리하고 공유하는 용도로만 사용한다. 최근에는 미국뿐 아니라 국내에서도 인문경영학과의 교양필수 과목으로 R을 채택하는 경우가 늘어나는 반면, 다른 통계 프로그램인 SAS, Stata, SPSS의 사용 빈도와 시장은 점점 줄어들고 있다. 아무리 도구가 좋다 해도 무시할 수 없는 것이 라이선스 비용인데 무료를 두고 조직이 나한테 유료 소프트웨어를 사줄 이유는 별로 없다. 

 

R의 주요 사례는 굳이 꼽자면 Shiny 프레임워크를 활용하여 데이터 분석 결과를 웹페이지에 보여주거나 하는 것이다. 데이터 분석은 R도 되고, 파이썬(Python)도 되고, 엑셀도 된다. 사실 대표적인 사례는 의미가 없다. 그냥 고급 분석이 가능한 비교적 편리한 도구를 알려주는 것 뿐이다.

 

Q. R 전문가 입장에서 어떤 사람들이, 어떤 분석을 할 때 R이 유용하다고 보는가?

R은 딥러닝을 제외한 거의 모든 분석에서 유용하다. 딥러닝은 파이썬으로 하는 것이 당장은 편한데, 최근 들어 딥러닝 분야에서도 R이 꽤 쓸만해졌다. 1~2년 내로 R도 파이썬만큼 딥러닝을 하기에 좋은 환경이 갖추어질 것이라고 보고 있다.

 

Q. 한빛에서 강의를 한다고 들었다. 어떤 강의인가?

<처음부터 배우는 데이터 과학 with R>은 데이터 분석에서 꼭 필요한 R의 기본 문법과 시각화 방법, 실질적인 데이터 분석 방법을 익힐 수 있는 강의다.

강의 내용에는 수식이 거의 없어 데이터 분석 초보자도 부담없이 들을 수 있으며 실무에 적용할 수 있도록 데이터를 직접 만져보면서 실습할 예정이다. 4주 28시간 후에는 관련 석사 과정 한 학기를 이수한 수준까지 끌어올리는 것이 목표로 강의를 준비하고 있다.  

 

Q. 강의나 컨설팅을 많이 하면서 수강생으로부터 많은 이야기를 들었을 것이다. R을 배우는 데 있어 어떤 점을 어려워하는가? 또 가장 많이 듣는 질문은?

"영어 타이핑이 느려서 답답하다, 영문 대소문자 구분을 꼭 해야 하나요?, 이것만 들으면 데이터 분석을 잘 할 수 있나요? "라는 질문을 가장 많이 한다.

솔직히, 새로운 언어인 영어/일본어/중국어를 배우는데 수 백시간 이상 투자하면서 사람이 아닌 컴퓨터랑 대화하는 언어를 몇 십 시간만에 익히기는 어렵다. 하지만 R은 다양한 언어 중에서 문법이 상당히 쉬운 편에 속하고 실무에도 상당히 유용하기 때문에 본 강의를 통해 역량을 끌어올리겠다는 생각으로 강의를 들어주었으면 한다.

 

Q. 그런 어려움을 한빛 강의에서는 어떻게 해소시켜줄 것인가?

개발자 출신이 아니기 때문에 프로그래밍 언어에 익숙하지 않았다. 그래서 R을 막 배우기 시작했을 때 정말 실수를 많이 했었다. 게다가 문제가 발생하면 물어볼 사람도 없어서 혼자 해결하느라 애를 먹은 적이 한 두번이 아니다. 그 덕분에 초심자가 어디에서 실수하는지, 어떤 부분에서 어려워 하는지 잘 알게 되었다. 특히 그런 부분을 강조하면서 알려주기 때문에 다른 강의보다 더 쉬울 것이라고 자신한다.

 

Q. 사실 난 R도, 통계도 잘 모른다. 나도 들어도 되는가? 강의에 앞서 공부해야 할 것이 있다면?

데이터 분석 관련 서적이나 분석 사례를 찾아보면 조금 더 도움이 된다. 나머지는 친절하게 알려드릴 예정이니 걱정하지 않으셔도 된다.

 

Q. 많은 강의가 막연한 목표를 제시한다. 이 강의를 통해 구체적으로 어떤, 어떤 것을 할 수 있게 되는가?

많은 강의가 꽤 좋은 커리큘럼을 가지고 있다. 막연하다고 하지만 보통 수강생이 생각없이 막연하게 오는 경우가 훨씬 많다. 뭔가 한다는 것이 아니라 그냥 들으면 좋겠지라는 생각이다. 본인이 무언가를 하고 싶다는 생각을 가지고 본 강의에 들어온다면 다른 수강생보다 얻어가는 것이 몇 배는 많을 것이다. 굳이 이 강의를 통해 얻을 수 있는 점을 나열하자면, 기존에 사용하던 엑셀을 R과 연동함으로써 업무 자동화를 어느 정도 실현할 수 있고, 강력한 시각화 결과물을 활용해 데이터를 더 상세하고 정확하게 표현하거나 데이터 기반의 의사결정을 위한 통계와 머신러닝 기법을 이해할 수 있게 될 것이다.

 

 

[오프라인 교육] 처음부터 배우는 데이터 과학 with R

수강생 모집중!

댓글 입력