사실 '데이터 과학'이라는 용어를 들으면 딱딱하고 어려운 느낌이 든다. 하지만 실제 하는 일로 들어가면 개념은 간단하다. 필요한 데이터를 모은 다음, 정리하고 분석해서 원하는 결론을 얻어내는(혹은 발견하는) 것이다.
보통 이런 일들은 R이나 Python같은 프로그래밍 언어를 사용해서 할 거라고 생각하는데, 의외로 현업 데이터 분석가나 데이터 과학자들도 엑셀을 많이 사용한다. Microsoft 현직 데이터 과학자에게 직접 들었던 내용이다. 엑셀은 그 어떤 언어보다도 더 쉽게 데이터를 정리해서 빠르게 시각화시킬 수 있기 때문이다.
이 책은 엑셀을 사용해서 데이터 분석을 처음 입문하는 사람들을 위한 책이다. 엑셀 기초 사용법이나 함수 사용법을 다룬 책과는 구성이 다르다. 엑셀이 아니라 데이터가 주인공이다. 책 이름도 [엑셀만 알아도 할 수 있는 데이터 과학]이 아닌가. 이 책을 통해 데이터 획득, 정리, 분석, 시각화에 이르는 데이터 분석 전체적인 프로세스를 경험해볼 수 있다.
그리고 보통 간과하기 쉬운 게, 사실 데이터과학이든 인공지능(머신러닝/딥러닝)이든 가장 시간이 많이 들어가는 부분은 데이터의 획득이나 분석이 아닌 데이터의 정리단계이다. 이 책은 그 부분을 놓치지 않고 데이터 획득과정과 데이터 자체의 문제점, 정리과정에서의 문제점들을 알려주고 각각에 대한 대처 방법을 알려준다.
주로 의료와 복지 데이터가 예제로 많이 나오고 공공데이터도 많이 활용한다. 번역자분이 일본 자료를 한국 실정에 적합하게 바꾸시는데 손이 많이 갔을 것 같다. 내용 중 설문조사 및 인터뷰 자료를 만드는 방법이 쉽고 간결해서 인상적이었다.
역시 일본은 입문서를 정말 잘 만든다. 이 책도 그렇다. 다행히 번역도 부드럽고 편집도 편안하다. 책 수준은 초급이다. 엑셀을 잘 몰라도, 통계를 전혀 몰라도, 책의 구성을 그대로 따라서 하면 쉽게 결과가 나온다. 통계학도 기초만 소개하기 때문에 누구나 쉽게 접할 수 있다. 이 책을 통해 데이터 분석의 전과정을 경험해본다면, 이후 더 어려운 내용을 공부하기 위한 충분한 준비운동과 동기부여가 될 수 있을 것으로 보인다.