빅데이터는 이제 누구나 아는 단어가 되었다. 그만큼 눈부신 빅데이터의 다양한 활용과 기술적 발전으로 인해, 더욱 포괄적인 개념인 데이터 과학이 주목을 받게 되었다. 데이터 과학은 데이터를 분석하기 위해, 프로그래밍 기술, 수학, 통계학, 패턴인식, 기계학습, 데이터베이스 등의 여러 분야를 융합하여 이용하는 과학이다.
사실 데이터 과학이라 부르다 보니, 좀 생소할 뿐이지, 영역을 좁고 쉽게 생각해 보면, 그냥 과거부터 해왔던 인구 통계 조사나 제품 마케팅 분석, 소비자 패턴 분석과 같은 데이터 분석을 떠올리면 된다. 다만 이제는 좀 더 세련된 각종 기술을 사용한다는 차이가 있다.
그런데 데이터 과학이 왜 최근 들어 인기를 끌고 있는가 하면, 데이터 과학이 적용되는 분야가 의학, 공학, 일반 과학뿐만 아니라, 사회학, 도시공학, 경제학 등 각종 인문과학에도 쓰이고 있으며, 많은 기업들이 데이터 과학의 기술을 적용하고 있기 때문이다. 그만큼 수요가 계속 늘고 있는 분야인 것이다.
하지만 데이터 과학은 앞에서 말했듯이 복합적 기술을 필요로 하기에 익히기가 어렵다. 게다가 이론을 어느 정도 습득했다고 해서, 다 되는 게 아니다. 분석하고 적용하는 실무 능력도 필요하다. 그러나 이런 실무 능력은 쉽게 길러지지 않는다. 특히 그것을 기를 참고할 책들이 그리 많지 않다.
다행스럽게 이번에 본 '이것이 데이터 분석이다 with 파이썬'는 바로 그런 데이터 분석 실무를 익히는데 도움이 되는 책이었다. 처음엔 그냥 빅데이터 분석이나, 그래프 그리고, 평균이나 구하고, 키워드 시각화 방법 정도 배우는 주로 응용 스킬을 다루는 책으로 생각했는데, 보다 보니, 그보다는 데이터 분석 응용이라는 근육을 트레이닝으로 키워주는 책이었다.
각 주제들은 대략 3, 4단계로 나눠 생각한다. 우선 주어진 데이터를 들여다보면서, 데이터 가공을 어떻게 할 거며, 그것을 어떻게 프로그래밍할지, 생각해보고, 다음 단계로 분석 방법, 시각화 방법을 정한다. 그리고 이어진 단계에서 라이브러리 활용이나 수학 기법 개선을 해보기도 하고, 더욱 다양한 결과 도출과 시각화를 해본다. 최종적으로는 만들어진 모델을 검증 또는 평가도 해본다. 여기에 중간에 나오는 퀴즈와 챕터 끝에 나오는 연습문제를 통해 배운 것을 점검하고 다시 응용도 해보게 된다.
점진적 단계별로 배워 나가는 구성과 함께 마음에 드는 점은 분석 주제들이다. 멕시코풍 프랜차이즈 요리 분석은 실제 음식점 메뉴나 가격 책정 같은 데 도움이 될 수 있는 주제다. 국가별 음주 데이터 분석은 주제만 바꾸면 얼마든지 다양한 국가 비교 주제가 될 수 있다. 프로야구 선수의 다음 해 연봉 예측이나 비트코인 시세 예측은 증권 분석 또는 제품 판매 예측 등에도 쓸 수 있을 것이다. 이와 같이 이 책에는 현실적이고 재미난 분석들이 많다. 실전 내공을 높이는데 도움 되는 주제들이라, 배운 거 얻다 써먹지 고민할 필요 없는 책이다.
'이것이 데이터 분석이다 with 파이썬'에서는 파이썬이란 프로그래밍 언어를 이용하고, 판다스, 넘파이, Matplotlib를 활용한다. 기본 설치 방법은 챕터 0에서 알려주고 있긴 하지만, 파이썬 언어 자체를 책에서 가르쳐 주고 있지 않으므로 이 책을 이해하기 위해서는 최소 파이썬을 다룰 줄 알아야 한다. 부제로 '파이썬으로 배우는 데이터 분석 입문'이라고 되어 있지만, 어디까지나 데이터 분석 입문이지, 파이썬 입문 책은 아니라는 것이다. 아울러 책에서 중간중간 설명도 되어 있고, 분량 면에서 많이 다루지는 않지만, 그래프와 통계학에 대한 이해가 있으면 더욱 좋다. 물론 본문에 수식이 나오거나 계산하고 그런 것은 없으므로 부담 가질 필요는 없다. 어디까지나 도움이 된다는 정도다.
어쨌든 입문 책이라지만, 난이도가 어느 정도 있는 책이다. 여러 번 읽어가며, 직접 코딩하며 테스트하는 것이 가장 빠른 지름길이라 생각한다. 그리고 한빛미디어 유튜브를 통해 저자의 직강도 볼 수 있으므로, 그것을 함께 참고하며 공부하면 도움이 될 것이다.
분석의 기술적 방법은 일종의 기교로 얼마든지 익힐 수 있지만, 정답을 도출해 내는 데이터 분석은 절대 쉽게 할 수 있는 일이 아니다. 잘못된 데이터 분석은 기업에는 치명적인 손해를 끼칠 수 있고, 연구를 신뢰하지 못하게 만들 수 있다. 그런 오류를 줄여 나가는 방법은 역시 경험 밖에 없다고 생각한다.
'이것이 데이터 분석이다 with 파이썬'은 그러한 경험을 쌓는데 바른 첫걸음을 내딛게 해주는 책인 것이다.