데이터 분석의 영역에서 프로그래밍 언어인 R과 Python은 양대산맥이다. 그중 R은 데이터 분석에 특화된 언어로서 통계와 관련된 여러 라이브러리 및 도구를 제공하지만 범용성이 떨어진다는 단점이 있다. 반면 Python은 범용성을 갖고 있으며 데이터 분석과 관련해서도 훌륭하고 다채로운 라이브러리를 제공하고 있다. 이뿐만 아니라 일반인이 쉽게 접근할 수 있는 장점을 갖추고 있어 데이터 분석을 Python으로 시작하는 추세가 곳곳에서 감지되고 있다. 데이터 분석과 Pytnon의 만남은 시대가 만들어 낸 하나의 움직임이고 바야흐로 대세가 되어 가고 있는 실정이다.
하지만 파이썬을 활용해서 데이터 분석을 시작하려고 해도 어디서부터 무엇을 어떻게 해야 할지 난감하기만 하다. 도처에 리소스가 널려 있지만 정보의 과잉이 빚어 낸 현상은 '선택 장애'를 일으키며 우리의 행동과 판단에 제동을 걸어 버린다. 그럼에도 불구하고 가장 좋은 선택은 우리가 처한 상황을 온전히 인지하고 우리의 눈높이에 맞는 서적과 함께 시작하는 것이리라. 때마침 이러한 상황에 한 줄기 빛이 되고 있는 책이 있으니, 이름하여 '어쩌다 데이터 분석 wiyh 파이썬'이 되겠다. 오늘은 해당 서적에 대해 이야기를 풀어 나가고자 한다.
어쩌다 데이터 분석 wiht 파이썬(이하 어쩌다 데이터 분석)의 저자는 파이썬 및 데이터 분석 전문가가 아닌 데도 불구하고 스스로 해당 영역을 학습하여 이 챚을 빚은 장본인이다. 그런데 전문가가 아니라고 해서 책 내용이 부실한 게 결코 아니다. 오히려 초보자의 눈높이에서 그들의 입장을 충분히 헤아려 최대한 쉽게 이해될 수 있게 내용을 서술하고 있으며,데이터 분석의 전반에 필요한 파이썬의 핵심을 알차게 제공하고 있다는 사실이 눈여겨볼만한 지점이다.
각설하고 본 서적의 부제는 '판다스로 시작하는 효율적인 데이터 분석'인 만큼 판다스라는 라이브러리를 위주로 전개되고 있다. 판다스는 파이썬 데이터 분석의 핵심 라이브러리로서 뛰어나고 풍부한 기능을 제공하는 것으로 정평이 나있다. 하지만 결코 배우기가 만만치 않기 때문에 러닝 커브가 높은 게 사실이다. 그렇다고 판다스를 학습하는 게 불가능한 일도 아니다. 결국 판다스를 책으로 공부하는 입장에서는 저자의 역량에 따라 학습 진도가 좌우될 수도 있다는 것이다. 다행히 이 책의 저자는 초보자의 눈높이에서, 판다스를 활용한 데이터 분석의 여정에 친절한 안내자로서 시종일관 독자를 인도하고 있다. 책의 시작부터 끝까지 관통하는 분위기는 바로 '용이성'이다. 결코 어렵지 않지만 가볍지도 않은 게 바로 이 서적의 큰 장점이라 할 수 있겠다.
데이터 분석 준비 챕터를 시작으로 해서 데이터 시각화 챕터까지 데이터 분석에 필요한 핵심을 배울 수 있으며, 마지막 챕터인 '데이터 분석: EDA 실습' 편에서는 실제 넷플릭스 데이터셋을 기반으로 하여 지금까지 학습한 내용과 기술을 직접 응용해 보는 단계로서 책의 대미를 장식하고 있다. 해당 과정을 통해 독자는 데이터 분석이 실생활과 결코 유리된 게 아니라 우리 삶에서도 그것을 실질적으로 활용할 수 있음을 몸소 체험할 수 있게 된다. 그렇다. 데이터 분석은 결코 전문가의 전유물이 아니라 모든 사람이 물고 뜯고 맛보고 즐기며 음미할 수 있는 활동인 셈이다. 어쩌면 데이터 분석의 진짜 어려움은 데이터 분석, 그 자체로 존재하는 게 아니라 데이터 분석이라는 표면에 드러난 막연한 두려움 때문이 아니었을까? 시도해 보지도 않고 어렵다고 지레 겁먹고 아무 것도 하지 않았던 우리 자신의 나약함 때문이 아니었을까? 이 책은 그런 두려움과 우리 내면의 나약함을 충분히 극복할 수 있게 도와 주고 있다. 이 서적과 함께 데이터 분석에 대한 편견을 지우고 우리 일상을 위해 데이터 분석을 해 보는 게 어떨까? 이 책 한 권과 함께 데이터 분석의 첫 여행을 감행한다면 그것 자체만으로도 위대한 시작이 될 것이다.
P.S 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.