메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

한빛랩스 - 지식에 가능성을 머지하다 / 강의 콘텐츠 무료로 수강하시고 피드백을 남겨주세요. ▶︎

어쩌다 데이터 분석 with 파이썬

판다스로 시작하는 효율적인 데이터 분석 및 시각화

한빛미디어

집필서

판매중

  • 저자 : 김유지(Clary K)
  • 출간 : 2022-09-29
  • 페이지 : 412 쪽
  • ISBN : 9791169210317
  • 물류코드 :11031
  • 초급 초중급 중급 중고급 고급
4.8점 (42명)
좋아요 : 13

파이썬 데이터 분석은 처음EASY?

판다스 핵심 레시피와 예제로 익히는 파이썬 데이터 분석 기초!

 

이 책은 파이썬 데이터 분석을 위해 반드시 알아야 하는 판다스, 넘파이, 맷플롯립, 시본 등 파이썬 핵심 라이브러리를 사용해서 효과적으로 데이터를 분석하고 시각화하는 방법에 대해 다루고 있다. 파이썬 데이터 분석 입문자를 위해 일반적인 데이터 분석 과정으로 내용을 구성했으며 데이터 분석을 위한 중요한 핵심 함수와 처리 과정을 쉽고 간결하게 설명하고 있다. 마지막으로 넷플릭스 데이터셋으로 실무에 적용 가능한 데이터 전처리 및 시각화 과정을 실습해본다.

 

 

상세이미지_어쩌다 데이터 분석 with 파이썬.jpg

 

김유지(Clary K) 저자

김유지(Clary K)

동덕여대에서 미디어 디자인, 국민대 테크노디자인대학원에서 인터랙션 디자인을 전공했다. UX 컨설팅 회사, 외국계 IT 기업, IT 스타트업 등 다양한 환경에서 일해온 UX/UI 기획자로 적응력이 빠르고 새로운 도전을 좋아한다. 몇 년 전 자기계발 및 업무 역량 성장을 위해 파이썬 프로그래밍과 데이터 분석 스터디를 시작했고 정부 R&D 과제 및 금융 서비스 프로젝트에도 참여했다. 현업에 데이터 분석 결과를 다양한 관점으로 적용하기 위해 부단히 노력 중이다. 온라인에서 Clary K라는 필명으로 활동하고 있으며 취미로 블로그에 파이썬 지식과 데이터 시각화 관련 포스팅을 하고 있다.

 

블로그: blog.naver.com/youji4ever

1장. 데이터 분석 준비

1.1 데이터 분석의 세계

1.2 아나콘다 설치 및 주피터 노트북 실행

1.3 파이썬 핵심 정리

1.4 파이썬 데이터 분석 주요 라이브러리

1.5 데이터셋

 

2장. 데이터 분석 기본

2.1 넘파이 기본

2.2 판다스 기본

2.3 데이터 로드와 저장

2.4 데이터 확인

2.5 데이터프레임의 컬럼을 다루는 테크닉

2.6 데이터 인덱싱(데이터프레임의 값 선택)

 

3장. 데이터 정제와 응용

3.1 데이터 필터링과 정렬 테크닉 

3.2 결측값 처리

3.3 이상값 처리

3.4 문자열 데이터 처리

3.5 카테고리 데이터 처리

3.6 람다를 활용한 데이터 처리 응용 예제

 

4장. 데이터 병합과 재형성

4.1 데이터 병합

4.2 데이터 재형성과 피벗

4.3 데이터 병합 후 처리

 

5장. 데이터 집계와 그룹 연산

5.1 그룹 연산의 이해 

5.2 피벗 테이블과 크로스탭 활용

 

6장. 날짜시간 데이터 처리

6.1 날짜시간 데이터 타입

6.2 날짜시간 데이터 인덱스

6.3 Time/Date 컴포넌트

 

7장. 데이터 시각화

7.1 맷플롯립 데이터 시각화

7.2 시본 데이터 시각화

 

8장. 데이터 분석: EDA 실습

8.1 데이터 첫 탐색

8.2 데이터 전처리

8.3 데이터 시각화 기초

8.4 데이터 시각화 고급

8.5 실습을 마치며

개발 환경 준비 + 판다스 핵심 기능 + 데이터 시각화 + EDA 실습

 

판다스는 파이썬 환경에서 데이터를 분석하기에 최적화 된 오픈소스 라이브러리이다. 이 책은 파이썬 데이터 분석을 위한 준비 과정과 알아야 하는 개념 그리고 판다스 핵심 기능과 데이터 시각화 기초까지 다룬다. 또한 파이썬 데이터 분석에 필요한 핵심 레시피를 익힌 뒤 넷플릭스 데이터셋으로 실무도 경험해본다. 현업에 적용할 수 있는 EDA를 실습하고 데이터 간 유의미한 상관관계를 분석하며 데이터 분석 역량을 기를 수 있도록 도와준다.

 

 

★ 이 책의 구성

 

STEP1 데이터 분석 준비 & 기본

  • 개발 환경 구축하기
  • 파이썬 기본 내용 
  • 파이썬 핵심 라이브러리 소개 및 기능 설명

STEP2 데이터 정제와 응용

  • 데이터 필터링/정렬 테크닉
  • 결측값/이상값 확인 및 처리

STEP3 데이터 병합/그룹 연산

  • 데이터 병합
  • 테이블 형식 데이터 재배치/피벗
  • groupby를 활용한 그룹별 요약 및 집계
  • 피벗 테이블과 크로스탭 활용

STEP4 시계열 데이터 처리

  • 날짜시간 데이터 타입
  • 날짜시간 데이터 인덱스

STEP5 데이터 시각화

  • 맷플롯립 기본 핵심
  • 많이 활용되는 시본의 주요 그래프

STEP6 실전 연습

  • EDA 실습: 넷플릭스 데이터셋
  • 데이터 전처리 기법 적용 및 데이터 시각화 작업

 

1장_데이터 분석 준비

데이터 분석이 무엇이고 어떻게 진행되며 어떤 역량이 필요한지 살펴본다. 그리고 파이썬 데이터 분석을 실행하기 위한 개발 환경을 구축한 뒤 이 책을 읽는 데 필요한 파이썬 기본 내용과 핵심 라이브러리에 대해 알아본다.

 

2장_데이터 분석 기본

파이썬에서 데이터 분석을 하기 위해 가장 필수적으로 알아야 할 라이브러리인 넘파이

와 판다스의 기본 사용법을 학습한다. 데이터를 불러오고, 생성하고, 선택하고, 골라내고, 삭제하고 새로운 모양으로 변경하는 등 기초적인 데이터 처리 방법을 배운다.

 

3장_데이터 정제와 응용

데이터를 처리하고 가공하는 다양한 방법을 몇 가지 카테고리로 분류해서 배운다. 먼저 상세한 조건으로 데이터를 추출하거나 다른 함수를 활용하여 데이터를 필터링하는 기법과 정렬 테크닉을 알아본다. 그다음 결측값이 생기는 원인과 판다스로 결측값을 확인하고 처리하는 방법에 대해 익힌 뒤 이상값을 확인하고 처리하는 방법을 살펴본다.

 

4장_데이터 병합과 재형성

서로 다른 데이터프레임을 연결하고, 합쳐진 데이터프레임을 다시 다른 모양으로 변경하는 학습을 한다. 판다스의 함수를 통해 흩어져 있는 데이터를 연결하고 병합하는 방법을 익힌다. 그리고 테이블 형식의 데이터를 다양한 방식과 기준으로 데이터를 재배치하거나 피벗하는 방법을 학습한다. 마지막으로 데이터 병합이나 재형성 후의 처리 방법에 대해 다룬다.

 

5장_데이터 집계와 그룹 연산

판다스의 groupby 개념과 활용법을 배우고 데이터를 그룹별로 나누어 요약 및 집계를 해본다.

또한 판다스에서 피벗 테이블과 그룹 빈도를 계산하는 크로스탭을 활용한 분석에 대해서 알아본다.

 

6장_날짜시간 데이터 처리

판다스에서 사용하는 시계열 데이터 종류인 datetime과 관련하여 날짜와 시간에 대한 기초

지식을 학습한다. 날짜시간 데이터를 다룰 때 기초적으로 알고 있어야 할 데이터 타입에 대해 배우고 인덱스와 관련있는 몇 가지 주요 처리 방법에 대해 익힌다.

 

7장_데이터 시각화

대표적인 파이썬 데이터 시각화 라이브러리인 맷플롯립과 시본을 알아본다. 먼저 파이썬으로 데이터 시각화를 할 때 필수적으로 알아야 할 맷플롯립의 핵심을 학습한다. 그다음 많이 활용되는 시본의 주요 그래프에 대해 배워본다.

 

8장_데이터 분석: EDA 실습

앞에서 배운 기술을 어떻게 사용하고 응용되는지 익히기 위해 데이터 분석 실습 과정을 진행한다. 분석하려는 데이터의 특징을 파악하여 적합한 전처리 기법을 적용한 후 데이터를 더 잘 이해할 수 있도록 다양한 시각화 작업을 해본다.

 

 

★ 대상 독자

 

이 책은 파이썬을 이용한 데이터 분석에 대해 관심 있는 입문자를 대상으로 한다. 기본적으로 파이썬 기초를 알고 있다는 전제하에 설명하고 있으나 파이썬을 접해보지 못한 독자를 위해 파이썬 핵심 기본 내용을 수록했다. 

 

 

★ 예제 소스

 

https://github.com/claryk0520/bumping-into-data-analysis 

 

 

추천사

 

요즘은 데이터 분석 전문가가 아니더라도 자기 분야의 데이터 분석을 스스로 하는 시대이다. 다만 일반인도 처음부터 따라 하기만 하면 데이터 분석의 기초를 갖출 수 있는 책이 많지 않아 아쉬움이 있었다. 이 책은 파이썬과 데이터 분석을 처음 접하는 입문자가 기본서로 삼아 공부하기에 적합한 내용으로 구성되어 있으며 비전문가의 눈높이에 맞는 적절한 예제로 쉽게 설명하고 있다. 특히 공식 문서에는 나오지 않지만 알아두면 좋은 팁과 초보자가 하기 쉬운 실수에 대한 조언이 가득 담겨 있다는 것이 이 책의 가장 큰 장점이다.

김정용 - SK하이닉스 | AI 엔지니어

 

개발, 마케팅 등의 업무를 담당하는 사람뿐 아니라 일반인도 데이터를 다뤄야 하는 시대이다. 이 책은 초보자도 쉽게 데이터 분석에 입문할 수 있도록 도와주는 백과사전이다. 데이터 분석을 위한 환경 구성부터 기초 및 고급 지식을 습득할 수 있는 다양한 예제가 마련되어 있으며, 마지막 장의 EDA 실습을 통해 실전에 빠르게 적용할 수 있도록 도와준다. 데이터 분석의 기초를 최대한 빠르게 습득함과 동시에 실전에 적용하고자 하는 독자에게 이 책을 강력히 추천한다.

남상구 - 인텔 | 소프트웨어 엔지니어 

 

파이썬을 이용한 데이터 분석과 머신러닝을 배우기 시작하면 어렵게 느껴지는 고비가 몇 군데 있다. 그중 하나가 판다스를 사용해 데이터를 다룰 때이다. 처음엔 판다스를 사용해 데이터를 읽고 쓰면서 그 편리함과 예쁜 표로 시각화된 모습을 보며 신세계를 만난 기분이 들지만 본격적으로 데이터를 가공하고 집계하다 보면 데이터 앞에서 작아지는 자신을 보게 된다. 판다스는 짧은 시간 동안 집중해서 익히는 라이브러리가 아니다. 다루는 데이터에 따라 각기 다른 대응법을 끊임없이 배워야 하는 존재이다. 이 책은 판다스의 중요한 기능이 적절한 예제에 함께 간결하게 정리되어 있다. 판다스를 빨리 익혀야 한다는 조바심은 잠시 내려두고 이 책을 통해 판다스의 필요한 기능을 하나씩 배워보기 바란다.

이제현 - 한국에너지기술원 플랫폼연구센터 | 선임연구원

 

데이터 분석, 어디서부터 어떻게 무엇을 배워야 할지 참 막막하게 느껴질 것이다. 이런 고민을 가지고 있는 독자에게 알맞은 설루션으로 이 책을 추천한다. 입문자에게 파이썬 핵심 라이브러리 사용법을 비롯하여 필요한 것만 알려주어 학습 시간을 아껴주고, 쉽게 설명하고 있어 데이터 분석의 진입 장벽을 조금이나마 낮춰준다. 책을 덮을 즈음에는 데이터 분석에 대한 자신감이 생기게 될 것이며, 이 책이 데이터 분석가라는 초행길의 믿음직스러운 길잡이가 되어줄 것이다.

하송미 - (주)네피리티 | 데이터 분석 엔지니어

 

프런트엔드 개발자로 성장하고자 하는 독자라면 한 권쯤 꼭 가지고 있으면 좋을 안내서이다. 개발자라는 긴 여정을 시작하는 초심자를 위해 개발 환경 설정부터 현업에서 주로 사용하는 데이터 형태와 타입 그리고 분석 기법을 군더더기 없이 단계별로 예제와 함께 풀어주고 있다. 이 책에서 안내하는 단계별 여정대로 잘 따라간다면 길을 잃을 일 없이 어느새 자연스럽게 데이터 분석을 하고 있는 자신을 볼 수 있을 것이다.

조준호 - 한국고용정보원 | 데이터 분석가

 

이 책은 한 마디로 판다스 기초 백과사전이라고 할 수 있다. 상세한 설명과 다양한 예제를 통해 데이터 분석 초심자가 데이터프레임을 활용한 분석 과정에서 막힐 수 있는 부분을 자세하게 설명해주고 있기 때문에 처음 데이터 분석을 시작하려는 독자에게 추천한다. 또한 다양한 데이터프레임 사용 방법을 숙지할 수 있고 다시 한번 기초를 다지는 기회가 될 수 있기 때문에 데이터 분석을 경험한 독자에게도 많은 도움이 될 것이다.

이단비 - (주)이팝콘 | 데이터 분석가

데이터 분석의 영역에서 프로그래밍 언어인 R과 Python은 양대산맥이다. 그중 R은 데이터 분석에 특화된 언어로서 통계와 관련된 여러 라이브러리 및 도구를 제공하지만 범용성이 떨어진다는 단점이 있다. 반면 Python은 범용성을 갖고 있으며 데이터 분석과 관련해서도 훌륭하고 다채로운 라이브러리를 제공하고 있다. 이뿐만 아니라 일반인이 쉽게 접근할 수 있는 장점을 갖추고 있어 데이터 분석을 Python으로 시작하는 추세가 곳곳에서 감지되고 있다. 데이터 분석과 Pytnon의 만남은 시대가 만들어 낸 하나의 움직임이고 바야흐로 대세가 되어 가고 있는 실정이다. 

 

하지만 파이썬을 활용해서 데이터 분석을 시작하려고 해도 어디서부터 무엇을 어떻게 해야 할지 난감하기만 하다. 도처에 리소스가 널려 있지만 정보의 과잉이 빚어 낸 현상은 '선택 장애'를 일으키며 우리의 행동과 판단에 제동을 걸어 버린다. 그럼에도 불구하고 가장 좋은 선택은 우리가 처한 상황을 온전히 인지하고 우리의 눈높이에 맞는 서적과 함께 시작하는 것이리라. 때마침 이러한 상황에 한 줄기 빛이 되고 있는 책이 있으니, 이름하여 '어쩌다 데이터 분석 wiyh 파이썬'이 되겠다. 오늘은 해당 서적에 대해 이야기를 풀어 나가고자 한다. 

 

 

어쩌다 데이터 분석 wiht 파이썬(이하 어쩌다 데이터 분석)의 저자는 파이썬 및 데이터 분석 전문가가 아닌 데도 불구하고 스스로 해당 영역을 학습하여 이 챚을 빚은 장본인이다. 그런데 전문가가 아니라고 해서 책 내용이 부실한 게 결코 아니다. 오히려 초보자의 눈높이에서 그들의 입장을 충분히 헤아려 최대한 쉽게 이해될 수 있게 내용을 서술하고 있으며,데이터 분석의 전반에 필요한 파이썬의 핵심을 알차게 제공하고 있다는 사실이 눈여겨볼만한 지점이다. 

 

각설하고 본 서적의 부제는 '판다스로 시작하는 효율적인 데이터 분석'인 만큼 판다스라는 라이브러리를 위주로 전개되고 있다. 판다스는 파이썬 데이터 분석의 핵심 라이브러리로서 뛰어나고 풍부한 기능을 제공하는 것으로 정평이 나있다. 하지만 결코 배우기가 만만치 않기 때문에 러닝 커브가 높은 게 사실이다. 그렇다고 판다스를 학습하는 게 불가능한 일도 아니다. 결국 판다스를 책으로 공부하는 입장에서는 저자의 역량에 따라 학습 진도가 좌우될 수도 있다는 것이다. 다행히 이 책의 저자는 초보자의 눈높이에서, 판다스를 활용한 데이터 분석의 여정에 친절한 안내자로서 시종일관 독자를 인도하고 있다. 책의 시작부터 끝까지 관통하는 분위기는 바로 '용이성'이다. 결코 어렵지 않지만 가볍지도 않은 게 바로 이 서적의 큰 장점이라 할 수 있겠다. 

 

데이터 분석 준비 챕터를 시작으로 해서 데이터 시각화 챕터까지 데이터 분석에 필요한 핵심을 배울 수 있으며, 마지막 챕터인 '데이터 분석: EDA 실습' 편에서는 실제 넷플릭스 데이터셋을 기반으로 하여 지금까지 학습한 내용과 기술을 직접 응용해 보는 단계로서 책의 대미를 장식하고 있다. 해당 과정을 통해 독자는 데이터 분석이 실생활과 결코 유리된 게 아니라 우리 삶에서도 그것을 실질적으로 활용할 수 있음을 몸소 체험할 수 있게 된다. 그렇다. 데이터 분석은 결코 전문가의 전유물이 아니라 모든 사람이 물고 뜯고 맛보고 즐기며 음미할 수 있는 활동인 셈이다. 어쩌면 데이터 분석의 진짜 어려움은 데이터 분석, 그 자체로 존재하는 게 아니라 데이터 분석이라는 표면에 드러난 막연한 두려움 때문이 아니었을까? 시도해 보지도 않고 어렵다고 지레 겁먹고 아무 것도 하지 않았던 우리 자신의 나약함 때문이 아니었을까? 이 책은 그런 두려움과 우리 내면의 나약함을 충분히 극복할 수 있게 도와 주고 있다. 이 서적과 함께 데이터 분석에 대한 편견을 지우고 우리 일상을 위해 데이터 분석을 해 보는 게 어떨까? 이 책 한 권과 함께 데이터 분석의 첫 여행을 감행한다면 그것 자체만으로도 위대한 시작이 될 것이다. 

 

P.S 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

KakaoTalk_20230326_232619595.jpg

 



 

 

EDA란?

(Exploratory Data Analysis, 탐색적 데이터 분석)

데이터 공모전에 참여하고, 실무에서 날 것의 데이터를 받으면 굉장히 난감하다.

데이터가 참 문제가 많다. 쌓이는 과정에서 오류가 생기기도 하고, 기준이 정해지지 않으면 내가 기준을 새로 잡아서(기준 잡는것도 reasonable 해야 하기 때문에 쉽지 않다.) 데이터를 분석할 수 있게 해야한다.

비유를 하자면, 요리사가 오픈전 재료를 다듬고, 레서피를 작성하는 단계이다.

하지만 요리와 다른것은 EDA를 어떻게 하느냐가 결국 '방향'을 결정하기 때문에 굉장히 중요하다.

과거에도, kt 공모전에서 모두가 안쓰던 정성적 데이터를 EDA를 통해 쓸 수 있도록 만들어서 대상을 받고, 실제 메인배너에 광고가 실린 경험이 있다.

 

이 책은 판다스를 활용해서 효율적인 데이터 분석, EDA, 시각화를 도와주는 책이다.

 

중급자로 가는 길

판다스

 

사진 설명을 입력하세요.

초보자가 중급과정을 가기 위해서는 코드 한줄 한줄 의미를 이해하는게 중요한데

이때 cell 단위로 진행되기 때문에 학습 목적으로는 Jupyter note book을 쓰는게 가장 좋다 생각이 되는데, 이 책은 Jupyter notebook을 기준으로 작성되었다. (실무는 vscode를 추천한다.)

 

*다만 개인이 쓰는건 문제가 없지만, 아나콘다는 '기업'에서 쓰기 위해서는 비용을 내야하기 때문에, 기업에서 공부를 한다면 아나콘다 대신 미니콘다를 설치해야한다.

 

 

파이선 데이터 분석의 '꽃' : 판다스

import pandas as pd

사진 설명을 입력하세요.

판다스 : 넘파이 배열 기반의 처리 방식을 많이 차용해서 설계되었다.

산술 배열 데이터를 처리하는 데 특화되어 있는 넘파이와 가장 큰 차이점은 데이터베이스 스타일의 데이터나 다양한 타입의 데이터 위주로 처리를 한다.

 

 

 

 

데이터 시각화

맷플롯립, 시본 데이터

사진 설명을 입력하세요.

숫자가 근거와 결과라면

시각화는 '전달'이다.

 

 

KakaoTalk_20230326_232619595_01.jpg

 

숫자로 얘기를해도, '나'는 이해가 되지만 이해관계자들은 무슨말인지 이해를 못한다.

이것을 전달해주는것이 '시각화'이다.

 

시각화 장에서는 EDA과정을 거쳐 결과를 뽑아낸 결과를 어떻게 시각화 하는지를 보여준다.

여기까지 학습을 하고 나서는, 이제 '기준'을 뽑는 방법을 배우면 된다.

가장 추천하는 책은 한빛미디어의 '데이터 스토리이다.'

같은 데이터 분석을 했어도, 기준을 어떻게 잡느냐에 따라 전달력에서는 어마어마한 차이가 난다.

 

 

파이썬 공부를 마치고, 본격적으로 데이터 분석을 해보고 싶은 학생!

실무에서 데이터를 주물러보고 싶은 신입 근무자!

에게 추천하며 아래도서와 연계까지 하면 완벽하다!

 

ogq_5eedbcd06ab59-8

 

추천 연계 도서 : 데이터 스토리

데이터 스토리
 
데이터 스토리
저자
낸시 두아르테
출판
한빛미디어
발매
2021.07.01.
 
 
 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."



"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

 

데이터분석이란 것은 복잡하다고 생각하지않는다.

물론 필요한 선수지식들이 있지만, 모든 이론적인 내용을 다 알아야만 할 수 있다고 생각하진 않는다.

데이터 분석에는 분석 툴을 사용하는 방법도 알아야하는데 이 책은 그런 시작을 함께 할 수 있는 책으로 느껴졌다.

나는 머신러닝 분야에서 개발자로 일하고 있다. 원래 다른 분야에서 취준을 하다가 어쩌다보니 머신러닝과 통계학을 공부해야 할 처지가 되었다. 작가님도 어쩌다보니 데이터 분석을 하게 되신 건지, 초심자의 시선에서 필요한 기능을 설명하고 있다. 이 책은 데이터를 다루기 위해 필요한 파이썬 패키지 중 넘파이, 판다스, mlt, 씨본에 대한 소개와 사용법을 알려주고 있다. 파이썬 설치 방법부터 그래프 그리기까지 차근차근 쉽게 알려주니 파이썬을 아예 모르는 학생, 직장인 등에게 적합한 책인 것 같다. 앞서 언급한 패키지 이름만 보면 알겠지만 다루는 내용은 "머신러닝"이 아니라 "데이터 시각화"다. 이 책은 개발자가 아닌, 엑셀 대신 파이썬을 쓰고자 하는 사람을 타겟으로 쓰여진 책이다. 나는 '데이터 분석'을 다룬다길래 데이터로 모델을 학습하고 예측, 결과 분석 등을 생각했었지만, 책에서 다루는 내용은 엑셀 기능이니 참고하기 바란다. 당장 업무에 필요한 지식은 아니었지만, 판다스의 기능을 다시 복습할 수 있었고, 내가 미처 몰랐거나 자주 깜빡하는 기능을 익힐 수 있었다는 점에서 유익했다. 엑셀을 자주 사용하는 사무직 남자친구가 파이썬은 너무 어렵다고 포기한 적이 있다. 나보다는 남자친구에게 딱일것 같아서 보여줬더니 자기도 할 수 있겠다고 한다. 줬더니 좋아한다. 열공하렴 데이터를 통한 예측까지는 아니고 데이터 시각화만 필요하거나, 설득력 있는 제안서, 보고서 등을 작성해야 하는 사람일 경우 최고의 파이썬 교재라 할 수 있겠다.

이 책은 “한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.”

 

 

그동안 몇 번이나 한빛 미디어의 책을 리뷰를 하던 중 이번에는 실물 책이 아닌 e-book 으로 구글 books를 통해서 받아 보게 되었습니다. 마침 이런 저런 장비들이 있으니 가독성 관련해서 테스트를 해볼 수 있겠다 싶었습니다.가지고 있는 장비들 중에서 교보의 SAM 7.8인치 e-paper, 례노버 tab P11(11”, 그리고 레노버 요가 X380 (13.3”) 는 책처럼 들고서 읽는 것에 대한 테스트를 해보았고, 제가 평소에 작업하는 32 인치 모니터 2대 + 노트북 2 환경에서 한번 책을 보면서 가독성에 대한 테스트를 해 봤습니다. 사과 제품이 없다 보니 사과 태블릿에서는 테스트를 못해봤습니다.

 

0326a.png

 

교보의 SAM 7.8 의 경우 표시부가 e-paper 이어서 태양 아래서도 글자가 잘 보이지만, 이 책의 경우는 글꼴 확대 기능이 없다 보니 글자가 너무 작아서 보기가 불편하더군요. 거기다가 컬러 사진은 이미지를 알아 보기가 힘들 정도입니다.

0326b.png


Lenovo Tab P11의 경우 11인치 이지만 화면의 비율이 5:3 이라서 일반 책의 비율과 4:3 과 맞지 않는 관계로 위 아래 빈 공간이 생기고 상대적으로 글자가 작은 느낌이 듭니다. 레노버 Yoga X380의 경우 13.3” 라는 크기 때문에 MCU개발용으로 쓰기에는 좀 작은 느낌의 화면이지만, 이번의 e-book 을 보는 데는 저한테는 딱 맞는 크기 같습니다.

0326c.png

 

0326d.png


같은 페이지를 3개의 장치에 띄워 보니 흑백 표시 장치와 컬러, 그리고 태블릿과 PC의 차이가 명확히 보입니다. 그리고 태블릿 들에서 구글의 플레이 북으로 책을 볼 때는 페이지를 넘기는 느낌으로 책을 볼 수 있지만, 노트북 이면서 태블릿 같은 요가 X380에서는 상하 스크롤로 페이지가 넘어 갑니다.


그리고 평상시 작업하는 환경에서 32인치 모니터에서 구글 플레이 북으로 책을 보는 것을 한번 테스트 해 봅니다.

0326e.png

 

이렇게 책을 보면서 따라해 보는 것이 제일 편할 것 같습니다 . 이제는 공부도 장비 빨이다.. 싶습니다. 

 

ebook으로  소설이나 만화와 달리  이런 분야의 책을 보니 장단점이 분명합니다.

 

* 가독성의 문제

장치의 화면의 크기나 종류에 따라서 가독성이 상당히 차이가 납니다. 예전의 연구를 보면 모니터로 글자를 읽을 경우 이해력이 떨어진다고 하는데... 화면의 크기가 최소 11인치 이상은 되어야 할 것 같다는 생각입니다.

 

* 검색의 편리성

ebook의 장점은 언제든지 특정 단어나 용어를 찾아 볼 수 있다는 점입니다. 종이 책의 경우 몇 번 본 내용은 그 위치를 대충 기억하지만, 단어나 용어를 검색할 때 편합니다.

 

 

이제 책의 내용을 살펴본 느낌을 정리해 보겠습니다.

 

책을 읽어 보면 파이썬을 아는 사람을 대상으로 하며 판다스를 이용해서 데이터를 처리/분석/시각화 하는 기법을 잘 설명하고 있습니다. 예를 들어 3장의 경우 타이타닉의 승객 정보를 가지고 와서 분류하고 처리하는 예를 다양하게 보여 주고 있는데, 주변에서 구할 수 있는 데이터를 체계적으로 분석하기 위한 사전 작업 등등.. . 

 

그런데 저에게는 몇 가지 단점이 보입니다. 

우선 Numpy의 설명은 너무 간단히 설명을 하다 보니 numpy 에게 익숙한 사람은 필요 없다고 볼 수 있는 내용이고, numpy를 모르는 사람에게는 설명이 조금 부족한 감이 있습니다. 

 

그리고 용어들에 대한 설명이 부족한 느낌이 듭니다. 산분도, IQR,.. 이런 용어에 대한 설명이 없습니다. 예를 들어 E-book 의 장점을 적극 활용해서 검색을 해 봐도 IQR 이 대체 어떤 방법인지 그 원리가 머리속에서 정리가 안됩니다. 목적과 방법은 나와 있지만 이 방법으로 처리한 것이 어떤 의미가 있는지에 대한 설명이 없습니다. 가끔은 용어가 먼저 나오고 그 설명이 뒤에 나오는 경우도 있더군요.

 

저는 분야는 조금 다르지만 전자 관련 카페에서 스텝으로 활동한 오랜 경험으로 용어를 제대로 이해하지 못한 초보자들이 삼천포나 안드로메다로 가는 경우를 종종 봤습니다. 이 책과는 관련이 없지만 초보자들이 어디서 주워들은 틀린 용어를 맞다고 우기는 경우까지 본 적도 몇 번 있으니 용어의 제대로 된 정의와 설명은 어떤 분야이든 가장 중요하다고 볼 수 있는데 이 부분이 뭔가 조금 부족한 느낌이 듭니다.

 

하지만 이 책은 판다스를 이용해서 데이터를 처리하는 과정을 상세히 설명하고 있어서 다양한 기법을 살펴볼 수 있다는 점, 저자가 UX 를 전공하셔서 그런지 처리한 데이터의 시각화 예제가 많다는 것도 이 책의 장점이며, 이 책에서 소개된 기법들을 잘 익혀두거나, 이런 방법도 있다는 것을 알아 두면 이후에 판다스를 이용해서 데이터를 처리한 결과를 더 돋보이게 할 수 있을 것 같습니다.

 

이상으로 리뷰를 마칩니다.

 

 

 책은 “한빛미디어 <나는 리뷰어다활동을 위해서 책을 제공받아 작성된 서평입니다.”

 

프리뷰

빅데이터라는 개념이 나오기 시작한지 10년이 넘은 시점에서 과거에는 데이터 수집을 위해 설문조사나대면조사 같은 방법으로 정보를 수집했다면 

지금은 SNS, 인터넷 신문 기사블로그 등등 인터넷에서다양하고 거대한 비정형 데이터를 수집할  있다.

빅데이터라는 단어를 처음 접했을  대용량 데이터를 내가 원하는 형태로 만들어 낸다는게 단순히 쿼리를 조회하여 결과를 얻는 데이터베이스와 같다는 느낌이 들었다

결론은 같지만 일반 프로그래밍 레벨의 데이터와는 차원이 다른 양의 데이터를 다룬다는 것은 여간 쉬운 일이 아닐 것이다.

 

빅데이터는 다음과 같이 정의되고 있다.

 

일반적인 데이터 관리  처리 소프트웨어에서 다루기 어려울 정도로 거대하고 복잡한 데이터의 집합.

정형 혹은  정형의 방대한 양의 데이터

 

내용

 책의 대상은 초보자와 중급자 사이 레벨을 타겟으로 작성되어 파이썬에 대한 지식을 간단하게 습득할  있고 데이터 분석을 위한 넘파이와 판다스를 단계적으로 습득할  있었다

데이터 분석 부터 정제병합집계시각화 등등 마지막에는 자주 사용하는 차트들 까지 빅데이터를 처음 접하는 사람들에게 시작부터 끝까지 내용이 알차게 구성되어 있다

예제 코드와 그에 따른 결과들도 흑백이 아닌 컬러로되어 있어 신경을 많이   같아 보였다.

 

 

총평

사람이  가지 분야에서 두각을 나타내면  곳에서 인정을 받지만 요즘 같은 시대에는 하나만  해서는 부족하다고 생각한다

웹개발자로써  개발 기술을 연구하고 정진하는 것이 제일 좋지만 회사에 담고 있는 입장으로써는 하고 싶은 것만  수는 없는 노릇이다

나에게 있어 빅데이터도   하나이다

회사에서 어느새부터인가 자주 들리는 단어이기도 하고  접하게 될거라는 느낌이 강하게 들고 있다그만큼 정보의 가치가 매우 중요해 졌다

이렇듯 빅데이터 관련 전공자는 아니지만 자의든 타의든  분야에 발을 들이게 되는 사람으로써  책은 낯선 여행지를 방문했을  

적어도 실패하지 않는 길로 인도해주는 가이드라인의 역할을 해주고 있다

물론 더욱 가치있는 정보를 만들어 내기 위해서는 더욱 발품을 팔아야 하겠지만 책에 있는 내용들만하면 기본은 하지 않을까 싶다.



도서 제목처럼 어쩌다 보니 데이터 분석 관련 2번째 도서다.

 

20230326_141048.jpg

 

 

제목부터 뭔가 딱딱하지 않아서 관심이 가는 책.

저자가 디자인 전공자라 그런 것인가.

 

 

 

2022년 9월 29일에 출판되었고, 저자는 디자인 전공이나 파이썬 프로그래밍과 데이터 분석 스터디를 통해 정부 과제 및 금융 서비스 프로젝트에 참여한 이력이 있는 분.

저자가 초심자였을 때를 떠올리며 책을 썼기 때문에 독자들을 좀더 배려해서 책을 쓰지 않았을까 기대가 된다.

대상 독자는 초중급. 일단 기본적인 파이썬 핵심 내용 정도는 알고 있어야 한다는 뜻이겠지.

 

 

 

이 책의 차례는 다음과 같다.

 

20230326_141406.jpg

 

 

 

 

이 책은 특별한 구성이랄 것이 없다.

그냥 줄줄 읽어가면서 따라가면 되는 방식이다.

 

 

 

필요한 데이터는 이 곳 홈페이지 하단에 업로드 되어 있다.

 

 

20230326_141302.jpg

 

 

저자가 공부할 때 ‘원리 이해 → 실습과 실행 → 나만의 정리’ 과정을 반복했다고 한다.

그래서 책도 그러한 흐름에 따라 구성되어 있다.

당연한 이야기지만 ‘나만의 정리’ 과정은 독자의 몫이다.

 

 

혼공 데이터분석 책은 구글 코랩을 이용하여 코딩을 했는데 이 책에서는 파이썬 3.8버전에 주피터 노트북을 이용한다.

현재 파이썬은 3.11버전가지 나왔다.

코랩에 익숙해졌으니 그대로 코랩에서 코딩을 시작했다.

그런데 이 책에서 넘파이 버전은 1.23.1이지만 코랩에서의 넘파이 버전은 1.22.4.

큰 차이 있을까 싶지만 그래도 최신 버전을 사용하는 것이 좋은테니 주피터 노트북에서 코딩하기로.

20230326_145638.jpg

 

책에서 나온 원리와 실습과 복습을 했어도 내가 다양한 예에 적용 못하면 꽝이렸다.

저자는 그것까지 고려해 마지막 챕터에 실습과정을 더 만들어 두었다.

 

 

이 도서는 시각화하는 과정까지 공부할 수 있어 얕고 넓게 데이터 분석 공부하기에는 좋은 책 같다.

데이터분석을 시작하는 분들에게 추천!

 

 

 

 

 

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 



`chatGPT`가 `AlphaGo` 이후로 다시 한 번 대중의 관심을 인공지능으로 가지고 왔습니다. `prompt engineer`라는 용어가 나오고 중고생들부터 학계까지 광범위하게 사용하는 도구가 되었습니다. 이런 흐름 속에 입문을 고민하면서 `어쩌다 데이터 분석 with 파이썬`을 찾고 계실 것 같습니다.

 

데이터 과학이라는 큰 범주 내에서는 가까운 사이라고 생각할 수 있지만 AI의 `ML/DL(머신러닝/딥러닝)`에서 필요로 하는 능력과 데이터 분석은 다소 궤가 다르다고 봐야랍니다. `DL`을 위해서도 데이터를 분석하고 정제하는 능력이 필요하기 때문에 `DL` 공부를 염두에 두셔도 볼 만한 책입니다.

 

데이터나 과학/수치 관련 프로그래밍을 전혀 안해봤다면 왕도라고 할 수 있는 구성으로 되어있습니다. 독학을 하다보면 `numpy`에서 `pandas`에서 `matplotlib`에서 또 한번 고비를 맞이합니다. 그래서 저도 `pandas`를 별도로 다룬 책, 데이터 시각화 책을 몇 권 가지고 있습니다.

 

입문 단계에서는 내가 어디가 부족하고 어떤 것을 더 봐야 할지 알기 쉽지 않습니다. 그래서 `어쩌다 데이터 분석 with 파이썬`을 목차에 따라 따라가기를 추천드립니다. 정말 해당 라이브러리를 다뤄보지 않은 사용자를 대상으로 쓰여진 책이라 유경험자에게는 추천드리기 다소 힘든 책입니다. 다만 체계적인 흐름없이 닥치는데로 학습을 해서 과정에 구멍이 많다고 느껴지면 추천 드릴만한 책입니다.

 

`numpy`를 통한 수치연산을 배우고 `pandas`로 그걸 가공하고 `matplotlib`와 `seaborn`으로 데이터를 시각화해 데이터의 구멍을 찾아 메우는 과정에서 데이터와 친해지시면 됩니다. 흥미가 생기신다면 `kaggle` 등 데이터 경진 대회도 있고, 정말 책 제목처럼 어쩌다 시작하셔도 재밌는 책입니다.

 

정말 입문자를 위한 책이어서 기존 입문자에게는 별로 추천드리지 않습니다.

유사한 입문서적을 가지고 계시다면 중복 투자일 확률이 높습니다.

난이도는 높지 않은 편이며, 이론에 대해서는 거의 다루지 않습니다.

 

 

한빛미디어 `2023 도서 서평단 "나는 리뷰어다"`의 일원으로 도서를 제공받아 작성한 리뷰입니다.

이렇게 쌓이는 데이터를 데이터 자체로 놔두는것이 아닌 활용하고 분석하여 활용가능한 정보를 만드는 것이 중요하다고 할 수 있겠습니다.

이에 데이터 분석에 대한 관심이 나날이 높아져가고 있습니다. 실제로 많은 기업에서 데이터 분석 능력을 요구하거나 우대해 주고 있습니다. 빅데이터 시대에 데이터를 활용할 수 있는 능력을 갖춘 인재들을 찾는 것은 어쩌면 당연 한 것일 수 있습니다.

데이터 분석 언어와 도구를 활용하여 데이터 분석을 하는 것도 중요하지만 분석에 앞서 의미와 개념을 정리하고 그 과정들은 어떻게 이루어지는 그리고 왜 파이썬을 가장 많이 사용하는지 알아보는 것도 의미가 있을 것입니다.

이 책은 어쩌다 데이터 분석을 시작하게 된 저자가 본인의 실제 경험을 바탕으로 실무에 있어 도움이 될 내용으로 구성되어 있습니다.

책은 총 8개의 챕터로 구성되어 있습니다.

챕터 1의 데이터 분석 준비에서는 데이터 분석 언어로 파이썬을 설치하고 파이썬의 핵심 정리와 파이썬 데이터 분석 주요 라이브러리에 대해서 소개합니다.

챕터 2의 데이터 분석 기본에서는 넘파이,판다스등의 라이브러리 사용법과 데이터 파싱 및 데이터프레임의 컬럼등을 다루는 테크닉에 대해서 배워봅니다.

챕터 3의 데이터 정제와 응용에서는 데이터를 처리하고 가공하는 다양한 방법에 대해서 배워봅니다.

챕터 4에서는 앞서 개별값을 처리하는 방법을 배웠다면 이번 학습에서는 서로 다른 데이터 프레임을 연결하고, 합쳐진 데이터 프레임을 다시 다른모양으로 변경하는 데이터 병합 및 데이터의 재형성 방법에 대해 알아 봅니다.

챕터 5는 데이터를 가공하고 병합해서 잘 정리한 후 그룹별로 데이터를 집계하거나 연산하는 그룹 함수 및 통계함수 등의 사용법에 대해 알아봅니다.

챕터 6에서는 데이터 분석의 세부 분야중 주로 예측 분야에 사용되고 있는 시계열 데이터를 다루는 방법에 대해서 알아봅니다.

챕터 7 데이터 시각화 다루기에서는 파이썬에서 데이터 시각화 시 사용하는 대표적인 라이브러리인 맷플롯립과 시본 사용법에 대해서 배워봅니다.

마지막 챕터 8장에서는 EDA(Exploratory Data Analysis) 과정에 중점을 둔 데이터 분석 과정을 실습해 봅니다. EDA는 실제 데이터 분석 과정을 설계하기 전에 데이터의 양상이나 패턴을 파악하여 데이터 관련 이해도를 높이고 데이터 특성을 파악하는 과정이라고 할 수 있습니다.

실습링크

https://github.com/claryk0520/bumping-into-data-analysis

책의 핵심 구성

  1. 파이썬 핵심 라이브러리

  2. 데이터 전처리 - 데이터 정제와 응용

  3. 데이터 병합/그룹 연산

  4. 시계열 데이터 처리 - 날짜시간 데이터 타입/인덱스

  5. 데이터 시각화 - 맷플롯립/시본

  6. EDA 실습 : 넷플릭스 데이터셋

<어쩌다 데이터 분석 with 파이썬>

추천 독자 : 데이터 분석과 시각화 기초를 가볍게 공부하고 싶은 비전공자

 

난이도 : 초급~중급 사이

파이썬 완전 기초는 알려주지만 프로그래밍의 'ㅍ' 자도 모르는 사람들은 좀 더 많은 노력이 필요하다. 파이썬 왕초보 도서로 기초를 먼저 공부하거나 책에서 모르는 내용을 그때그때 찾아보면서 공부한다면 실습하는데 지장이 없을 것으로 생각된다.

 

실습 프로그램 : 주피터 노트북

아나콘다, 구글 코랩 등 파이썬 언어를 실행시킬 수 있는 그 어떤 애플리케이션도 가능!

 

데이터 분석 능력, 이젠 갖춰야 한다.

 데이터 분석은 개발자의 몫이라고 생각하는 것은 구시대적인 생각일 수도 있다. 요즘 '마개이너'라는 신조어를 심심찮게 볼 수 있다. 마케터의 '마', 개발자의 '개', 디자이너의 '이너'를 따와 합친 말이다. 이젠 개발 지식과 디자인 능력을 겸비한 마케터가 시장에서 더 잘 팔린다는 것을 알 수 있다.

 

 기업이 가진 데이터는 점점 방대해지고 이를 어떻게 활용할지, 어떤 인사이트를 찾을지는 활용하기 나름이다. 갖고 있는 데이터를 정제하고 분석하여 새로운 인사이트를 얻는 능력은 더욱 중요해질 것이다.

 

이 책을 읽으면 얻을 수 있는 것

 파이썬 언어는 다른 언어에 비해 상대적으로 난이도가 낮아 진입장벽이 낮은 편이다. 이 책은 파이썬의 Pandas 패키지를 활용한 데이터 분석 & 시각화 기초 스킬을 비전공자들도 쉽게 터득할 수 있게 내용이 잘 정리되어 있다.

 

 <어쩌다 데이터분석 with 파이썬>에선 파이썬의 기본적인 부분과 데이터를 확인과 정제(결측값, 이상값 처리 등), 데이터 병합, 시각화 등의 개념을 다양한 예제를 통해 배울 수 있다.

 

 가볍게 전체 내용을 훑으면서 책을 실습해보고 필요할 때 사전처럼 이용한다면 잘 활용할 수 있을 것으로 생각된다.

 

좋았던 점은?

 실습할 수 있는 예제가 정말 다양하다. 지면의 한계 때문에 예제는 한 개씩만 제공되지만, 군더더기 없는 깔끔한 설명과 딱 필요한 부분만 나와 있어서 상당히 많은 지식을 쌓을 수 있다. 다시말해 책에서 중요하지 않은 부분은 없으며 이 책을 사전처럼 이용할 수 있다고 생각한 이유이다.

 

 EDA 실습이 가능하다. 앞 부분에선 데이터 분석, 시각화 스킬을 부분적으로 학습했다면, 맨 뒷장에선 실제 데이터셋 로드, 데이터 확인과 정제, 다양한 유형의 그래프로 시각화까지 할 수 있다. 지금까지 배운 내용들을 큰 틀에서 다시 복습할 수 있는 구조로 되어 있고 실제로 데이터 분석부터 시각화까지 어떻게 진행되는지 흐름을 익힐 수 있다는 점이 큰 장점으로 다가왔다.

 

 책에 나와있는 예제를 따라 해보는 것으로 그치지 않고 본인이 가진 데이터 혹은 오픈 데이터셋으로 데이터 정제와 시각화 연습을 하면 더 효과적인 공부를 할 수 있을 것이라고 생각한다!

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

어쩌다_데이터분석.jpg

 

 

ChatGPT라는 인공지능 서비스가 세상을 놀라게 하고 있습니다. 인공지능이 중요해지면서 데이터 과학이라는 분야도 각광받고 그 지위도 높아지고 있습니다. 데이터를 다루는 작업이 복잡하고 어렵게 느껴져서 발 담그기가 쉽지 않은 시점에 이 책을 만나게 되었습니다.

이 책은 판다스로 시작하는 효율적인 데이터 분석 및 시각화에 대해 다룹니다. 한 마디로 판다스 기초 백과사전이라고 표현하고 싶습니다.

파이썬 개발 환경 구축과 파이썬 기본 내용을 다루면서 시작합니다. 넘파이와 판다스를 사용하는 기본적인 방법을 알려준 후, 결측치 처리, 중복 데이터 처리 등 데이터를 정제하는 방법을 보여줍니다. 여러 개의 데이터를 하나로 합치기 위한 그룹 연산과 이를 통해 데이터를 집계하는 방법을 전달합니다. 날짜와 시간을 다뤄서 시계열 관련 데이터를 다룰 수 있게 해 줍니다. 데이터를 분석하는데 또 다른 중요한 부분이기도 한 시각화를 설명하기 위해서 matplotlib과 seaborn 사용 방법을 알려줍니다. 마지막으로 데이터를 이해하고 분석하기 위해 데이터를 시각화하고 요약하는 과정인 EDA를 통해서 데이터 분석에 대한 실제 적용 방법도 다룹니다.

책의 내용이 예제 위주로 구성이 되어 있어 데이터 분석을 처음 접하는 사람들도 쉽게 따라 할 수 있도록 구성되어 있습니다. 파이썬을 이용한 데이터 분석에 대한 기본적인 내용을 다루고 있어서 파이썬을 처음 접하는 사람들에게도 유용할 것입니다. 하지만 입문자에게 적합한 책이기 때문에 데이터 분석을 깊이 다루고 싶은 사람에게는 내용이 얕다는 느낌을 줄지도 모르겠습니다.

판다스를 이용한 데이터 분석 방법에 대해서는 다양한 내용을 다룹니다. 판다스를 이용한 데이터 전처리 방법, 데이터 그룹화 및 집계 방법, 데이터 병합 방법 등을 자세히 알려줍니다. 특히 판다스의 groupby 개념과 활용법을 비중 있게 다룬다는 느낌이 듭니다.

이 책은 다소 딱딱하게 느껴질 수 있는 데이터 분석에 대해서 기초를 최대한 빠르게 습득함과 동시에 실전에 적용할 수 있도록 해주는 길잡이로서의 역할을 해줄 것이라 생각합니다.

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

2. 이 책을 선택한 이유

요즘 데이터 분석에 대해서 공부하고 있는데, 엔지니어로서 서버 구축이나 데이터 정제작업 이러한 것을 이론적으로만 학습하다 보니,, 데이터 분석을 실제로 해보고 싶었는데, 기초적인 부분부터 다뤄주어서 매우 좋았음. 하지만 다룰건 다 다룬다 주요한 요소나 도구들이 있어서 처음 써본 것도 있었다.

3. 리뷰

일단 책의 난이도가 굉장히 쉽다... 음 아에 분석이나 개발 쪽 공부를 한번도 안해본 사람이라면 많은 도움이 될 수 있다. 하지만 어느정도 파이썬 문법이라거나 분석의 기초에 입각해 입문용 도서이다보니 깊이있는 전문 지식을 쌓기엔 다소 부족한 감이 있다. 저자의 말에서도 본인이 데이터 분석가가 아니고, 디자이너에서 시작해서 데이터 분석을 해야할 일이 있어 공부하며 정리하고, 이를 책으로 출판하게 되었다고한만큼 본인의 초보자 시절부터의 경험과 공부해온 스타일들이 책에 녹아들어 있다. 데이터 분석을 처음 접한다면 이 책 저 책 둘러볼 필요없이 처음 시도해보기엔 가장 쉽고 좋은 책인 것 같다.

4. 요약

  • 파이썬을 이용한 데이터 분석을 처음 해보는 사람에게는 굉장히 친절한 책이다.

  • 용어 자체를 상당히 쉽고 진입장벽이 낮게 잘 풀어냈다.

  • 코딩 조차 안해본 사람이 입문하기에 파이썬 기본 문법부터 알려주니 좋다.

  • 데이터 분석에 대한 깊은 이론적인 이해나 분석에 대한 더 큰 인사이트를 얻기엔 조금 부족하다.



어쩌다 데이터 분석 with 파이썬

pandas, numpy, matplot, 그리고 머신러닝

 

 

 

<이번 학기에>

이번학기에 복학을 했고요

지난 학기에 성적이 안 좋았던 머신러닝 강의를 재수강하였답니다!!

 

그런데 수업으로는 놓치는 부분도 있고 잘 이해가 안 되는데 교수님께 여쭤보기 애매할 때가 있는데요!

그럴 때 보조 교재가 있었으면 좋겠다라는 생각이 들었답니다!!

 

기존 수강 과목에서는 ppt를 제공해주셔서 책이 없거든요!!

 

그런데 마침 <어쩌다 데이터분석 with 파이썬> 책을 받게 되었는데,

이 책이 제가 듣는 강의의 내용이랑 90% 흡사해요!!

 

그래서 좋은 보조교재로 책을 잘 읽고 있었답니다ㅎㅎ

 

 

 

데이터분석, 머신러닝

출처 입력

요즘은 인공지능, 머신러닝 정말 핫한 거 같아요

여기에 chatgpt까지 나와서 AI 분야가 정말 불타는 고구마급인데요!!

 

사실 데이터분석에 관심을 가지게 된 건 사이버대학 재학시절에 수강했던

<데이터베이스> 과목 덕분이었어요!

개념적 스키마?그 구조부터 세워서 sql을 이용해서 그걸 데이터베이스화하는 내용의 수업을 들었는데요!

 

그 수업에서 과제를 해결할 때 그렇게 재밌더라고요

제가 구조화하고자 한대로 구조를 만들고 그게 실현되는 느낌이 너무 좋아서

뭔가 연관될 거 같은 머신러닝 수업을 들었는데 생각이랑은 조금 다르더라고요!!

 

혹시 저처럼 이런 경험을 하실 분들도 있으실 거라고 생각하고요

 

일단 데이터분석과 sql을 이용해서 데이터베이스를 만드는 건 조금 달라요

분석은 이미 있는 데이터를 분석하는 거고 데이터베이스는 데이터를 어떻게 베이스적으로 구성할 것인지에 대한 것이니까요!!

 

물론 배워보니까 둘 다 재밌어요!!

딱딱 맞아가는 느낌이 좋더라고요?

 

 

데이터분석 과정

문제를 정의 -> 데이터 수집 -> 전처리 -> 모델링 -> 시각화 

어떤 데이터분석 툴을 쓰냐에 따라서 중간에 알아야하는 지식의 정도는 차이가 있겠지만,

흐름은 보통 이렇게 가더라고요!!

<- 데이터분석으로 써본 플랫폼 브라이틱스, 아니면 파이썬

 

이 책에서는 이 과정 중에서 필요한 파이썬 라이브러리를 소개해주는 책인데요!!

 

 

 

<목차>

간단하게 보면

 

1 데이터 분석 준비

2 데이터 분석 기본

3 데이터 정제와 응용

4 데이터 병합과 재생성

5 데이터 집계와 그룹연산

6 날짜시간 데이터처리

7 데이터 시각화

8 데이터 분석 : EDA 실습

 

으로 구성됩니다!!

 

언어는 파이썬,

주피터노트북을 사용합니다!

 

간단히 말하자면,

출처 입력

파이썬이라는 언어를 통해서 데이터 분석에 활용한다는 뜻이잖아요!

데이터분석에 관심 있으시거나 파이썬으로 할 수 있는 또 다른 활동을 찾으신다면 이 책을 보시고

데이터분석에 도전해보시는 건 어떨까요?

 

책에 <추천의 말>을 보면 요즘은 자기 분야의 데이터는 스스로 분석하는 경우도 많다고합니다!!

여러모로 알아두면 좋을 데이터 분석 알아가셨으면 좋겠습니다!

 

++ 데이터분석을 더 알고 싶다면?

출처 입력

추천하는 국외, 국내 사이트 하나씩 집어드릴게요!

이미 알고 계실 수도 있는 유명한 사이트죠!

 

캐글과 데이콘입니다!

 

처음 프로그래밍 언어를 배우고 연습할 때 백준이라는 사이트 많이 들어가잖아요!

그런것처럼 데이터분석, 인공지능에 관심 있으시다면 캐글, 데이콘 강추드립니다!!

 

 

KakaoTalk_20230321_185608805.jpg

 

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."



"데이터 분석" 자체를 처음 해보는 사람의 경우 "이게 뭔지 왜 설명을 안해주지?" 하면서 머뭇거릴 수 있지만 약간의 구글링으로 해결 가능한 수준이기는 하다.

 

바꿔 말하면, 데이터 분석을 조금이라도 접해본 적 있는 사람에게는 아는 내용을 굳이 다시 설명하지 않고 "그래서 그것을 파이썬으로는 어떻게 하는가"에 초점을 맞춰 핵심적인 부분만 잘 추려낸 책이라고 할 수 있다.

그러면서도 첫 번째 장에서 데이터 분석에 대한 개요를 설명함으로써 데이터 분석을 처음 접하는 사람들도 어렵지 않게 접근할 수 있도록 하였다.

데이터 분석에 처음 입문하는 사람에게도 도움이 되지만, 데이터 분석에 처음 입문하는 사람보다는 엑셀 등 프로그래밍 외적인 데이터 분석을 어느 정도 접한 경험이 있는 사람이 "파이썬을 활용한" 데이터 분석이 처음일 때 특히 유용할 것 같다.

 

한빛미디어 〈나는 리뷰어다〉 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

 

세상은 이미 정보와 데이터로 넘쳐나는 시대이다

너무 많은 데이터와 정보가 있지만 정말 업무에 필요하고 나한테

필요한 정보와 데이터를 얻기란 쉽지 않은 일이다

그래서 빅데이타인 시대에 데이터분석은 정말 필요한 분야인 것이다

예전에 ADsP를 준비하면서 데이터분석 이론을 공부해 봤던 터라

어쩌다 데이터분석 with 파이썬이라는 책은 흥미롭고 반가웠다

 

책은 대체적으로 설명이 군더더기 없이 깔끔하고 예제도 심플하면서

보기가 편하여 초보자가 한 단계 한 단계 실습을 쫓아 가는 데 무리가

없어 보인다. 아마도 저자가 데이터분석 비전공자라 초보자의 눈에서

이해하기 쉽고 스텝 바이 스텝으로 따라가기 편하게 쓰셨다는 것이

느껴진다

이 책에 데이터분석에 필요한 기초적이고 중요한 것들을 책 전반에

걸쳐서 잘 다루고 있다 어떤 공부이든 한 번으로 자기 것이 되는 것은

쉽지 않을 것이다. 보고 또 보고 다시 보고 기초를 잘 다지면좋겠다

 

이 책 서문에도 있지만 이 책은 초중급용이다

데이터분석에 대한 관심으로 회사업무에 필요해서 데이터분석을

시작하는 사람들에게 이 책은 너무 어렵지 않게 시작할 수 있는 용기를

준다

데이터분석전문가가 되는 일은 많은 시간과 공부가 더 필요하겠지만

데이터분석이라는 분야에 입문하는 이들에게 이 책은 좋은 길잡이가 될

것이다 

 



한빛미디어 <나는 리뷰어다> 활동을 위해서책을 제공받아 작성된 서평입니다.”

 

이 책은 우선 저자의 실전 경험이 많이 묻어난 책이라는 느낌을 받았다. 왜냐하면 데이터 분석가로 일을 하다보면, 대부분의 시간을 데이터 정제하는데 시간을 보내게 되는데(한 90%의 시간을 쏟는다고 해도 과장이 아닐 정도이다) 이 책의 3장 데이터 정제와 응용 부분, 4장 데이터 병합과 재형성, 5장 데이터 집계와 그룹 연산, 6장 날짜시간 데이터 처리가 데이터 정제 관련한 내용들로 채워져있기 때문이다. 무려 절반에 가까운 지면을 할애하고 있다.

특히 문자열 데이터를 처리하는 방법과 groupby() 함수 부분이 자세히 잘 나와있다. groupby() 함수를 특히 여러 다른 함수와 같이 활용하여 데이터를 집계하는 예시가 많이 나와있어 마음에 들었다(시중에 있는 책이나 인터넷을 검색해보면 groupby()에 관해 간단한 예시만 나와있는 경우가 허다하다). 7장에는 데이터를 분석하는 방법과 관련된 데이터 시각화를 다루고 있는데, x축, y축 레이블 설정하기, 범례 표시하기, 범위 정하기, 컬러 지정하기, 라인 스타일 정하기 등 각 그래프를 그리는데 필요한 여러 함수들이 예시와 함께 나와있고, 라인그래프, 히스토그램, 막대그래프, 산점도, 박스플롯, 바이올린그래프 등 다양한 그래프를 망라하고 있어 좋았다. 마지막장인 8장은 실전 예제가 나와있는데, 실제 데이터 분석가가 하는 것처럼 데이터를 살펴보고, 결측값을 처리하고, 데이터를 전처리한 후 앞에서 나오지 않았던 시각화 함수를 사용하여 데이터를 분석하는 것도 나오고 해서 매우 유익하였다.

 

※ 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

1. 파이썬으로 데이터 분석과 시각화를 공부하는 책이다.
 
2. 파이썬 기초를 배울수 있다.
 
3. 파이썬으로 데이터 분석과 시각화 하는 방법을 배울수 있다.
 
4. 취업에 도움이 된다.
 
5. 데이터 분석가가 되기 위한 첫걸음의 책입니다.

데이터 분석 과정에 대해 자세하고 쉽게 설명하고 있는 책입니다.

 

데이터를 분석하기 위해서는 먼저 데이터의 특성을 파악하고 가공하는 과정이 필요합니다.

(내 마음에 맞게 예쁘게 다듬어진 데이터를 만나는 일은 매우 드문 일 입니다.)

 

데이터를 살펴보고 내가 원하는 모양으로 만들기 위해서 넘파이, 판다스 등 파이썬 모듈을 주로 사용합니다.

판다스, 넘파이 등을 익숙하게 다룰 수 있어야 쉽게 내가 원하는 대로 데이터를 가공해 볼 수 있습니다.

 

이 책에서는 데이터 로드, 전처리, 집계, 시각화까지 일련의 과정을 정말 친절하게 설명하고 있습니다.

데이터 분석을 시작하거나 판다스, 넘파이 등이 손에 익지 않으신 분들에게는 정말 좋은 도서라고 생각합니다.

 

마지막 부분에 EDA 실습이 있었는데 내용이 조금 짧아서 아쉬웠습니다.

데이터 분석을 쉽고 빠르게 배울 수 있는 책이여서, 추천드립니다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

최근 국내 데이터 산업의 시장규모는 20조원을 돌파했고 최근 3년간의 연평균 시장 성장률은 11.3%라고 한다. 

 

데이터를 의사결정에 활용하는 산업이 늘어남에 따라 데이터 직군의 수요는 계속 늘고 있다고 하는데 막상 데이터 분석의 실무를 접해볼 수 있는 일은 쉽지 않다.

 

“어쩌다 데이터 분석” 은 저자 본인이 데이터 분석을 밑바닥 부터 공부한 경험을 바탕으로 하여 데이터 분석 과정에 대한 합리적인 학습 과정을 제시 한다. 또한 초심자 때 우선적으로 배워야 할 핵심 내용 및 같이 배우면 좋을만한 내용을 수록 했다.

 

책의 특징 적인 내용은 아래와 같다.

 

#데이터 분석 

친절하게도 데이터 분석의 세계를 설명하는 것으로 시작 한다.

데이터 분석은 정보 또는 인사이트를 도출 하거나 패턴을 찾기 위한 목적으로 분석 언어나 알고리즘을 활용 하여 원본 데이터로부터 결론을 이끌어 내는 작업이다. 데이터 분석 과정을 5단계로 나누어 설명 하고 데이터 분석에 왜 파이썬을 사용하는 지에 대해서도 설명 한다.

 

#파이썬

간단히 파이썬 사용법에 대해서도 설명하지만 정말 간단하기는 하다. 또한 데이터 분석을 위해 사용하는 파이썬의 라이브러리 4대장을 소개 하고 기본적인 사용법 및 활용법을 배운다.

 

- 넘파이 (NumPy) : 산술 계산과 통계 작업의 기본 

- 판다스 (pandas) : 구조화된 데이터를 처리 하는 방대한 기능을 제공 하는 라이브러리 

- 맷플롯립 (matplotlib) : 판다스와 잘 연동되는 기본적인 시각화 라이브러리

- 시본(seaborn) : 맷플롯립을 토대로 돌아가는 고급 데이터 시각화 라이브러리

 

#EDA

EDA는 수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정으로 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정이다.

 

최종장에서는 넷플릭스의 데이터를 가지고 EDA 과정에 중심을 둔 데이터 분석 과정을 실습 하는 것으로 마무리 한다. 실제 데이터 분석 과정을 설계하기 전에 반드시 필요한 과정으로 이 과정을 거쳐서 좀 더 효율적이고 적합한 데이터 분석 과정을 설계 할 수 있다. (데이터 분석 과정 설계는 이 책의 수준을 벗어나는 부분이다.) 

 

#추천대상

데이터 입문자에게는 더할나위 없는 선택이다. 혹시 아래 중 하나에 해당한다면 꼭 한번 읽어 보기를 권한다.

 

1) 데이터 직군 커리어를 준비하는 취업준비생

2) 파이썬 기초를 알고 있지만 어떻게 활용 해야 할지를 모르는 초급 개발자 

3) 자고 일어나 보니 데이터 분석을 시작 해야 하는 직장인

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.”

데이터분석 하면 R도 있었고, Matlab도 있었고, 다양한 툴들이 있었지만, 그래도 가장 많이 찾는 분석 도구는 '파이썬' 인 것 같습니다. 처리 속도가 C언어 만큼 빠르거나 데이터가 웹 처럼 예쁘게 나오는 것은 아니지만, 그래도 파이썬을 쓰는 이유는 이 책의 제목 처럼 "어쩌다 데이터 분석"을 맡게 되는 전문가가 아닌 사람들을 위해 쉽고 빠르게 분석 작업을 할 수 있기 때문이 아닐까 합니다. 

만약 이미 파이썬 책을 봤다면 챕터 1은 가벼운 마음으로 봐도 좋을 것 같습니다. 

1.5.2의 오픈 데이터셋이 있는데, 데이터를 공부하고 싶은데 막상 처리할 데이터가 없을 때 유용한 오픈데이터셋 홈페이지가 많습니다.  국내에서 개인정보 등 법적인 문제 없이 마음껏 쓸 수 있는 데이터는 공공 데이터 포탈이지만, 외국 사이트의 경우 정말 방대하고 다양한 데이터를 접할 수 있습니다. 

 

2장의 데이터 분석 기본은 numpy와 pandas의 기본을 배웁니다. pandas의 경우 공식문서만 두꺼운 백과사전의 분량이지만, 책에서는 필요한 부분만 핵심적으로 알려줍니다. pandas는 pandas의 방식대로 데이터를 정제 해야 나중에 다중포문으로 데이터를 처리하는 수고를 덜 하게 됩니다.

 

4장은 데이터의 병합이 있는데, 개인적으로 단순한 데이터보다는 1장에서 안내했던 공공데이터로 예시를 했으면 더 좋았을 것 같은 아쉬움이 있습니다

 

6장 날짜시간 데이터 처리는 초보자에게는 정말 유용한 정보가 많이 있습니다. 날짜 및 시간에 관한 처리는 단순히 숫자 계산도 아니고 텍스트 처리도 아닌 것이 자신이 원하는 대로 포맷을 만드려면 처음에는 많이 헤매게 됩니다. 다른 책에서는 이런 시간 데이터 처리를 한 두 장에 간단히 소개만 하는 경우도 있지만, 이 책에서는 6장 하나만으로 이 책을 읽어야 할 이유는 충분합니다. 

 

이 책의 가장 좋은 점은 번역본이 아니라, 글이 쉽게 읽혀지고, 초보자에게도 어렵지 않게 이해할 수 있다는 점입니다. "어쩌다 데이터 분석을 하게 되는" 많은 분들에게 도움이 될 것 같습니다. 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

저자가 데이터 분석에 대한 비전문가 입장에서부터 배워나간 경험을 녹여낸 내용으로, 도서의 제목과 표지 디자인에서부터 기술적 기반이 없는 이들을 대상이 선택할 수 있도록 만들어졌습니다. 책 내용에서 지은이의 데이터 분석 입문을 위한 생각과 방법을 잘 설명해 가고 있습니다.

 

다루고 있는 기술은 (1) 입문자를 위한 도서를 통해 학습하기에는 시간이 오래 걸리고 (2) 본격 데이터 분석 도서나 머신러닝 입문서를 통해 학습하기에는 내용이 어렵고 설명이 친절하지 않은 문제가 있습니다. 파이썬 기초, 파다스, 넘파이, 팻플롯립, 시본 모두가 그렇습니다. 본 도서는 데이터를 통해 통찰력을 얻기 위한 충분한 기술을 설명하면서 철저하게 입문자의 시각을 고려해 만들어졌습니다. 저자가 아무래도 비전문가 입장에서 바닥부터 다지고 쌓아 올린 경험을 했었기 때문에 누구보다도 입문자의 시각을 잘 고려할 수 있었습니다.

 

 

친절하게 설명한 파이썬의 기본기와 각종 라이브러리를 통해 데이터를 필터링하고 다양하게 변경해 보며 결측값/이상값 처리, 병합, 연산 등 가공하는 방법을 알아보며, 맷플롯, 시본을 통해 효과적으로 시각화하는 방법을 실습합니다.

 

전체적으로 일반적인 데이터 분석에 필요한 기본 기술요소들을 친절히 알아본 다음 마지막 장 넷플릭스 데이터셋으로 데이터 전처리와 시각화의 연습문제를 짧게 경험하는 것으로 도서가 구성되어 있습니다. 

 

내용과는 별개로, 글자로 빽빽하게 구성되어 입문자 입장에서 숨막히는 정독 시간 인내 하는 일부 기술서적과는 다르게 컬러에 질과 느낌이 좋은 종이로 구성이 되어 있고, 친절한 설명과 여유 있는 여백으로 내용외적으로 부담없이 초급 레벨의 데이터 분석가로 레벨업 할 수 있습니다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

안녕하세요 마개입니다.

 

이번에 소개해 드릴 책은 "어쩌다 데이터 분석 with 파이썬"입니다.

해당 책에 대해 알아보도록 하겠습니다.

 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

도서 소개

* 도서명 : 어쩌다 데이터 분석 with 파이썬

* 지은이 : 김유지

* 출판사 : 한빛미디어

* 출간 일자 : 2022-09-29

* 페이지 : 412쪽

* 가격 : 정가 28,000원

 

파이썬을 이용한 데이터 분석과 머신러닝, 딥러닝 등 데이터 관련 업무에 대한 열기는 식지 않고 아직도 핫할 정도로 여전히 인기가 많습니다. 요즘에 나오는 책들의 경우 특정 주제를 정하고 그 주제를 파이썬으로 풀어나가는 방식이 많다면 해당 책은 이러한 분석을 할 수 있도록 기초를 다질 수 있는 책입니다. 이번 책을 통해 다시 기초를 다지며 복습을 하고 몰랐던 부분도 새로 알아갈 수 있었습니다.

넘파이와 판다스의 기초적인 사용 방법뿐만 아니라 공통적으로 많이 사용하는 데이터 정제와 이상값/결측값 처리, 시각화 등 데이터 분석의 시작부터 끝을 여러 상황에 맞춰 다양하게 사용하는 방법들에 대해 알 수 있습니다. 400쪽 정도 되는 분량에 상당히 많은 부분이 담겨 있어 여러 정보가 잘 담겨있다고 볼 수 있습니다.

 

 

총평

저자님이 데이터 분석이 전공은 아니라고 하였지만 여러 프로젝트와 과제를 통해서 익히신 만큼 노하우가 보입니다. 집필 기간이 1년 반이 걸렸다고 할 만큼 책 속의 내용들에는 많은 고민의 흔적이 보이고 많은 내용들을 담고자 노력하신 것이 보입니다.

책의 내용들은 정리가 잘 되어 있고 전부 컬러로 되어있어 눈에 쉽게 들어올 수 있었습니다. 데이터 분석에 대해 다시 기초를 다지거나 입문을 하고자 하는 분들에게 추천드립니다.

 

데이터 분석이라는 단어는 이제 전공자가 아니라도 익숙한 것 같습니다. 의무교육 수준에서도 데이터 분석에 대해 배워나가는 중인데, 그만큼 많은 데이터들이 범람하고 있는 세상에서 어떤 데이터가 좋고 어떻게 활용하는 것이 바람직한지에 대하여 고민하는 것이 필수이겠습니다. 그만큼 활용도가 높은 분야라고도 생각이 드는데요.

 

 

이 책은 파이썬을 이용한 데이터 분석에 관심이 있는 입문자들을 대상으로 합니다. 파이썬에 대한 기본 문법에 대해선 간략히 나와있지만 미리 알고 있다면 정말 쉽게 접근할 수 있을 것이고, 그렇지 않더라도 앞 부분을 따라오며 문법에 대해 간단히 익혀나가면 좋겠습니다. 초급과 중급 사이의 수준이라고 보면 되겠습니다.

 

 

이후 데이터 분석이 무엇인지 살펴보고 도대체 왜 해야하는지, 그리고 파이썬을 활용한 데이터 분석의 이점이 무엇인지 알아가는 시간을 가질 수 있습니다. 데이터 분석 준비, 기본, 정제 및 응용 과정을 거치며 처리 및 가공 과정에서 데이터 필터링 및 정렬 방법에 대하여 배울 것입니다. 이후 데이터를 병합하거나 재형성, 그룹 연산, 날짜시간 데이터 처리, 시각화, 실습 과정 등을 거치며 데이터 분석에 대하여 편하고 부담스럽지 않게 접근할 수 있습니다.

 

데이터가 쌓이며 많은 기회와 생태계가 펼쳐질 수 있지만, 어떤 것이 가치있는 데이터인지 확인하는 것은 매우 어렵습니다. 그렇기에 데이터 관련된 일은 전문적이고 중요한 일일 수 밖에 없다고 책은 이야기 합니다. 하지만 접근성이 높아졌다는 점은 분명한 장점이고, 전공자가 아니더라도 필요할 경우 쓰일 수 있단 점에서 매우 좋다고 이해됩니다.

 

 

데이터 분석 과정은 처음에 정의와 분석 방안 계획을 하고 이를 수집, 정제하여 탐색과 분석을 가집니다. 이후 이를 해석하여 피드백을 주고 다시 돌리는 과정을 가지는데요. 이 책은 해당 프로세스에 대하여 천천히 알려주되 너무 전문적인 내용으로 빠지진 않고, 준비된 데이터셋을 대상으로 어떤 구조와 타입인지, 어떻게 정제하는지, 그리고 어떤 각도로 데이터를 바라봐야 하는지 수준에서 알려준단 점에서 부담스럽지 않게 읽을 수 있겠습니다.

 

해당 책을 통하여 데이터 분석을 하면 무엇이 좋은지, 혹은 데이터 분석에 관심이 많지만 도대체 어떻게 접근하면 좋을지 고민하시는 분들께 좋은 책이며, 천천히 프로세스를 따라 문제를 하나씩 해결한다면 어느덧 데이터에 대하여 접근하는 나만의 방식이 생기는 것을 알 수 있지 않을까? 라는 생각이 듭니다.

물론 구글링을 하면서 공부해보는 것도 좋은 방법이지만, 기본서 하나 가지고 있으면 든든하고 빠르게 원하는 지식을 습득할 수 있다. 입문은 책의 힘을 빌리고, 구글링하고 프로젝트 해보며 지식을 늘리는 건 참 흥미롭고 빠른 학습을 돕는다고 생각한다. 그런의미로 이 책은 하나쯤 가지고 있으면 참 든든하다.

Author: 김유지 지음

출판사: 한빛미디어

Score /5: ⭐️⭐️⭐️⭐️⭐️

 

저는 기승전결이 뚜렷하게 구분되고 친절한 책을 좋아합니다. 그런 의미에서 개인적으로 이 책은 저에게 알맞은 책이었습니다.
개발환경 설정부터 데이터 분석을 위한 파이썬 기본 문법과 클라이맥스인 파이썬을 활용한 분석까지 하나의 이야기가 시작되고 끝나듯 홀린듯 책을 읽은것 같습니다.

그렇다면 전체적인 부분을 설명해야 하기 때문에 책이 두꺼워지고 복잡해질 수 있을거란 생각을 가지는 분들도 많을 것 같습니다. 이 책은 확실하게 복잡하지 않다고 설명할 수 있을것 같습니다. 약 400여 페이지속에서 데이터분석에 대한 내용을 같이 다룬다는게 정말 쉽지 않습니다. 짧은 지면속에 내용을 담게되면 내용이 어려워지거나, 아니면 지면이 길어지면서 장황해지거나 이렇게 진행이 될터인데 이 책은 간결하게 독자들에게 내용을 전달합니다.

데이터 분석의 세계는 미지의 세계처럼 느껴지는 경우가 많습니다. 그래서 저 같이 해당 분야에 문외한인 독자들은 접근하기 쉽지 않습니다. 저와 같이 이런 미지의 두려움을 느끼셨던 독자분들은 이 책을 통해서 당당하게 두려움을 돌파 하셨으면 좋겠습니다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


 

20221030_112516.jpg

어쩌다 데이터 분석은

효율적인 데이터 분석 및 시각화에 대해 초심자(초상)의 눈으로 이야기하는 책이다.

판다스와 다양한 파이썬 라이브러리,

저자는 현업에서 필요한 데이터 분석에 대해 잘 알고 있는 듯 하다.

어떤 내용이 필요 한가를 잘 이해하고 잘 설명하고 있다.


이 책은

다른 책의 유형과 비슷하기는 하다. 시작은 파이썬으로 데이터 분석을 위한 준비로 무엇이 필요하고 그 준비를 통한 기본 내용과 핵심 라이브러리를 잘 설명해 주고 있다.

데이터 분석의 기본

데이터 분석에 필요한 가장 필수적으로 알아야 하는 라이브러리를 설명하고 사용하는 다양한 예제를 보여준다. 이 장을 통해서 데이터 처리의 기본적인 방법을 이해하도록 하고 있다.

데이터 정제와 응용

데이터를 처리하고 가공하는 다양한 방법이 존재하는데 저자는 초심자들도 쉽고 이해하기 쉽게 다양한 함수를 기본으로 사용하는 방법에 대해 잘 설명하고 있다.

데이터 병합과 재형성

초보자들이 데이터프레임을 연결하고, 다양한 방법으로 활용 가능한 방법을 자세하게 설명해준다. 또한 데이터 병합이나 재형성의 후 처리 방법도 빼놓지 않고 설명한다.

데이터 집계와 그룹 연산, 날짜시간 데이터 처리

판다스를 활용한 그룹화의 개념부터 활용법을 다양한 요약과 집계 처리를 통해 학습 하도록 한다. 지루하지 않다. 그리고 시계열 데이터를 다룰때 필요한 것들과 날짜 처리 시간 처리 등 데이터 타입에 대해 배우고 인덱스에 대한 내용도 빼놓지 않고 잘 설명하고 있다.

데이터 시각화

파이썬의 꽃이라고 할 수 있는 데이터 시각화이다. 맷플롯립을 활용해서 시각화에 대해 필수적으로 알아야하는 것들에 대해서 아주 자세하고 쉽게 잘 설명해준다.

그리고 가장 많이 활용되는 시본에 대해서도 주요 그래프등을 통해서 다양한 시각으로 잘 보여준다.

이렇게 이 책은 파이썬으로 데이터 분석을 해보고자 하는 초보자는 물론이고 데이터 분석에 대해서 다양한 시각으로 접근해서 쉽게 학습할 수 있는 그런 책이다. 입문자는 쉽게 학습할 수 있을것이고 이미 어느정도 알고 있는 독자라면 다양한 예제와 친절한 설명으로 막막하게 느껴질 수 있을지도 모르는 데이터 시각화에 대해서 또 다른 안목을 키워줄 수 있는 그런책이라고 본다. 옆에 두고 잘 기억이 나지 않을 때 바로 펼쳐 바로 사용할 수 있을 정도록 잘 정리가 되어 있는 책이라 적극 추천한다.


"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

왜 제목이 "어쩌다.." 일까 궁금했는데 작가 소개를 보니 알 듯하다 미디어디자인 전공인 그녀가 "어쩌다" 파이썬을 스터디하고 책까지 쓰게 된...^^ 나도 화학을 전공하고 전업으로 살다 여기로 뛰어들었으니 어쩌다인 셈이라 왠지 마음이 간다 책의 대상은 파이썬 문법을 기본으로 알고있는 사람으로 잡혀있어서 파이썬 기본문법은 다른 곳에서 봐야할 듯하다 하지만 필요한 기본 문법은 정리가 되어있다 파이썬은 쥬피터노트북을 기본으로 하지만 구글 코랩도 할 수 있다고 설명되어있다 데이터 분석에 필요한 넘파이, 판다스, 맷폴립, 시본 모듈에 대해 간단히 소개하고 뒤에서 예제를 통해 설명이 되어있다 데이터분석 스터디 한 지 일 년 정도 지났는데 다시보니 아 이런 것도 있었지 싶다 내용정리가 잘 되어있고 예제가 쉬운 편이라 데이터 분석 시작하는 분들은 봐도 좋을 듯 하다 이 책에선 날짜시간 데이터 처리가 따로 정리되어있다. 그래서 날짜나 시간대별로 정리된 데이터들도 분석하는데 문제 없겠다. 데이터 시각화부분에서도 각각의 그래프에 대해 설명하고 있는데 길고 장황한 설명보다 짧고 간결한 설명으로 되어있어 전달이 잘 되는 듯 하다 실전에선 넷플릭스 데이터셋을 이용한 분석이 있는데 요즘 관심있어할만한 내용이다. 전반적으로 긴 글보다 짧고 간결한 문장으로 내용 전달이 잘되고 정리가 잘되어 있는 책이다 (((((나는 리뷰어다))))) 활동으로 책을 제공받았습니다

 


[도서 소개]

파이썬 데이터 분석은 처음EASY?

판다스 핵심 레시피와 예제로 익히는 파이썬 데이터 분석 기초!

이 책은 파이썬 데이터 분석을 위해 반드시 알아야 하는 판다스, 넘파이, 맷플롯립, 시본 등 파이썬 핵심 라이브러리를 사용해서 효과적으로 데이터를 분석하고 시각화하는 방법에 대해 다루고 있다. 파이썬 데이터 분석 입문자를 위해 일반적인 데이터 분석 과정으로 내용을 구성했으며 데이터 분석을 위한 중요한 핵심 함수와 처리 과정을 쉽고 간결하게 설명하고 있다. 마지막으로 넷플릭스 데이터셋으로 실무에 적용 가능한 데이터 전처리 및 시각화 과정을 실습해본다.

 

[주요 내용]

- 판다스, 넘파이, 맷플롯립, 시본 등 파이썬 핵심 라이브러리를 사용해서 효과적인 데이터를 분석과 시각화 방법을 다룹니다.

- 파이썬 데이터 분석 입문자를 위해 일반적인 데이터 분석 과정대로 내용이 구성되어 있고 중요한 핵심 함수와 처리 과정을 쉽고 간결하게 설명한다.



[대상 독자]

- 데이터 분석가

- 데이터 엔지니어

- 데이터 분석에 관심이 많은 개발자


[같이 보면 좋은 책]


  • 데이터가 뛰어노는 AI 놀이터, 캐글 -한빛미디어

  • 파이썬 증권 데이터 분석 - 한빛미디어


[추천사]

  • 김정용 (SK하이닉스 | AI 엔지니어)
    요즘은 데이터 분석 전문가가 아니더라도 자기 분야의 데이터 분석을 스스로 하는 시대이다. 다만 일반인도 처음부터 따라 하기만 하면 데이터 분석의 기초를 갖출 수 있는 책이 많지 않아 아쉬움이 있었다. 이 책은 파이썬과 데이터 분석을 처음 접하는 입문자가 기본서로 삼아 공부하기에 적합한 내용으로 구성되어 있으며 비전문가의 눈높이에 맞는 적절한 예제로 쉽게 설명하고 있다. 특히 공식 문서에는 나오지 않지만 알아두면 좋은 팁과 초보자가 하기 쉬운 실수에 대한 조언이 가득 담겨 있다는 것이 이 책의 가장 큰 장점이다.

  • 남상구 (인텔 | 소프트웨어 엔지니어)
    개발, 마케팅 등의 업무를 담당하는 사람뿐 아니라 일반인도 데이터를 다뤄야 하는 시대이다. 이 책은 초보자도 쉽게 데이터 분석에 입문할 수 있도록 도와주는 백과사전이다. 데이터 분석을 위한 환경 구성부터 기초 및 고급 지식을 습득할 수 있는 다양한 예제가 마련되어 있으며, 마지막 장의 EDA 실습을 통해 실전에 빠르게 적용할 수 있도록 도와준다. 데이터 분석의 기초를 최대한 빠르게 습득함과 동시에 실전에 적용하고자 하는 독자에게 이 책을 강력히 추천한다.

  • 이제현 (한국에너지기술원 플랫폼연구센터 | 선임연구원)
    파이썬을 이용한 데이터 분석과 머신러닝을 배우기 시작하면 어렵게 느껴지는 고비가 몇 군데 있다. 그중 하나가 판다스를 사용해 데이터를 다룰 때이다. 처음엔 판다스를 사용해 데이터를 읽고 쓰면서 그 편리함과 예쁜 표로 시각화된 모습을 보며 신세계를 만난 기분이 들지만 본격적으로 데이터를 가공하고 집계하다 보면 데이터 앞에서 작아지는 자신을 보게 된다. 판다스는 짧은 시간 동안 집중해서 익히는 라이브러리가 아니다. 다루는 데이터에 따라 각기 다른 대응법을 끊임없이 배워야 하는 존재이다. 이 책은 판다스의 중요한 기능이 적절한 예제에 함께 간결하게 정리되어 있다. 판다스를 빨리 익혀야 한다는 조바심은 잠시 내려두고 이 책을 통해 판다스의 필요한 기능을 하나씩 배워보기 바란다

  • 하송미 ((주)네피리티 | 데이터 분석 엔지니어)
    데이터 분석, 어디서부터 어떻게 무엇을 배워야 할지 참 막막하게 느껴질 것이다. 이런 고민을 가지고 있는 독자에게 알맞은 설루션으로 이 책을 추천한다. 입문자에게 파이썬 핵심 라이브러리 사용법을 비롯하여 필요한 것만 알려주어 학습 시간을 아껴주고, 쉽게 설명하고 있어 데이터 분석의 진입 장벽을 조금이나마 낮춰준다. 책을 덮을 즈음에는 데이터 분석에 대한 자신감이 생기게 될 것이며, 이 책이 데이터 분석가라는 초행길의 믿음직스러운 길잡이가 되어줄 것이다.

  • 조준호 (한국고용정보원 | 데이터 분석가)
    프런트엔드 개발자로 성장하고자 하는 독자라면 한 권쯤 꼭 가지고 있으면 좋을 안내서이다. 개발자라는 긴 여정을 시작하는 초심자를 위해 개발 환경 설정부터 현업에서 주로 사용하는 데이터 형태와 타입 그리고 분석 기법을 군더더기 없이 단계별로 예제와 함께 풀어주고 있다. 이 책에서 안내하는 단계별 여정대로 잘 따라간다면 길을 잃을 일 없이 어느새 자연스럽게 데이터 분석을 하고 있는 자신을 볼 수 있을 것이다.

  • 이단비 ((주)이팝콘 | 데이터 분석가)
    이 책은 한 마디로 판다스 기초 백과사전이라고 할 수 있다. 상세한 설명과 다양한 예제를 통해 데이터 분석 초심자가 데이터프레임을 활용한 분석 과정에서 막힐 수 있는 부분을 자세하게 설명해주고 있기 때문에 처음 데이터 분석을 시작하려는 독자에게 추천한다. 또한 다양한 데이터프레임 사용 방법을 숙지할 수 있고 다시 한번 기초를 다지는 기회가 될 수 있기 때문에 데이터 분석을 경험한 독자에게도 많은 도움이 될 것이다



[서평]

판다스는 파이썬 환경에서 데이터를 분석하기에 최적화 된 오픈소스 라이브러리이다. 이 책은 파이썬 데이터 분석을 위한 준비 과정과 알아야 하는 개념 그리고 판다스 핵심 기능과 데이터 시각화 기초까지 다룬다. 또한 파이썬 데이터 분석에 필요한 핵심 레시피를 익힌 뒤 넷플릭스 데이터셋으로 실무도 경험해본다. 현업에 적용할 수 있는 EDA를 실습하고 데이터 간 유의미한 상관관계를 분석하며 데이터 분석 역량을 기를 수 있도록 도와준다.

이 책의 구성은 1장_데이터 분석 준비에서 데이터 분석이 무엇이고 어떻게 진행되며 어떤 역량이 필요한지 살펴본다. 그리고 파이썬 데이터 분석을 실행하기 위한 개발 환경을 구축한 뒤 이 책을 읽는 데 필요한 파이썬 기본 내용과 핵심 라이브러리에 대해 알아본다.

2장_데이터 분석 기본에서는 파이썬에서 데이터 분석을 하기 위해 가장 필수적으로 알아야 할 라이브러리인 넘파이와 판다스의 기본 사용법을 학습한다. 데이터를 불러오고, 생성하고, 선택하고, 골라내고, 삭제하고 새로운 모양으로 변경하는 등 기초적인 데이터 처리 방법을 배운다. 3장_데이터 정제와 응용에서는 데이터를 처리하고 가공하는 다양한 방법을 몇 가지 카테고리로 분류해서 배운다. 먼저 상세한 조건으로 데이터를 추출하거나 다른 함수를 활용하여 데이터를 필터링하는 기법과 정렬 테크닉을 알아본다. 그다음 결측값이 생기는 원인과 판다스로 결측값을 확인하고 처리하는 방법에 대해 익힌 뒤 이상값을 확인하고 처리하는 방법을 살펴본다. 4장_데이터 병합과 재형성에서는 서로 다른 데이터프레임을 연결하고, 합쳐진 데이터프레임을 다시 다른 모양으로 변경하는 학습을 한다. 판다스의 함수를 통해 흩어져 있는 데이터를 연결하고 병합하는 방법을 익힌다. 그리고 테이블 형식의 데이터를 다양한 방식과 기준으로 데이터를 재배치하거나 피벗하는 방법을 학습한다. 마지막으로 데이터 병합이나 재형성 후의 처리 방법에 대해 다룬다. 5장_데이터 집계와 그룹 연산에서는 판다스의 groupby 개념과 활용법을 배우고 데이터를 그룹별로 나누어 요약 및 집계를 해본다.

또한 판다스에서 피벗 테이블과 그룹 빈도를 계산하는 크로스탭을 활용한 분석에 대해서 알아본다. 6장_날짜시간 데이터 처리에서는 판다스에서 사용하는 시계열 데이터 종류인 datetime과 관련하여 날짜와 시간에 대한 기초 지식을 학습한다. 날짜시간 데이터를 다룰 때 기초적으로 알고 있어야 할 데이터 타입에 대해 배우고 인덱스와 관련있는 몇 가지 주요 처리 방법에 대해 익힌다. 7장_데이터 시각화에서는 대표적인 파이썬 데이터 시각화 라이브러리인 맷플롯립과 시본을 알아본다. 먼저 파이썬으로 데이터 시각화를 할 때 필수적으로 알아야 할 맷플롯립의 핵심을 학습한다. 그다음 많이 활용되는 시본의 주요 그래프에 대해 배워본다.

8장_데이터 분석: EDA 실습에서는 앞에서 배운 기술을 어떻게 사용하고 응용되는지 익히기 위해 데이터 분석 실습 과정을 진행한다. 분석하려는 데이터의 특징을 파악하여 적합한 전처리 기법을 적용한 후 데이터를 더 잘 이해할 수 있도록 다양한 시각화 작업을 해본다.

 

이책의 저자는 데이터 분석을 전공자가 아니지만 현재 전문적인 데이터분석 분야에서 활약을 하고 있다. 데이터 분석 전공자가 아니지만 현재 데이터 분석 분야에서 일하는 분들에게 겪을 고민과 궁금한 내용을 책에 잘 녹여 진거 같다. 데이터 분석에서 가장 기본인 파이썬과 판다스에대해서 꼭 필요한 문법만 설명을하고 데이터 가공, 처리에 가장 필요한 지식에 중점을 주고 맥을 잘 짚어 주고 있다. 이책을 시작으로 데이터 분석을 길을 한번 시작해보는것을 추천 합니다.

 

 

 "한빛미디어 리뷰어 활동을 위해서 책을 제공받아 작성된 서평입니다."


머리가 나쁘면 몸이 고생한다는 말이 맞는 것 같다.

판다스는 이미 나의 이 얄팍한 지식을 대비해서 다 함수를 만들어 두었다.

아마 이 책을 접하지 못했다면, 계속해서 내 나름대로 딕셔너리를 쓰면서 데이터들을 만지고 있었을 것 이다.

이번 리뷰를 통해서 아직도 갈 길이 멀다는 것을 느끼는 리뷰가 되었고........

아 너무 자기 성찰만 한 것 같다.

일단 처음 말했던 이 책의 대상독자는 데이터 분석가 입문자들을 위한 책이라고 언급한 것 처럼,

현재 데이터 분석에서 널리 쓰이는 pandas에 대해서 백과사전 같은 책이라고 생각이 된다.

하지만 pandas뿐만이 아니라, matplotlib, seaborn을 활용한 시각화관련 예시들도 존재하고,

무엇보다 마지막 챕터의 EDA 실습을 통해서 앞서 배운 내용들을 연습해보는 것이 좋은 것 같다.

​자세한 내용은 블로그를 참고해주세요https://blog.naver.com/ab415/222914391040

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

책을 읽기 전에

‘어쩌다 데이터 분석’이라는 제목과 표지의 일러스트가 인상적이었습니다. 데이터 분석에 처음 입문하는 사람들도 부담 없이 집어들 수 있는 책이라는 느낌을 받았습니다.

낮은 눈높이와 높은 퀄리티

책의 도입부에서는 디자인 전공자인 저자가 어쩌다 데이터 분석에 입문하게 되었는지, 또한 그 과정에서 익힌 효율적인 학습법은 무엇인지 소개하고 있습니다. 마찬가지로 본문에서도 용어 정의가 필요하거나 해당 기술이 왜 필요한 것인지 의문이 생길 수 있을 때, 쉽게 공감할 수 있는 언어로 풀어서 설명해주는 점이 좋았습니다.

입문서 이상의 탄탄한 구성

단순히 판다스를 이용한 예제 몇 가지를 다루는 정도의 내용만을 기대하면 오산입니다. 데이터 분석의 정의와 필요성부터 넘파이 문법 등 기반을 이루는 내용부터 시작해, 전처리, 병합, 그룹 연산 등 데이터를 다루려면 꼭 알아야 하는 기능을 꼼꼼히 서술하고 있습니다. 또한 데이터 처리에서 그치지 않고, 맷플롯립을 사용한 데이터 시각화와 실습 예제까지 담고 있는 올인원 도서라고 볼 수 있습니다.

 

데이터 분석에 관심 있는 입문자와 기초를 다지고 싶은 이라면 어쩌다 데이터 분석 with 파이썬을 (어렵겠지만) 읽어보길 권하고 싶다. 기본적으로 앞장은 파이썬을 사용하는데 필요한 기본 문법 등을 다루고 있으며 공부를 계속 이어나갈수록 실질적인 데이터를 다루기 위한 각종 지식을 접하게끔 구성되어있다.(따라서 상당히 지루하게 느껴진다. 이게 어디에 쓰이는지도 모르는 개념들을 접하게 되니 자연스럽게 생기는 현상이긴 하지만..)

# 어쩌다 데이터 분석 with 파이썬: 판다스로 시작하는 효율적인 데이터 분석 및 시각화

기본을 다루는 책이다 보니 정말 기본에 충실하다는 인상을 받게 되었다. 데이터에 관해 문외한이라면 좋은 책이지만 인내력을 요하는 책이라는 생각이 들었다. 이미 관련 업종에서 일하는 종사자들에게는 새로울 것이 없을 수도 있지만, 이제 발을 들여놓는 사람이라면, 정말 관심이 없다면 이 책은 큰 효용성을 발휘하지 못할 것이라 생각되었다. 책에서 언급되어 있듯 초중급자를 대상으로 하고 있는데 지극히 개인적인 견해지만, 책의 내용이 인내심을 필요로 하기 때문에 입문/초급에게는 좋지만 어려울 것 같기도 하다. 초급과 초중급의 차이가 이렇게 심한 것일까?

어쩌다 데이터 분석 with 파이썬은 데이터를 어떻게 다루어야 하는지 자세하고 친절하게 다루고 있다. 흔히 눈으로, 일반적으로 접하게 되는 데이터를 가시적으로 만들어내는 그래프 하나가 만들어지기 까지의 사전단계를 백분위수 구하기, 데이터 수 파악하기, 최소/최댓값, 평균값 등을 구하는 방법들을 하나하나 예를 들어주고 있어 보기 좋았다. 데이터 분석이란 정말 엉덩이가 무거운 사람에게 딱 어울리는 분야가 아닐까 생각되었다.

1장에서 파이썬에 대한 기본적인 것들을, 2장의 분석에 관한 기본적인 것들을 겨우 넘기고 나오는 3장에서 드디어 데이터를 정제하는 방법과 응용법을 알게 되고 4장, 5장, 6장의 데이터의 병합, 재형성, 집계, 연산, 날짜, 시간 등을 다루는 지난한 과정을 거쳐 7장에 가서야 우리가 일반적으로 접하게 되는 시각화에 대해 다루게 된다. 어렵지만, 하나하나 개념을 익혀 나가는 과정이 나름 재미있기도 하다.

초반, 몇 번인가 파이썬을 건드려 보고 아주 기초적이나마 문법이 눈에 익었다는 생각에 설렁거리면 읽어나가다 통계를 다루기 위해 사용되는 분석에 관한 기본적인 것을 다루는 2장부터 3장까지 예제를 따라 하면서 나아가는데 갈수록 안갯속을 헤매는 느낌이었다. 제대로 준비가 되어 있지 않다는 것을 느끼고 다시 앞으로 돌아가 읽어 나가기 시작했다.

예제를 따라 하기 위한 환경으로 기본적으로는 아나콘다를 제안하고 있지만, 대안으로 제시하고 있는 구글 코랩을 통해서도 따라 하는데 지장은 없었다. 새로 무언가를 깔기가 껄끄럽다면 대안으로 좋을 것 같다.

# 후기

어쩌다 데이터 분석 with 파이썬은 읽기 편하게 정리되어 있는 첫인상을 받는다. 그리고 별로 어려울 것 같지 않다는 착각도 들게 만든다. 하지만, 책을 읽다 보면 인내력을 필요로 하게 된다는 것을 알게 된다. 왜냐고? 그림이 많은 것 같아 쉽다는 생각이 들지만, 결국 테이블로 이루어진 데이터들을 다루고 정제하는 과정을 보여주기 때문이다. 그럼, 재미가 없을까 싶으면 또 그렇지 않은 게... 필터링되어 있지 않은 데이터를 하나하나 만들어 나가는 과정이 나름 흥미롭다.

결국 목적의식이 확실한 초보자라면 책을 따라 하면서 데이터에 대한 깊이 있는 공부가 가능할 것 같다. 지은이의 말에 책의 집필 과정과 어려웠던 과정을 같은 과정을 진행하고 있는 이들에게 전달해주기 위해 작성된 만큼 쉽게 익힐 수 있다는 문구로 현혹하는 것이 아닌 실제로 필요한 것들을 알려주고 그 과정이 쉽지 않다는 것을 알려주는 책이라 생각되었다. 눈에 보이는 산출물을 만들기 위해 어떤 치밀한 과정이 필요한지 어쩌다 데이터 분석 with 파이썬을 통해 경험할 수 있을 것이다.


3745.jpg

 

데이터 과학과 분석은 어쩌면 전혀 다른 분야일 수도 있겠지만, 엄밀히 말하면 과학이 더 큰 범주를 뜻한다. 데이터 분석은 데이터를 기반으로 이 데이터의 결과를 도출하고 시각화하는 것을 의미하는데, 전공자가 아니어도 할 수 있다는 장점이 있다.

​이번에 만난 '어쩌다 데이터 분석 with 파이썬'은 비전공자가 쓴 책으로 저자는 물론 비전공자들도 데이터 분석을 할 수 있다는 자신감을 심어주는 책이다. 그러다보니 책의 수준과 대상독자는 초보자 레벨에 맞춰져 있고, 책의 구성 또한 전공 서적이 아닌 일반 서적같은 느낌을 주는 구성으로 되어 있다.

 

3746.jpg

 

 

이 책은 파이썬으로 작성된 예제로 구성되어 있기 때문에, 파이썬에 대한 기초 지식은 필요로 한다. 물론 책 속에 한 챕터를 할애하여 파이썬을 설명하고 있지만, 본격적인 데이터 분석에 입문하기 위해서는 파이썬은 조금이라도 익히고 시작해야 할 것이다.

UX 관련 전공을 한 저자도 업무를 하던 중 데이터 관련 일을 접하게 되었는데, 관련 지식이 부족해서 파이썬을 공부하기 시작했다고 한다. 다양한 방법으로 데이터 분석을 공부하면서 여러 시행착오를 거쳐 저자만의 합리적인 학습 과정을 터특하기 시작했다고 한다. 그것은 '원리 이해 -> 실습과 실행 -> 나만의 정리'과정을 반복하는 것이라고 한다.

저자는 자신이 초심자였을 때의 기억을 떠올리며 책에는 초심자 때 우선적으로 배워야 할 핵심 내용, 같이 배우면 좋을 만한 내용을 많이 수록했고, 저자가 운영하고 있는 블로그의 방문자가 궁금해하던 내용도 많이 포함시키려 노력했다고 한다.

 

3747.jpg

 

3748.jpg

 

 

책의 구성을 보면 1,2장에는 데이터 분석을 위한 준비과정과 기본을 다루고 3장부터는 데이터 분석을 위한 본격적인 내용 (데이터 정제, 데이터 병합과 재형성, 데이터 집계와 그룹 연산, 날짜시간 데이터 처리, 데이터 시각화) 등을 다룬다.

하나의 주제에 대해 단계별로 예제 소스를 설명하고 있고, 각 사용 메소드 별로 결과를 보여주고 있기 때문에 데이터가 어떻게 처리되는지 한눈에 확인할 수 있다. 가독성이 좋게 예제코드는 하늘색 블록으로 되어 있고, 결과창도 하늘색 테두리의 블록으로 구성이 되어 개인적으로 마음에 든다.

이 책은 각 주제별로 사용되는 판다스 라이브러리의 메소드를 설명하고 있기 때문에, 해당 기능의 예제는 책을 읽으면서 학습하고 전체 예제소스는 저자의 깃허브 저장소(https://github.com/claryk0520/bumping-into-data-analysis 에서 확인할 수 있고,

저자의 이메일이나 블로그를 통해 궁금한 사항을 문의할 수 있다.

 

3749.jpg

 

 

데이터 분석에 관심이 있는 분이라면 입문서로 이 책을 선정해서 보면 좋을 것 같다.

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

​#어쩌다데이터분석with파이썬 #어쩌다데이터분석 #파이썬 #판다스

어쩌다 데이터 분석 with 파이썬_02.png

 

이 책은 데이터 분석에 대해서 공부를 해보고자 시작하는 입문자들을 위해서 아주 쉽게 파이썬을 활용해서 데이터 분석에 사용하는 방법을 친절하게 설명해주고 있다. 데이터 분석에 대한 기본적인 이해가 없고, 파이썬 프로그램에 대해서 접해본적이 없다고 하더라도 기본적인 IT지식만 있어도 책에서 알려주는데로 따라하다보면, 데이터분석이라는 것을 파이썬으로 어떻게 할수 있는지 자연스럽게 알아갈수 있을 것이다.

 

이 책의 내용을 실습하기 위해서는 파이썬 프록램만 설치하면 되며, 추가적으로 주피터 노트북을 설치하면 좀더 편리하게 따라하면서 실습을 할수 있으며, 설치 없이 무료로 이용할수 있는 구글 코랩(https://colab.research.google.com/)을 이용해도 되며, 그외에 VS코드등 가지고 있는 개발툴이 있다면 그대로 이용해도 된다.

 

이 책에서 데이터분석으로 사용하는 주요 파이썬 라이브러리는 4가지로, 파이썬을 사용하여 수학적인 프로그램을 작성해 보신분들은 많이들 사용해보셨을 넘파이(NumPy), 판다스(Pandas)와, 데이터 시각화 라이브러리인 맷플롯립(Matplotlib)과 시본(Seaborn) 으로 이 책에서는 이 4가지 라이브러리를 가지고 데이터 분석을 하는 방법을 학습하게 되며, 이 라이브러리들을 사용해본적이 없고, 파이썬 프로그램을 접해본적이 없다고 하더라도 이 책에서는 앞부분에서 필요한 부분은 자세히 설명해주고 있기 때문에, 걱정하지 않고 따라하면 된다.

 

 

 

 

 

어쩌다 데이터 분석 with 파이썬_03.png

 

책에서의 모든 설명들은 코드를 작성해서 실습을 하면서 직접 실행결과와 함께 설명을 해주고 있기 때문에, 상당히 직관적임며, 이해하는데 어려움이 없으며 기존에 DB SQL문을 아시는 분이시라면 사용방법은 다르지만 이해하는데 좀더 수월할수도 있다.

 

이 책에서 알려주고자 하는 내용들은 마지막 챕터인 EDA 실습 부분으로 실제로 캐글에서 제공하는 넷플릭스 콘텐츠 관련 데이터셋을 가지고 책에서 학습했던 대로 활용을 해서 가져온 데이터를 처리하고 원하는 데이터를 추출해서 보기 좋게 시각화로 결과를 도출해 낼수 있음으로 이 책으로의 학습 목표는 달성하게 됩니다.

 

앞에서도 적었다 싶이 이 책은 파이썬 프로그램을 이용해서 데이터 분석을 학습하고자하는 분들에게 가장 단기간에 빠르게 학습하면서 활용할수 있는 입문서이기 때문에 이 첵을 통해서 기본적인 것을 학습하신후에는 공개되어 있는 많은 공공데이터들이나 업무에 필요한 데이터들을 가공해서 원하는 데이터값들을 시각화해서 도출하시는데 도움이 될것이다.

 

 

  "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

어쩌다 데이터 분석 with 파이썬

지금 우리는 그야말로 데이터가 넘치는 시대에 살고 있다. 핸드폰이나 태블릿, 스마트 워치와 같은 전자기기들은 우리의 정보를 실시간으로 기록하고 있고, 인터넷은 우리가 선택한 모든 것을 '로그'로 수집하고 있다. 대체로 이런 데이터들은 매우 단순한 몇 가지 정보만 담고 있어 하나의 데이터는 전혀 가치가 없어 보인다. 하지만, 이런 기록들이 쌓여가기 시작해 통계적인 의미를 갖기 시작한다면 쓸모없어 보이던 데이터 저장소는 그야말로 금광이 되어 버린다. 최신 아이폰에선 실시간으로 관측되는 데이터를 통해 차량 사고를 감지하기도 하고, 수 많은 온라인 쇼핑몰은 몇 번 클릭을 하지도 않은 것 같은데 나의 취향에 맞는 수많은 상품들을 진열해 놓기도 한다.

데이터의 가치를 정확히 발견하기 위해서는 당연히 데이터를 다룰 수 있어야 한다. 심지어 데이터가 내포하고 있는 특별한 정보를 잘 찾아내는 것 뿐만이 아니라 결과를 시각적으로 돋보일 수 있게 만들어 다른 사람을 설득하는데 힘을 실어줄 수 있어야 한다. 이 모든 것을 해내기 위해선 적절한 도구가 필요한데, 개인적으로 아주 유용하다고 생각하는 것은 프로그래밍 언어 중 하나인 파이썬(Python)과 파이썬의 라이브러리인 판다스(Pandas)와 맷플롯립(Matplotlib)을 함께 활용하는 것이다.

지금까지도 본격적으로 업무의 영역에서 데이터 분석을 다룰일이 없어 겉핥기식으로 판다스와 맷플롯립을 사용해보고 있었다. 이 라이브러리들은 기본적인 기능은 단순하고 익히기 쉬워 몇 가지 함수만 사용하여 데이터 분석에 발을 들이는 것은 가능하다. 하지만, 모든 고인물의 세계가 그렇듯이 "진짜"가 되기 위해 가야 할 길은 너무나 멀다. 만약 발을 들이는 것에는 성공했다면, 김유지 작가님의 <어쩌다 데이터 분석 with 파이썬>이라는 책은 파이썬을 활용한 데이터 분석에 기초를 다지기 아주 좋을 것이다. 심지어 파이썬을 전혀 모르는 상태에서 데이터 분석을 시작한다 하더라도 아주 좋은 선택이다. 8개의 챕터 중 무려 2개의 챕터에 걸쳐 기본적인 파이썬의 활용법이나 라이브러리의 기초 내용에 대해 핵심만 짚어주고 넘어간다.

본격적인 데이터 분석의 이론은 4개의 챕터를 통해 설명한다. 데이터를 처음 마주하였을 때 쓸데없이 하드 디스크의 용량만 차지하는 비트 덩어리를 어떻게 처리하면 쓸모있는 정보가 될 수 있는지 설명해 준다. 특히 판다스에서 사용하기는 어렵지만 아주 강력한 기능들이라 생각되는 병합이나 그룹화 같은 것들을 상세히 다룬다. 

마지막으로 남은 두개의 챕터에서는 각각 데이터 시각화 방법과 앞서 배운 내용을 총망라하는 실습이 들어 있다. 데이터 시각화에서는 이전 챕터에서부터 책의 마지막까지 사용하고 있는 다양한 시각화 그래프들을 만드는 방법들을 상세히 다루어 주고 있다. 마지막 실습에서는 하나의 데이터 셋을 통해 "탐험적 데이터 분석(Exploratory Data Analysis)"을 수행한다. EDA를 한 단계씩 수행할 때마다 실습 데이터 셋에 숨어 있던 정보들을 하나씩 찾아가는 재미도 나름 쏠쏠하다.

<어쩌다 데이터 분석 with 파이썬>은 책 전반에 걸쳐 글이 전혀 부담으로 다가오지 않고, 다양한 코드와 결과물 예시 이미지 등을 적극 활용하여 활자 알러지가 있더라도 안심할 수 있다. 특히 코드와 결과물을 보여줄 때는 한 번에 많은 코드를 붙여 놓고 설명하는 방식이 아니라 정성스럽게 최소 의미 단위로 나누어 설명한다. 이를 통해 책을 읽으면서 직접 실습을 못해보는 상황이더라도 주피터 노트북을 통해 직접 실습해보는 듯한 경험을 할 수 있었다.

이 책의 제목 처럼 '어쩌다 데이터 분석'을 해야 하는 상황이 생긴다면, 서점에 가서 이 책 한 권을 들고 나오면 파이썬의 기초, 라이브러리의 활용법, 데이터 분석의 방법들, 그리고 실전 적용 예제까지 폭넓은 (하지만 얕은..?) 데이터 분석에 대해 익힐 수 있을 것이다.

 

우리는 직관을 믿고 싶어 하지만, 직관이 완전히 잘못되는 경우가 많다는 것은 널리 알려진 사실이다.
<실험의 힘>


	

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

전 알리바바 회장이었던 마윈 회장은 21세기가 데이터의 시대라고 정의했었다. 가히 지금은 데이터의 시대라 할만하다. 기업도 개인도 데이터가 가장 중요하다. 여기도 데이터 저기도 데이터...또한 지금은 데이터 홍수의 시대라 할만하다. 문제는 누가 언제 어떻게 데이터를 이용할 것인가도 중요하지만, 데이터 홍수속에 내가 원하는 데이터의 옥석을 가리는 것도 매우 중요하다. 덧붙여 데이터를 각자의 도메인에서 이용하려면 옥석도 가려야 하지만, 필요한 곳에 적절하게 정제하고 가공해서 투입하고, 디시젼 메이킹에 사용할 유용한 분석이 더더욱 중요한 시대가 되었다.

 

보통 데이터 분석은 파이썬으로 수행된다. 이 책은 데이터 분석에 입문하는 초보자들에게 안성마춤 책이다. 더구나 저자는 데이터 분석 전공자도 아니다. 이 책의 매력은 데이터 분석을 너무 어려운 분야로 오인해서 소위 넘사벽이라는 선입견을 갖고 도전조차 주저하는 사람들에게 추천할 수 있다는 것이다. 그래서 이 책의 목차를 보면 데이터 분석에 꼭 필요한 내용만 담고 있다는 느낌이다. 기본적인 데이터의 가공 및 처리에 중점을 두고 그냥 저자가 따라오라고 한 길만 쫓다 보면 데이터 분석의 핵심을 배우게 되는 책이다. 아무래도 비전공자의 경험, 직접 하나 하나 체험하면서 배웠던 그 실체에서 나오는 내공을 느낄 수 있는 책이다. 마지막 책장을 덮을 때는 나도 데이터 분석을 할 수 있다라는 자신감을 갖게 하는 것도 책을 읽은 사람만이 더불어 받는 선물같다. 

 

이 책은 파이썬으로 데이터 분석을 시작하고 싶은 사람에게 어울리는 책입니다. 이 책을 보는데 필요한 기초 파이썬 지식도 나름 설명하고 있습니다. 파이썬 데이터 분석에 필요한 아나콘다 설치부터 설명하고 있어서 입문자가 따라하기에 괜찮은 책입니다.

 

챕터1~3은 데이터 분석 기초이기 때문에 순서대로 차근차근 읽어도 되지만 챕터 4~7은 무슨 내용이 있는지 대강만 알고 필요할 때 찾아보면 될 것 같습니다. 병합, 피벗, groupby와 같은 내용은 데이터분석에 익숙해지기 전에 배우기보단 쓰면서 필요성을 느끼고 적용하면 될 것 같습니다.

 

챕터1에서는 개발환경을 세팅하고 파이썬 기초문법을 설명합니다. 챕터2에서부터 데이터 분석에 꼭 필요한 라이브러리인 넘파이(numpy), 판다스(pandas) 라이브러리를 배웁니다. 챕터3 이후로는 본격적으로 판다스를 활용하여 데이터를 다루게됩니다. 챕터7에서는 데이터 시각화 라이브러리인 맷플롯립(matplotlib), 시본(seaborn) 사용법과 각종 그래프의 종류를 알아봅니다.

 

이 책을 읽으며 좋았던 점은 마지막 ‘챕터8 데이터 분석: EDA 실습’ 부분이었습니다. 1장부터 7장까지 보면서 라이브러리가 뭔지는 대강 알겠는데 어떻게 활용할지는 막막했습니다. 근데 마지막 실습을 직접 하나하나 따라해보니 확실히 감을 잡을 수 있네요. 아주 고난도 테크닉을 배우는건 아니지만 자주 사용하는 데이터 분석 방식을 익힘으로서 다음에 다른 데이터를 만나도 비슷하게 따라할 수 있을 것 같습니다. 

 

다른 전문성이 깊은 데이터 분석 책들은 방대한 내용에 압도되기 쉬운데 이 책은 그렇지 않고 초보자가 보기에도 만만해서 좋았습니다. 뭔가 나도 따라할 수 있을 것 같은 느낌. 다시 한번 말하지만 순서대로 모든 내용을 다 알려고 하지말고 대강 읽어가며 마지막 8장의 실습을 해보는 것을 추천합니다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

 

지은이는 UX관련 전공을 한 후 데이터 관련 업무를 하면서 필요한 지식을 공부하면서  '원리 이해 -> 실습과 실행 -> 나만의 정리' 라는 과정을 반복하는 것을 터득하면서 이 책을 입문자 입장에서 책을 쓰기 시작하였다고 합니다.

전공자는 전공자의 눈으로 쓰다 보니 조금은 어렵게 작성되는 부분이 있는데~

이 책은 비전공자의 시각으로 글을 작성하여 구성 또한 입문자의 입장에서 전혀 부담없는 구성으로 이루어져 있습니다.

 

구성을 살펴 보면 다음과 같습니다.

1장 데이터 분석 준비

파이썬의 기본 내용과 데이터 분석을 위한 핵심라이브러리(넘파이,판다스,맷플롯립,시본)등을 살펴 봅니다.

2장 데이터 분석 기본

데이터 분석의 기본이 되는 넘파이,판다스 등을 이용해 데이터를 로딩 하고 컬름을 다루는 테크닉에 대해 알아 봅니다.

3장 데이터 정제와 응용

조건식을 활용해서 데이터를 필터링 하는 방법과 결측값,이상값 등을 처리하는 방법을 살펴 봅니다.

4장 데이터 병합과 재형성

서로 다른 데이터프레임을 병합 하거나 특징들을 합해서 새로운 형태의 데이터를 만드는 방법 들에 대해 다루고 있습니다.

5장 데이터 집계와 그룹연산

같은 그룹의 데이터를 집계하거나 피벗 테이블과 크로스탭을 활용하는 방법을 살펴 봅니다.

6장 날짜시간 데이터 처리

날짜 타입의 데이터를 처리하는 방법에 대해 살펴 봅니다.

7장 데이터 시각화

맷플립롭과 시본을 이용해서 각 특징들의 그래프를 이용하여 시각화 하는 방법 등을 살펴 봅니다.

 

서평

제가 이 책을 신청한 이유는 인공지능을 공부하면서 데이터 분석하는 것이 어렵기 때문에 자유자재로 데이터를 다루고 싶어서 신청하게 되었습니다.

이 책을 읽으면서 느끼는 것은 데이터 분석의 최고의 입문서가 되지 않을까 라는 생각을 했는데요~

그 이유는 다음과 같습니다.

1. 입문자를 고려해서 파이썬의 중요한 문법을 다시한번 훑어 본다.

 

파이썬의 기본 문법을 정리했다.

 

 

2. 데이터 분석의 기본이 되는 넘파이와 파이썬에 대해 상세하게 다루고 있다.

 

잘 몰랐던 판다스의 옵션을 하나 하나 살펴 볼 수 있다.

 

 

3. 데이터를 정제하는 방법 과 시각화 툴을 다루는 방법을 상세하게 다루고 있다.

 

시각화 툴에서 color을 지정하는 방법 외에 다양한 옵션을 활용하는 방법을 보여주는 예

 

 

 

제가 생각하는 인공지능은 빅데이터를 이용해서 확률을 계산하는 알고리즘인데요~

빅데이터에는 확률을 계산하는데 필요 없는 쓸모 없는 데이터들이 많이 존재하게 됩니다.

인공지능을 공부하다 보면 처음 접하는 문제가 타이타닉에서 생존률을 구하는 문제를 먼저 만나게 되는데요~

타이타닉 문제에서 티켓번호 같은 경우 생존률과 전혀 무관한 데이터 입니다. 오히려 나이/성별 같은 경우는 어린 아이나 고령의 나이 인 경우 살 확률이 높았고 여성인 경우 남성보다 살 확률이 높았습니다.

하지만 빅 데이터에서는 이렇게 우리가 알 수 있는 특징들만 주어지는 것은 아닙니다.

이것이 어떤 특징 데이터 인지 모르는 상황에서 데이터를 분석해야 하는 경우도 많고 어떤 특징이 결과에 영향을 끼치는지 알 수가 없습니다.

이럴 때 데이터 분석이 필요한데 판다스나 넘파이, 시각화 툴을 이용해서 데이터 분석을 통해서 어떤 특징들이 훈련에 필요한 데이터를 찾아 낼 수 있는데요~

 

이 책은 이러한 데이터 분석이 필요한 분들에게 너무나 유용한 책인 것 같네요.

 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

https://blog.naver.com/tnsgh9603/222905376357

 

이 책은 파이썬 데이터 분석을 위해 반드시 알아야 하는 pandas, numpy, matplotlib, seaborn 등 파이썬 핵심 라이브러리를 사용해서 효과적으로 데이터를 분석하고 시각화하는 방법에 대해 다루고 있습니다.

파이썬 데이터 분석 입문자를 위해 일반적인 데이터 분석 과정으로 내용을 구성했으며, 데이터 분석을 위한 중요한 핵심 함수와 처리 과정을 쉽고 간결하게 설명하고 있습니다.

마지막으로 넷플릭스 데이터셋으로 실무에 적용 가능한 데이터 전처리 및 시각화 과정을 실습해보는 시간을 통해 좀 더 확실하게 이해하고 넘어갈 수 있습니다.

 

● 2017년, MNIST

- 2017년, 어쩌다가 우리 팀에 새로 생긴 인공지능 파트의 파트장이 되어 머신 러닝에 발을 디뎠다.

- 파트원들에게 물어가며, 윗 분들의 적절한 보호를 받아가며, 때로는 의도적으로 거친 물살에 던져지는 조각배의 선장.

- 낮에는 회의를 다니고 밤에는 만삭의 아내를 재우고 인터넷을 뒤지며 독학을 하던 날들이었다.

- C언어, Matlab, 파이썬을 배울 때의 첫 관문은 "Hello, World!"라는 문장을 출력하는 것이었는데 텐서플로는 좀 달랐다.

- 너무나 당연하지만 데이터를 입력해 학습을 시켜야 하니 작은 신경망을 꾸미고 데이터를 넣는 것이 첫 관문이었다.

- 존재는 알고 있었지만 굳이? 라는 생각에 외면해오던 pandas와의 첫 대면이었다.

 

● pandas vs numpy

- 2008년에 파이썬을 시작했으니 시기로 치면 제법 오래됐지만 pandas는 사용하지 않고 있었다.

- 파이썬에서 쓰는 엑셀 정도로 이야기를 듣기는 했지만 당시 내가 짜던 코드를 기준으로 numpy에서 모두 처리가 가능했기 때문에 아쉽지가 않던 것이 가장 큰 이유.

- 우리 파트의 똘똘한 선임이 pandas는 R을 어설프게 베낀 것이라고 해준 설명에 내 시선부터가 삐딱했고

- "pandas 없이 어떻게 코딩해요? 전 못할 것 같은데 ㅎ"라는 분도 있었으나 2차원 리스트 처리를 벗어나지 않던 당시의 내 사고 범위로는 "없어도 되는데? 저 분은 코딩을 너무 쉽게 배우기 시작하셨나"라는 생각마저 들었다.

- 결론적으로 나의 경험 부족에서 온 오판이었다. 데이터 분석을 일반 코딩 정도로 생각하고 있었던 게 문제였다.

- 데이터를 다양한 관점에서 돌려보며 취합과 인자간 연산을 여러 가지로 반복해야 하며, 특정 조건에 부합하는 것들만 추출을 해야 했다.

- 그리고 이런 일은 pandas 없이 매우 어려운 게 맞다.

- 수치해석 라이브러리 numpy만 써서도 가능은 하지만 굳이 스스로의 업무 난이도를 높이는 일일 뿐이다.

 

● pandas vs 엑셀

- pandas는 엑셀로 할 수 있는 일을 모두 할 수 있다.

- 일반 가정에서 가계부를 쓰는 것처럼 데이터를 읽고 부분합 등을 구하는 일부터

- 여러 엑셀 시트에서 서로 관계된 부분을 찾아 데이터를 치환하거나 합치는 일,

- 불러온 데이터에 특정 함수를 적용해 새로운 시각에서 데이터를 바라보는 일,

- 그리고 데이터를 그 자리에서 그림으로 표현하는 일까지 엑셀과 동일하게 가능하다.

- 엑셀과 구분되는 가장 큰 차이는 마우스 클릭이 아니라 키보드 입력을 사용한다는 점.

- 단순 업무를 매우 효과적으로 반복할 수 있다는 장점이 됨과 동시에 내가 내린 명령의 결과가 즉시 화면에 보이지 않는다는 단점이 된다.

- 주피터 노트북 환경이라면 코드 한 줄을 추가해 즉시 화면에 띄워볼 수 있지만 이 역시 엑셀보다 성가시다.

- .py 파일이라면 문제가 조금 더 심각해서 머리 속으로 상상하며 진행해야 한다.

- 데이터 분석이 노트북 환경에서 주로 진행이 되는 이유이자 여러 커뮤니티에서 초심자들이 "이거 어떻게 해요?"하는 질문 중 적잖은 비중을 차지한다.

 

● 엑셀 사용자가 pandas에 익숙해지려면 연습이 필요하다.

- 셀을 긁어 선택하던 방식을 명령어를 사용하는 거으로 바꾸는 것도 시행착오가 필요하고 - 인덱스가 비어있거나 중복된 경우가 낯설다

- 일부 열을 삭제하거나 새 열을 추가하는 과정이 클릭보다 덜 직관적이다.

- 데이터가 비어있는 결측값은 황당한 오류의 원인이 되기 때문에 채우는 방법도 배워야 하고

- 통계적인 방법으로 이상값을 찾아 처리하는 방법은 quantile이니 IQR이니 하는 개념부터 익혀야 한다.

- 여기에 문자열을 다루는 정규 표현식, 시간 데이터 형식인 datatime이 가세하면 일단 창을 닫고 쉬고 싶어진다.

- 구글링으로 하나 하나 해결하기에는 유달리 여러 문제가 동시에 날아온다.

- pandas의 알맹이는 numpy array이기 때문에 numpy에 대한 지식은 기본으로 깔고 가야 한다.

 

● pandas는 날을 잡고 한 번쯤 마스터할 필요가 있다.

- 하루 이틀, 길어야 며칠 집중하는 것을 마스터한다고 하기엔 어폐가 있지만 다른 일 없이 pandas만 붙잡고 쭉 나갈 필요가 있다.

- 인덱스 컨트롤, 일부 행이나 열 선택, 결측값과 이상값 처리 등을 띄엄띄엄 배우면 헷갈릴 여지가 많기 때문이다.

- pivot table, merge 등 테이블을 다루는 기술은 집중해서 기본기를 익숙하게 한 뒤에 필요할 때마다 하나씩, 그러나 확실하게 익히는 편이 좋다.

- 개인적으로 groupby와 pivot_table을 이상하게 많이 헷갈렸던 기억이 난다.

- apply는 한 번 제대로 익혀서 계속 잘 쓰고 있는데도 남의 코드를 보면 내가 모르는 신기한 기술이 종종 보인다.

- pandas에 갖춰진 편의 기능은 생각보다 많고 다양하다.

- 이런 기능의 존재를 아는 사람과 모르는 사람이 정리하는 데이터는 속도와 결과물의 질이 달라질 수밖에 없다.

 

● 파이썬 기본부터 pandas 기능까지

- 파이썬으로 데이터 분석을 업으로 삼겠다는 사람이라면 pandas 없이 살 수 없는 것이 정상이다.

- 바꿔 말하면, pandas를 잘 모르는 사람은 파이썬 기본 문법도 익숙하지 않을 확률이 높다. 

- 수치해석 등에만 파이썬을 오래 쓰던 사람이 pandas에 손을 뻗었을 때 정도가 예외가 될 것이다.

- 이 책은 파이썬 설치부터 기본 문법을 거쳐 비로소 pandas에 인도한다.

- 파이썬에 익숙한 독자라면 건너뛰어도 되지만 그렇지 않다면 다행이라는 생각이 들 수도 있다.

- 데이터 분석에만 집중하는 강의들이 파이썬 기초 명령을 생략하는 경우가 있는데 초보자들에게는 너무나 어렵게 느껴지기 때문이다.

- UX 관련 전공자인 저자가 제목을 "어쩌다 데이터 분석"이라고 지은 이유는 본인처럼 어쩌다 데이터 분석의 길에 들어선 이들에게 길잡이가 되고 싶기 때문이었을 것이다.

- 저자의 의도가 충분히 전달되기를 바라며, 휴일 등을 이용해 집중해서 저자의 내공을 흡수하길 바란다.

- 시간을 끌면 더 헷갈리는 게 pandas다.

 

 

 

 

IMG_20221013_102530.jpg

 

IMG_20221013_102535.jpg

 

IMG_20221013_102541.jpg

 

 

데이터 분석에 필요한 Python 문법 부터 데이터의 구조를 알 수 있는 코드에 대한 꼼꼼한 설명이 돋보이는 책인듯 합니다.

우선, 책을 차근차근 실습하다 보면 자연스럽게 파이썬 코드에 익숙해질 수 있도록 구성했는것 같습니다.

 

첫째 챕터에서는 파이썬이랑 친해질 수 있도록 파이썬이 무엇인지, 아나콘다와 주피터 노트북 설치하고 다루는 방법, 데이터 분석하는데 필요한 기본 개념(변수, 함수, 패키지 등)을 알아볼 수 있습니다. 또한 데이터 구조와 주요 라이브러리를 배울 수 있게 준비되어 있어서 매력적인것 같습니다. 앞쪽에 책에 대하여 부분에서 파이썬 기초를 알고 있는 독자를 전제한다고 했는데, 알고 있지 않아도 충분히 따라 올 수 있는 것 같습니다. 또한 챕터가 진행될 수록 파이썬으로 데이터를 본격적으로 다뤄보고, 데이터 구조 파악, 추출, 합치기, 그래프 만들기 등 여러 실습을 통해 파이썬을 다루는 방법을 익힐 수 있는 구조로 되어있어서 쉽네요. 특히 넘파이와 판다스에 대한 자세한 설명이 돋보이는 것 같습니다. 

 

두번째 챕터 부터는 데이터 분석에 대한 기초 지식을 활용해서 다양한 예제로 데이터 분석을 할 수 있습니다. 여러 실습에 대한 설명과 예시가 잘 나와있어서 책을 보고 차근차근 따라할 수 있도록 구성되어 있어요.

 

마지막 장에서는 넷플릭스 컨텐츠 데이터를 활용하여 다양하게 데이터를 다룰 수 있는 방법과 자주 사용하는 자료 구조를 살피고, 데이터 분석 기술을 효율적으로 익힐 수 있는 방법을 주로 알아볼 수 있게 되어 있어서 흥미를 느낄 수 있었던것 같습니다. 

만약 혼자 계획을 세워서 데이터 분석에 대한 공부를 시작하려해도 중도 포기 없이 체계적으로 끝까지 완주할 수 있도록 잘 구성되어 있는것 같습니다.

 

그래서 이 책에서 정말 마음에 들었던 점은!

 

구성된 마당마다 직접 할 수 있는 실습 문제가 많이 수록되어 있고, 마지막에는 각 마당에서 배웠던 내용을 정리해주는 부분도 있어요. 실습에 대한 정답 및 해설도 프로그래밍 한 화면을 같이 보여줘서 혼자서 복습 할 때 쉽게 이해할 수 있게 되어 있습니다.

 

책 한권을 끝냈다고 해서 하루아침에 "나 파이썬 고수다!"라고 말할 수는 없겠지만, 누구나 이해하기 쉽고 따라할 수 있도록 구성되어 있어서 좋았습니다.

 

  "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

결제하기
• 문화비 소득공제 가능
• 배송료 : 2,000원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리뷰쓰기

닫기
* 상품명 :
어쩌다 데이터 분석 with 파이썬
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
어쩌다 데이터 분석 with 파이썬
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
어쩌다 데이터 분석 with 파이썬
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실

최근 본 상품1