데이터 과학을 위한 통계 : 데이터 분석에서 머신러닝까지 파이썬과 R로 살펴보는 50가지 핵심 개념
이 책은 R이나 파이썬 프로그래밍 언어에 익숙하고 이전에 통계학을 잠깐이라도 접해본 경험이 있는 데이터 과학자들을 대상으로 한다.
- 데이터 과학을 위한 통계 中 -
지난 리뷰에 이어 이번 리뷰도 어려운 분야를 하게 되었습니다 ^^;;
그래도 시대가 시대인 만큼, 그리고 IT를 배우고 적용하는 사람으로서 반드시 익숙해져야 될 분야라고 생각되어
리뷰를 하게 되었는데요! IT 모든 분야에 진심인 제가, 오늘도 열심히 리뷰 해보도록 하겠습니다!
데이터 분석에서 머신러닝까지
파이썬과 R로 살펴보는 50가지 핵심 개념
DAY 1, 2, 3
- 데이터 과학 프로젝트의 첫걸음 -
파트 1, 2, 3
프로젝트를 시작해보자!
처음부터 쉽지 않은 서적임을 느끼며 책장을 넘겨 보았습니다. 혹시나 했더니 역시나! 그래도 재미있게 읽어 보겠습니다 :)
1장에서는 데이터 과학 분야의 초석이라고 할 수 있는 존 투키에 의해 시작된 탐색적 데이터 분석에 대하여 다룹니다, 탐색적 데이터 분석의 핵심은 바로, 데이터를 다루는 모든 프로젝트에서 가장 우선적이며 가장 중요한 과정이 데이터를 들여보는 데에 있다는 것입니다.
1장에서는 위치와 변이 추정 같은 간단한 계측에서부터 다변량 간의 관계를 살펴보기 위한 다양한 시각화 기법까지 살펴봅니다.
주제를 세분화하여 설명하는 방식, 중간에 caution이라고 하여 주의사항까지 꼼꼼하게 설명해 주는 모습이 인상적입니다.
그림과 소스코드도 이해하기 쉽게 색상으로 잘 분류해 놓았습니다, 다만 과목 자체가 굉장히 어려운 분야이다 보니 더 많이 신경 쓰며 작업하신 것 같습니다. 박수를 보내드리고 싶습니다.
주요 개념과 더 읽을거리도 굉장히 도움이 많이 되었습니다, 요약해 주는 방식 그리고 추천 서적이나 사이트도 명시해 놓았기 때문에 어려운 길을 조금 더 쉽게 걸어가는 느낌도 많이 받았습니다.
2장에서는 데이터와 표본분포에 대하여 다룹니다.
빅데이터 시대에 정확한 추정이 요구되는 경우, 임의표본추출의 원칙을 지키는 것이 매우 중요한데, 데이터를 무작위로 선택해 주어진 데이터를 그냥 사용하는 것보다 편향을 줄이고 질적으로 더 좋은 데이터를 얻을 수 있기 때문입니다.
마지막으로 Day 3일차에는 3장을 쭉 살펴봤습니다.
3장에서는 통계적 실험과 유의성검정이라는 주제인데, 실험 설계 원칙을 통해 실험이 얼마나 잘 진행되었는지 타당한 결론을 도출하는 것, 데이터 과학자들이 직관적인 재표본추출 과정을 통해 데이터 분석에서 우연에 의한 변이가 어느 정도까지 영향을 미치는지 측정할 수 있는 것까지 중요한 내용을 쭉 살펴본 것 같습니다. 중간중간에 나오는 통계적인 용어, 그리고 개념 설명, 수학적인 지식까지 천천히 소스코드도 분석해보며 검색하고 이해하며 보니 한결 수월해진 느낌입니다.
DAY 4, 5, 6
회귀와 예측 그리고 분류
파트 4, 5, 6
- 통계적 머신러닝까지! 데이터 과학자가 되기 위한 길 -
대표사진 삭제
사진 설명을 입력하세요.
4일차부터 시작된 4챕터 공부는 역시 한층 심화된 느낌입니다.
4챕터에서는 회귀와 예측에 대하여 다루는데, 여러 예측변수와 결과변수 간의 관계를 설정하는 과정, 즉 회귀만큼 오랫동안 사용되어온 통계 방법에 대한 것, 기본 형태는 선형, 예측변수는 결과변수와의 선형 관계를 뜻하는 계수를 갖는 것, 다항회귀나 스플라인 회귀와 같이 일반 회귀보다 발전된 형태에서는 비선환 관계도 가능하다는 것 등 어려운 통계적인 개념과 내용이 많이 있습니다.
4장부터는 정독을 추천해 드립니다.
5장에서는 분류에 대하여 다룹니다. 분류란 어떤 레코드가 두 가지 이상의 범주 중 어디에 속하는지를 예측하는 프로세스로, 예측 분석을 위한 기본적인 도구인데 음.. 뭐 예를 들면 이런 것입니다.
서적에도 나와있지만, 대출을 갚지 못할 것인가(예/아니오)? 이런 질문처럼 보통, 이러한 분류 문제에서 한 클래스가 주요 관심 사항이며, 이진 분류에서 이 클래스를 1로 지정하고 다른 클래스는 0으로 지정한다. 이 프로세스의 핵심은 관심 있는 클래스에 속할 확률인 경향 점수를 추정하는 것입니다.
일주일 안으로 6장까지 빠르게 보려니, 굉장히 타이트하고 놓치는 부분도 많았습니다. 더 자세한 내용은 서적에 기술되어 있으니
꼭 구매하여 참고해 주시길 바랍니다 ^^
이번 주에 마지막 6장에서는 통계적 머신러닝에 대한 주제로 시작합니다. 여기서부터는 배운 개념과 알고 있는 개념도 있어서 많이 친숙했던 챕터인 것 같습니다.
6장에서는 전체 데이터에 맞는 형태가 딱 정해진 모델보다는 데이터에 따라 유연하면서 지연적으로 학습해가는 두 가지 분류와 예측 방법을 다룹니다. k-최근접 이웃 알고리즘 방법은 해당 레코드와 비슷한 주변 데이터를 찾아보고 주변 데이터들이 가장 많이 속한 클래스를 찾아 그것을 해당 레코드에 대한 예측값으로 할당하는 아주 간단한 방법입니다. 트리 모델에서는 여러 가지 가능한 예측변수의 컷오프 값들을 기준으로 나눠보고 분할 영역의 클래스에 대한 동질성이 가장 많이 증가하는 방향으로 데이터를 분할합니다.
점점 더 어려워지고 소스도 많아져서 머리가 아파지는 듯합니다 :)
DAY 7, 8, 9
- 비지도 학습 -
파트 7
클러스터링
마지막 7장입니다. 마지막 챕터에서는 비지도학습에 대하여 다루는데, 주성분분석과 k-평균 클러스터링은 수치형 데이터의 차원을 축소하기 위해 주로 사용하는 방법들입니다.
의미 있는 데이터 축소를 보장하기 위해서는 데이터의 스케일을 적절히 조정해야만 합니다.
" 대출이나 주식 데이터, 그리고 데이터 과학자가 직면할 대다수 데이터는 노이즈가 많다. 이런 경우, 사용 기법에 따라 결과에 극명한 차이를 가져온다. k-평균, 계층적 클러스터링, 그리고 특히 모델 기반 클러스터링은 모두 매우 다른 솔루션을 생성한다. 데이터 과학자는 이럴 때 어떻게 해야 할까?
불행하게도 선택을 돕는 간단한 법칙 따위는 없다. 궁극적으로 데이터 크기나 응용 분야의 목표에 따라 사용되는 방법은 달라지게 된다. "
- 데이터 과학을 위한 통계 中 -
DAY 10
후기
- 데이터 과학자를 향해 -
통계 기법은 데이터 과학의 핵심
후기 : 데이터 과학 입문자, 숙련자 모두에게 권할 만한 서적
참으로 어려운 서적을 정독해야 되는데, 파악하고 리뷰 후 정독하기 위해 빠르게 읽어보았습니다.
일단, 훌륭한 내용이 너무 많습니다. 반드시 서적 구매 후 정독해보시길 권장해 드립니다.
챕터 하나하나 버릴 것이 없고, 중요한 내용이 많이 있습니다. 이 서적 한 권만 제대로 익히더라도
충분히 데이터에 접근하는 마인드, 기술이 한층 성장해있음을 느낄 것입니다.
데이터 과학자를 꿈꾸는 모든 분들께 강력 추천하는 서적입니다.
★★★★★
리뷰를 마치며!