데이터 마이닝의 개념, 기법, 응용
다양한 분석 기법이 존재하는 이유는 각 분석 기법마다 장단점이 있기 때문이다. 데이터를 분석하는 목적, 데이터의 양•유형•노이즈 등에 따라 적합한 분석 기법이 달라진다. 이 책은 전통적인 통계 기법부터 머신러닝 기법까지 데이터 마이닝 기술 전반을 다루어, 주어진 상황에 적합한 분석 기법을 선택할 수 있는 힘을 키워준다. 또한 풍부한 연습문제와 9개의 실전 사례를 통해 실전 감각도 기를 수 있다.
※ 본 도서는 대학 강의용 교재로 개발되었으므로 연습문제 해답은 제공하지 않습니다.
PART 01 준비
Chapter 01 서문
1.1 비즈니스 애널리틱스 정의
1.2 데이터 마이닝 정의
1.3 데이터 마이닝 관련 용어
1.4 빅데이터
1.5 데이터 사이언스
1.6 다양한 분석 방법이 존재하는 이유
1.7 용어와 표기법
1.8 로드맵
Chapter 02 데이터 마이닝 프로세스 개요
2.1 서론
2.2 데이터 마이닝의 핵심 아이디어
2.3 데이터 마이닝 수행 단계
2.4 데이터 분석 사전 단계
2.5 예측력과 과적합
2.6 모델 구축: 선형 회귀 분석을 이용한 예제
2.7 로컬 컴퓨터에서 파이썬을 이용한 데이터 마이닝
2.8 데이터 마이닝 과정의 자동화
2.9 데이터 마이닝의 윤리 이슈
연습문제
PART 02 데이터 탐색과 차원 축소
Chapter 03 데이터 시각화
3.1 개요
3.2 예제 데이터
3.3 기본 차트: 막대그래프, 선그래프, 산점도
3.4 다차원 시각화
3.5 특수 시각화
3.6 주요 시각화 작업 요약
연습문제
Chapter 04 차원 축소
4.1 서론
4.2 차원의 저주
4.3 실질적인 고려 사항
4.4 데이터 요약
4.5 상관 분석
4.6 범주형 변수의 범주 개수 축소
4.7 범주형 변수에서 수치형 변수로의 변환
4.8 주성분 분석
4.9 회귀 모델을 사용한 차원 축소
4.10 분류 트리와 회귀 트리를 이용한 차원 축소
연습문제
PART 03 성능 평가
Chapter 05 예측 성능 평가
5.1 서론
5.2 예측 성능의 평가
5.3 분류기 성능의 판단
5.4 랭킹 성능의 판단
5.5 오버샘플링
연습문제
PART 04 예측 및 분류
Chapter 06 다중 선형 회귀
6.1 서론
6.2 설명 모델과 예측 모델의 모델링
6.3 회귀식의 추정과 예측
6.4 선형 회귀 분석의 변수 선택
연습문제
Chapter 07 k-NN 알고리즘
7.1 k-NN 분류기(범주형 결과)
7.2 k-NN 예측기(수치형 결과)
7.3 k-NN 알고리즘의 장점과 단점
연습문제
Chapter 08 나이브 베이즈 분류기
8.1 서론
8.2 완전한(정확한) 베이지안 분류기의 적용
8.3 나이브 베이즈 분류기의 장점과 단점
연습문제
Chapter 09 분류 회귀 트리
9.1 서론
9.2 분류 트리
9.3 분류 트리의 성능 평가
9.4 과적합 방지하기
9.5 분류 트리 모델의 분류 규칙
9.6 3개 이상의 클래스 분류하기
9.7 회귀 트리 모델
9.8 예측력 향상: 랜덤 포레스트와 부스트 트리
9.9 트리 모델의 장점과 단점
연습문제
Chapter 10 로지스틱 회귀 분석
10.1 서론
10.2 로지스틱 회귀 모델
10.3 예제: 개인 대출 신청 수락
10.4 분류 성능 평가
10.5 다중 클래스 분류에 대한 로지스틱 회귀
10.6 분석 예제: 연착 항공편 예측
연습문제
Chapter 11 신경망
11.1 서론
11.2 신경망의 개념과 구조
11.3 데이터에 신경망 적합하기
11.4 요구되는 사용자 입력
11.5 예측 변수들과 결과 변수 간의 관계 탐색
11.6 딥러닝
11.7 신경망의 장점과 단점
연습문제
Chapter 12 판별 분석
12.1 서론
12.2 클래스로부터 관측치에 이르는 거리
12.3 피셔의 선형 분류 함수
12.4 판별 분석의 분류 성능
12.5 사전 확률
12.6 서로 다른 오분류 비용
12.7 클래스가 3개 이상일 경우의 분류
12.8 판별 분석의 장점과 단점
연습문제
Chapter 13 방법론 결합: 앙상블과 업리프트 모델링
13.1 앙상블
13.2 업리프트 모델링
13.3 요약
연습문제
PART 05 레코드 간의 마이닝 관계
Chapter 14 연관 규칙과 협업 필터링
14.1 연관 규칙
14.2 협업 필터링
14.3 요약
연습문제
Chapter 15 군집 분석
15.1 서론
15.2 두 레코드 사이의 거리 측정
15.3 두 군집 사이의 거리 측정
15.4 계층적 응집 군집화
15.5 비계층적 군집화: k -평균 군집화 방법
연습문제
PART 06 시계열 예측
Chapter 16 시계열 데이터 분석
16.1 서론
16.2 탐색 모델 vs. 예측 모델
16.3 비즈니스에서 주로 사용되는 예측 기법
16.4 시계열 요소
16.5 데이터 분할 및 성능 평가
연습문제
Chapter 17 회귀 분석을 기반으로 한 예측
17.1 추세를 반영한 모델
17.2 계절성을 반영한 모델
17.3 추세와 계절성을 반영한 모델
17.4 자기상관과 아리마 모델
연습문제
Chapter 18 평활법
18.1 서론
18.2 이동 평균법
18.3 단순 지수 평활법
18.4 고급 지수 평활법
연습문제
PART 07 데이터 분석
Chapter 19 소셜 네트워크 애널리틱스
19.1 서론
19.2 방향/무방향 네트워크
19.3 네트워크 분석과 시각화
19.4 소셜 데이터의 측정 측도와 분류
19.5 네트워크 측도를 이용한 예측과 분류
19.6 파이썬을 이용한 소셜 네트워크 데이터 수집
19.7 소셜 네트워크 애널리틱스의 장점과 단점
연습문제
Chapter 20 텍스트 마이닝
20.1 서론
20.2 텍스트의 표 형식: 용어-문서 행렬과 ‘단어 주머니’
20.3 단어 주머니 vs. 문서 수준의 의미 추출
20.4 텍스트의 전처리
20.5 데이터 마이닝 방법의 구현
20.6 예제: 자동차와 전자 제품에 대한 온라인 논의
20.7 요약
연습문제
PART 08 사례
Chapter 21 사례
21.1 찰스 북클럽
21.2 독일 신용 평가 자료
21.3 테이코 소프트웨어 카탈로그 판매 회사
21.4 유권자
21.5 택시 예약 취소
21.6 목욕 비누 구매자 세분화
21.7 직접 우편 기금 조성
21.8 카탈로그 교차 판매
21.9 시계열 사례: 대중교통 수요 예측
이 책에 사용된 데이터 파일 목록
부록: 파이썬 유틸리티 함수
참고문헌
찾아보기
자료명 | 등록일 | 다운로드 |
---|---|---|
예제소스 | 2023-02-17 | 다운로드 |
도서구입 안내
<한빛아카데미> 도서는 한빛 홈페이지에서 더 이상 판매를 하지 않습니다. 도서 구입은 인터넷 서점을 이용하시기 바랍니다. 양해바랍니다.