Nghiên cứu các phương pháp phân lớp dữ liệu và ứng dụng trong bài toán dự báo thuê bao rời mạng viễn thông (Full)



Các nhà kinh doanh dịch vụ mạng cần có các giải pháp dữ chân khách hàng hơn là tìm kiếm khách hàng mới. Việc dự báo khách hàng có thể rời bỏ mạng trong tƣơng lai là rất cần thiết, nhằm mục đích hỗ trợ các nhà kinh doanh dịch vụ mạng có quyết sách kịp thời trong công việc giữ chân khách hàng. 



NỘI DUNG:


Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU .................................................. 3 

1.1. Tổng quan về khai phá dữ liệu ....................................................................... 3 

1.1.1. Tại sao cần khai phá dữ liệu .................................................................... 3 

1.1.2. Các khái niệm cơ bản .............................................................................. 3 

1.1.3. Quy trình khai phá dữ liệu ....................................................................... 5 

1.1.4. Các bài toán cơ bản trong khai phá dữ liệu .............................................. 6 

1.1.5. Các ứng dụng của khai phá dữ liệu .......................................................... 7 

1.1.6. Quy trình xây dựng mô hình khai phá dữ liệu .......................................... 8 

1.2.Bài toán phân lớp và dự báo ......................................................................... 10 

1.2.1. Giới thiệu bài toán ................................................................................. 10 

1.2.2  Các bƣớc giải quyết bài toán ................................................................. 11 

Chƣơng 2: CÁC PHƢƠNG PHÁP PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU .... 12 

2.1. Phân lớp bằng phƣơng pháp quy nạp cây quyết định ................................... 12 

2.2. Phân lớp bằng phƣơng pháp Bayesian ......................................................... 15 

2.3.  Support Vector Machine (SVM) ................................................................. 16 

2.3.1 Phân tách tuyến tính với lề cực đại ......................................................... 16 

2.3.1.1. Tìm kiếm siêu phẳng với lề cực đại .................................................... 21 

2.3.1.2. Hàm phân loại tuyến tính với lề mềm cực đại ..................................... 22 

2.3.1.3. Lý thuyết tối ƣu Lagrangian ............................................................... 23 

2.3.1.4. Tìm kiếm siêu phẳng với lề cực đại .................................................... 25 

       2.3.2. Phƣơng pháp hàm nhân (kernel methods) ................................................... 28 

2.3.2.1 Chiều VC về khả năng phân tách của hàm tuyến tính .......................... 29 

2.3.2.2 Hàm nhân và SVM phi tuyến (Kernel function and nonlinear SVMs) . 30 

  iv     

 

2.4. Phân lớp bằng mạng lan truyền ngƣợc (mạng Nơron) .................................. 33 

Chƣơng 3: ỨNG DỤNG BÀI TOÁN PHÂN LỚP DỮ LIỆU THUÊ BAO RỜI 

MẠNG VIỄN THÔNG ................................................................................................. 37 

3.1. Bài toán phân lớp dữ liệu thuê bao rời mạng................................................ 37 

3.1.1. Phát biểu bài toán .................................................................................. 37 

3.1.2. Khái niệm thuê bao rời mạng “churn” ................................................... 38 

3.1.3. Thu thập, chuẩn hóa dữ liệu .................................................................. 39 

3.1.4. Lựa chọn thuộc tính............................................................................... 42 

3.2. Lựa chọn phƣơng pháp, công cụ .................................................................. 45 

3.2.1. Ngôn ngữ R ........................................................................................... 45 

3.2.2. Phƣơng pháp phân lớp ........................................................................... 47 

3.2.3. Đánh giá hiệu năng................................................................................ 48 

3.3. Thực nghiệm phân lớp trên ngôn ngữ R....................................................... 50 

3.3.1. Phân lớp dữ liệu sử dụng cây quyết định C4.5 ....................................... 51 

3.3.2. Phân lớp dữ liệu sử dụng phƣơng pháp Naive Bayes ............................. 53 

3.3.3. Phân lớp dữ liệu  bằng Support Vector Machines .................................. 55 

3.3. Đánh giá kết quả .......................................................................................... 56 

KẾT LUẬN .................................................................................................................... 58 

TÀI LIỆU THAM KHẢO





Các nhà kinh doanh dịch vụ mạng cần có các giải pháp dữ chân khách hàng hơn là tìm kiếm khách hàng mới. Việc dự báo khách hàng có thể rời bỏ mạng trong tƣơng lai là rất cần thiết, nhằm mục đích hỗ trợ các nhà kinh doanh dịch vụ mạng có quyết sách kịp thời trong công việc giữ chân khách hàng. 



NỘI DUNG:


Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU .................................................. 3 

1.1. Tổng quan về khai phá dữ liệu ....................................................................... 3 

1.1.1. Tại sao cần khai phá dữ liệu .................................................................... 3 

1.1.2. Các khái niệm cơ bản .............................................................................. 3 

1.1.3. Quy trình khai phá dữ liệu ....................................................................... 5 

1.1.4. Các bài toán cơ bản trong khai phá dữ liệu .............................................. 6 

1.1.5. Các ứng dụng của khai phá dữ liệu .......................................................... 7 

1.1.6. Quy trình xây dựng mô hình khai phá dữ liệu .......................................... 8 

1.2.Bài toán phân lớp và dự báo ......................................................................... 10 

1.2.1. Giới thiệu bài toán ................................................................................. 10 

1.2.2  Các bƣớc giải quyết bài toán ................................................................. 11 

Chƣơng 2: CÁC PHƢƠNG PHÁP PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU .... 12 

2.1. Phân lớp bằng phƣơng pháp quy nạp cây quyết định ................................... 12 

2.2. Phân lớp bằng phƣơng pháp Bayesian ......................................................... 15 

2.3.  Support Vector Machine (SVM) ................................................................. 16 

2.3.1 Phân tách tuyến tính với lề cực đại ......................................................... 16 

2.3.1.1. Tìm kiếm siêu phẳng với lề cực đại .................................................... 21 

2.3.1.2. Hàm phân loại tuyến tính với lề mềm cực đại ..................................... 22 

2.3.1.3. Lý thuyết tối ƣu Lagrangian ............................................................... 23 

2.3.1.4. Tìm kiếm siêu phẳng với lề cực đại .................................................... 25 

       2.3.2. Phƣơng pháp hàm nhân (kernel methods) ................................................... 28 

2.3.2.1 Chiều VC về khả năng phân tách của hàm tuyến tính .......................... 29 

2.3.2.2 Hàm nhân và SVM phi tuyến (Kernel function and nonlinear SVMs) . 30 

  iv     

 

2.4. Phân lớp bằng mạng lan truyền ngƣợc (mạng Nơron) .................................. 33 

Chƣơng 3: ỨNG DỤNG BÀI TOÁN PHÂN LỚP DỮ LIỆU THUÊ BAO RỜI 

MẠNG VIỄN THÔNG ................................................................................................. 37 

3.1. Bài toán phân lớp dữ liệu thuê bao rời mạng................................................ 37 

3.1.1. Phát biểu bài toán .................................................................................. 37 

3.1.2. Khái niệm thuê bao rời mạng “churn” ................................................... 38 

3.1.3. Thu thập, chuẩn hóa dữ liệu .................................................................. 39 

3.1.4. Lựa chọn thuộc tính............................................................................... 42 

3.2. Lựa chọn phƣơng pháp, công cụ .................................................................. 45 

3.2.1. Ngôn ngữ R ........................................................................................... 45 

3.2.2. Phƣơng pháp phân lớp ........................................................................... 47 

3.2.3. Đánh giá hiệu năng................................................................................ 48 

3.3. Thực nghiệm phân lớp trên ngôn ngữ R....................................................... 50 

3.3.1. Phân lớp dữ liệu sử dụng cây quyết định C4.5 ....................................... 51 

3.3.2. Phân lớp dữ liệu sử dụng phƣơng pháp Naive Bayes ............................. 53 

3.3.3. Phân lớp dữ liệu  bằng Support Vector Machines .................................. 55 

3.3. Đánh giá kết quả .......................................................................................... 56 

KẾT LUẬN .................................................................................................................... 58 

TÀI LIỆU THAM KHẢO



M_tả
M_tả

Không có nhận xét nào: