So sánh ba thuật toán elbow, average silhouette, gap statistic xác định số phân cụm tối ưu



Trong thời đại cuộc cách mạng công nghiệp lần thứ  tư, hầu hết dữ  liệu đều được số  hóa. Quá trình số  hóa dữ  liệu đã tạo ra một cuộc cách mạng về  dữ  liệu mà người ta thường gọi là big data hay dữ liệu lớn. Big data không chỉ là dữ liệu lớn về dung lượng mà còn đa dạng về cấu trúc, định dạng, nguồn phát sinh, mức độ thay đổi,... Trong lĩnh vực khai phá dữ liệu và khoa học dữ liệu, phân cụm dữ liệu được xem là công cụ quan trọng để phân tích và xử lý các tập dữ liệu lớn và được ứng dụng nhiều vào các lĩnh vực kinh doanh, công nghệ, khoa học, giáo dục,..



NỘI DUNG:


CHƯƠNG 1. GIỚI THIỆU  .....................................................................................  1

1.1.  Lý do chọn đề tài  .....................................................................................  1

1.2.  Mục tiêu và đối tượng nghiên cứu  ...........................................................  1

1.3.  Phạm vi nghiên cứu  .................................................................................  1

1.4.  Cấu trúc luận văn  .....................................................................................  1

CHƯƠNG 2. TỔNG QUAN VỀ  PHÂN CỤM VÀ MỘT SỐ  PHƯƠNG PHÁP 

PHÂN CỤM DỮ LIỆU  ...................................................................................................  3

2.1.  Khái niệm và mục tiêu phân cụm dữ liệu  ................................................  3

2.1.1.  Phân cụm dữ liệu là gì?  ......................................................................  3

2.1.2.  Mục tiêu của phân cụm dữ liệu  ..........................................................  4

2.2.  Các ứng dụng của phân cụm dữ liệu  ........................................................  6

2.3.  Các yêu cầu và những vấn đề tồn tại trong phân cụm dữ liệu  .................  7

2.3.1.  Các yêu cầu của phân cụm dữ liệu  .....................................................  7

2.3.2.  Những vấn đề tồn tại trong phân cụm dữ liệu  ....................................  8

2.4.  Những kỹ thuật tiếp cận trong phân cụm dữ liệu  ....................................  8

2.4.1.  Phương pháp phân cụm phân hoạch (Partitioning Methods)  .............  9

2.4.2.  Phương pháp phân cụm phân cấp (Hierarchical Methods)  ................  9 

iv

2.4.3.  Phương pháp phân cụm dựa trên mật độ (Density-Based Methods)  11

2.4.4.  Phương pháp phân cụm dựa trên lưới (Grid-Based Methods)  .........  11

2.4.5.  Phương pháp phân cụm dựa trên mô hình (Model-Based Clustering 

Methods)  12

2.4.6.  Phương pháp phân cụm có dữ  liệu ràng buộc (Binding data Clustering 

Methods)  13

2.5.  Một số khái niệm cần thiết khi tiếp cận phân cụm dữ liệu  ....................  14

2.5.1.  Độ đo khoảng cách và các kiểu dữ liệu  ............................................  14

2.5.2.  Cấu trúc dữ liệu  ................................................................................  18

2.6.  Giới thiệu ngôn ngữ R  ...........................................................................  18

CHƯƠNG  3.  KIẾN  THỨC  CƠ  SỞ  THUẬT  TOÁN  ELBOW,  AVERAGE 

SILHOUETTE, GAP STATISTIC  ................................................................................  20

3.1.  Giới thiệu  ...............................................................................................  20

3.2.  Thuật toán Elbow  ...................................................................................  20

3.2.1.  Ý tưởng thuật toán  ............................................................................  20

3.2.2.  Mô tả thuật toán  ................................................................................  21

3.3.  Thuật toán Average silhouette  ...............................................................  22

3.3.1.  Ý tưởng thuật toán  ............................................................................  22

3.3.2.  Mô tả thuật toán  ................................................................................  23

3.4.  Thuật toán Gap statistic  .........................................................................  23

3.4.1.  Ý tưởng thuật toán  ............................................................................  23

3.4.2.  Mô tả thuật toán  ................................................................................  24

3.5.  Những yếu tố ảnh hưởng đến chất lượng phân cụm dữ liệu..................  25

3.5.1.  Hệ số Silhouette  ................................................................................  26

3.5.2.  Chỉ số Dunn  ......................................................................................  28 

v

CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ  ................................................  29

4.1.  Các bộ dữ liệu thử nghiệm  .....................................................................  29

4.2.  Ứng dụng ngôn ngữ R để phân cụm dữ liệu  ..........................................  30

4.2.1.  Các gói ngôn ngữ R hỗ trợ tính toán số lượng phân cụm  ................  30

4.2.2.  Thử nghiệm kiểm tra, đánh giá trực quan trên các tập dữ liệu  .........  32

4.3.  Kết quả thực nghiệm và đánh giá  ..........................................................  34

4.3.1.  Kết quả thực nghiệm  ........................................................................  34

4.3.2.  Đánh giá ...........................................................................................  41

4.4.  So sánh các thuật toán dựa vào thử nghiệm trên các bộ dữ liệu  ............  41

4.5.  Kết luận  ..................................................................................................  48

4.6.  Hướng nghiên cứu  .................................................................................  48

TÀI LIỆU THAM KHẢO  ..................................................................................  49

Tiếng việt  ..........................................................................................................  49

Tiếng Anh  .





LINK DOWNLOAD



Trong thời đại cuộc cách mạng công nghiệp lần thứ  tư, hầu hết dữ  liệu đều được số  hóa. Quá trình số  hóa dữ  liệu đã tạo ra một cuộc cách mạng về  dữ  liệu mà người ta thường gọi là big data hay dữ liệu lớn. Big data không chỉ là dữ liệu lớn về dung lượng mà còn đa dạng về cấu trúc, định dạng, nguồn phát sinh, mức độ thay đổi,... Trong lĩnh vực khai phá dữ liệu và khoa học dữ liệu, phân cụm dữ liệu được xem là công cụ quan trọng để phân tích và xử lý các tập dữ liệu lớn và được ứng dụng nhiều vào các lĩnh vực kinh doanh, công nghệ, khoa học, giáo dục,..



NỘI DUNG:


CHƯƠNG 1. GIỚI THIỆU  .....................................................................................  1

1.1.  Lý do chọn đề tài  .....................................................................................  1

1.2.  Mục tiêu và đối tượng nghiên cứu  ...........................................................  1

1.3.  Phạm vi nghiên cứu  .................................................................................  1

1.4.  Cấu trúc luận văn  .....................................................................................  1

CHƯƠNG 2. TỔNG QUAN VỀ  PHÂN CỤM VÀ MỘT SỐ  PHƯƠNG PHÁP 

PHÂN CỤM DỮ LIỆU  ...................................................................................................  3

2.1.  Khái niệm và mục tiêu phân cụm dữ liệu  ................................................  3

2.1.1.  Phân cụm dữ liệu là gì?  ......................................................................  3

2.1.2.  Mục tiêu của phân cụm dữ liệu  ..........................................................  4

2.2.  Các ứng dụng của phân cụm dữ liệu  ........................................................  6

2.3.  Các yêu cầu và những vấn đề tồn tại trong phân cụm dữ liệu  .................  7

2.3.1.  Các yêu cầu của phân cụm dữ liệu  .....................................................  7

2.3.2.  Những vấn đề tồn tại trong phân cụm dữ liệu  ....................................  8

2.4.  Những kỹ thuật tiếp cận trong phân cụm dữ liệu  ....................................  8

2.4.1.  Phương pháp phân cụm phân hoạch (Partitioning Methods)  .............  9

2.4.2.  Phương pháp phân cụm phân cấp (Hierarchical Methods)  ................  9 

iv

2.4.3.  Phương pháp phân cụm dựa trên mật độ (Density-Based Methods)  11

2.4.4.  Phương pháp phân cụm dựa trên lưới (Grid-Based Methods)  .........  11

2.4.5.  Phương pháp phân cụm dựa trên mô hình (Model-Based Clustering 

Methods)  12

2.4.6.  Phương pháp phân cụm có dữ  liệu ràng buộc (Binding data Clustering 

Methods)  13

2.5.  Một số khái niệm cần thiết khi tiếp cận phân cụm dữ liệu  ....................  14

2.5.1.  Độ đo khoảng cách và các kiểu dữ liệu  ............................................  14

2.5.2.  Cấu trúc dữ liệu  ................................................................................  18

2.6.  Giới thiệu ngôn ngữ R  ...........................................................................  18

CHƯƠNG  3.  KIẾN  THỨC  CƠ  SỞ  THUẬT  TOÁN  ELBOW,  AVERAGE 

SILHOUETTE, GAP STATISTIC  ................................................................................  20

3.1.  Giới thiệu  ...............................................................................................  20

3.2.  Thuật toán Elbow  ...................................................................................  20

3.2.1.  Ý tưởng thuật toán  ............................................................................  20

3.2.2.  Mô tả thuật toán  ................................................................................  21

3.3.  Thuật toán Average silhouette  ...............................................................  22

3.3.1.  Ý tưởng thuật toán  ............................................................................  22

3.3.2.  Mô tả thuật toán  ................................................................................  23

3.4.  Thuật toán Gap statistic  .........................................................................  23

3.4.1.  Ý tưởng thuật toán  ............................................................................  23

3.4.2.  Mô tả thuật toán  ................................................................................  24

3.5.  Những yếu tố ảnh hưởng đến chất lượng phân cụm dữ liệu..................  25

3.5.1.  Hệ số Silhouette  ................................................................................  26

3.5.2.  Chỉ số Dunn  ......................................................................................  28 

v

CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ  ................................................  29

4.1.  Các bộ dữ liệu thử nghiệm  .....................................................................  29

4.2.  Ứng dụng ngôn ngữ R để phân cụm dữ liệu  ..........................................  30

4.2.1.  Các gói ngôn ngữ R hỗ trợ tính toán số lượng phân cụm  ................  30

4.2.2.  Thử nghiệm kiểm tra, đánh giá trực quan trên các tập dữ liệu  .........  32

4.3.  Kết quả thực nghiệm và đánh giá  ..........................................................  34

4.3.1.  Kết quả thực nghiệm  ........................................................................  34

4.3.2.  Đánh giá ...........................................................................................  41

4.4.  So sánh các thuật toán dựa vào thử nghiệm trên các bộ dữ liệu  ............  41

4.5.  Kết luận  ..................................................................................................  48

4.6.  Hướng nghiên cứu  .................................................................................  48

TÀI LIỆU THAM KHẢO  ..................................................................................  49

Tiếng việt  ..........................................................................................................  49

Tiếng Anh  .





LINK DOWNLOAD

M_tả
M_tả

Không có nhận xét nào: