Mạng Kohonen và ứng dụng cho việc đánh giá trình độ học vấn của các dân tộc tỉnh Yên Bái


Mạng nơron nhân tạo nói chung, mạng KOHONEN nói riêng đã và đang được nghiên cứu, ứng dụng mạnh mẽ và thành công ở nhiều lĩnh vực trong những năm gần đây, là công cụ tốt trong việc giải quyết các bài toán như: hợp và phân lớp đối tượng, phân cụm dữ liệu,...Nó thay thế hiệu quả các công cụ tính toán truyền thống để giải quyết các bài toán này.
Mạng nơron SOM được giáo sư Teuvo Kohonen của trường đại học Helsinki Phần Lan phát triển vào những năm 80 của thế kỷ 20 [9]. Đây là mạng truyền thẳng sử dụng thuật học cạnh tranh, không giám sát có khả năng phân cụm dữ liệu với một lượng lớn dữ liệu đầu vào.

Phân cụm có ý nghĩa rất quan trọng trong hoạt động của con người và được sử dụng rộng rãi trong nhiều ứng dụng, bao gồm nhận dạng mẫu, phân tích dữ liệu, xử lý ảnh, nghiên cứu thị trường.... [1] phân cụm dữ liệu có thể được sử dụng như một bước tiền xử lí cho các thuật toán khai phá dữ liệu khác như là phân loại và mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm. Với tư cách là một chức năng khai phá dữ liệu, phân tích phân cụm có thể được sử dụng như một công cụ độc lập chuẩn để quan sát đặc trưng của mỗi cụm thu được bên trong sự phân bố của dữ liệu và tập trung vào một tập riêng biệt của các cụm để giúp cho việc phân tích đạt kết quả.
Hiện nay có khá nhiều thuật toán đã được đưa ra để áp dụng cho bài toán phân cụm, tuy nhiên mỗi giải thuật đều có những ưu, nhược điểm riêng. Dựa trên các đặc tính của mạng nơron Kohonen thì việc lựa chọn giải thuật này cho bài toán phân cụm dựa trên tập dữ liệu trình độ học vấn phổ thông của các dân tộc tỉnh Yên Bái là một hướng đi mới, có nhiều hứa hẹn. Qua những phân tích ở trên cho thấy có thể phân cụm dựa trên tập dữ liệu trình độ học vấn phổ thông của các dân tộc tỉnh Yên Bái. Điều này có ý nghĩa quan trọng trong công tác quản lý, giúp cho ngành giáo dục và đào tạo có thể thấy được toàn cảnh về trình độ học vấn của các dân tộc ở các vùng miền trong tỉnh, qua đó có sự đánh giá chính xác về trình độ học vấn giữa các dân tộc, giữa các khu vực trong tỉnh để từ đó có thể đưa ra các định hướng phát triển giáo dục dân tộc giữa các vùng miền trong tỉnh cho phù hợp. Ngoài ra, việc phân cụm cũng có thể giúp định hướng công tác xoá mù chữ, phổ cập giáo dục tiểu học, phổ cập giáo dục trung học cơ sở đạt kết quả và bền vững.
Như vậy, nội dung nghiên cứu của đề tài là giải quyết bước đầu trong vấn đề về khai phá dữ liệu, có vai trò cũng như đóng góp rất quan trọng trong việc nâng cao hiệu quả cho các bước phân tích dữ liệu phía sau.
Được sự gợi ý của thầy hướng dẫn và nhận thấy tính thiết thực của vấn đề em chọn đề tài: “Mạng Kohonen và ứng dụng cho việc đánh giá trình độ học vấn của các dân tộc tỉnh Yên Bái”.

Chương 1: MẠNG NƠRON VÀ BÀI TOÁN PHÂN CỤM DỮ LIỆU .............. 3
1.1. Cấu trúc và mô hình mạng Nơron ............................................................... 3
1.1.1. Mô hình một nơron sinh học ............................................................... 3
1.1.2. Cấu trúc và mô hình của một nơron nhân tạo .................................... 4
1.2. Mạng Nơron Kohonen và bài toán phân cụm dữ liệu ................................. 7
1.2.1. Giới thiệu mạng Kohonen (SOM - Self Organizing Maps) ................. 7
1.2.2. Bài toán phân cụm dữ liệu ................................................................ 10
Chương 2: PHÂN CỤM DỮ LIỆU BẰNG MẠNG KOHONEN .................... 16
2.1. Thuật toán phân cụm dữ liệu ..................................................................... 16
2.2. Một số thuật toán trong phân cụm dữ liệu ................................................ 17
2.2.1. Thuật toán phân cụm phân cấp ......................................................... 17
2.2.2. Thuật toán phân cụm phân hoạch (Thuật toán K-means) ................ 18
2.2.3. Thuật toán phân cụm dựa trên mật độ (Thuật toán DBSCAN) ........ 22
2.2.4. Thuật toán phân cụm dựa trên lưới (Thuật toán STING) ................ 24
2.2.5. Các thuật toán phân cụm dựa trên mô hình (Thuật toán EM) ......... 25
2.3. Thuật toán phân cụm bằng mạng Kohonen .............................................. 26
2.3.1. Cấu trúc của mạng nơron Kohonen .................................................. 26
2.3.2. Thuật toán phân cụm bằng mạng Kohonen ...................................... 27
2.4. Phân cụm bằng mạng Kohonen .................................................................. 31
2.4.1. Khởi tạo mạng Kohonen (SOM) ........................................................ 31
2.4.2. Huấn luyện mạng Kohonen .............................................................. 32
2.4.3. Tỉ lệ học ............................................................................................. 32
2.4.4. Cập nhật lại trọng số ......................................................................... 33
2.4.5. Xác định nơron chiến thắng .............................................................. 34
Chương 3: ỨNG DỤNG MẠNG KOHONEN (SOM) TRONG PHÂN TÍCH
ĐÁNH GIÁ TRÌNH ĐỘ HỌC VẤN CÁC DÂN TỘC Ở TỈNH YÊN BÁI ..... 35
3.1. Mô tả bài toán ............................................................................................. 35
3.1.1. Khái quát điều kiện tự nhiên, tình hình kinh tế-xã hội và giáo dục tỉnh
Yên Bái ............................................................................................................... 35
3.1.2. Trình độ học vấn ............................................................................... 36
3.2. Thu thập dữ liệu. ........................................................................................ 37
3.3. Mạng Kohonen cho phân tích đánh giá trình độ học vấn các dân tộc ở tỉnh
Yên Bái ............................................................................................................... 42
3.3.1. Cấu trúc mạng ................................................................................... 42
3.3.2. Giới thiệu công cụ SOM Toolbox ...................................................... 42
3.3.3. Chuẩn bị dữ liệu ................................................................................ 48
3.3.4. Mô hình mạng Kohonen .................................................................... 49
3.3.5. Chương trình ứng dụng mô hình mạng Kohonen ............................ 51
3.3.6. Kết quả sau khi huấn luyện mô hình mạng Kohonen ....................... 52
3.3.7. Đánh giá kết quả ............................................................................... 57
Tài liệu tham khảo ............................................................................................... 64

LINK DOWNLOAD


Mạng nơron nhân tạo nói chung, mạng KOHONEN nói riêng đã và đang được nghiên cứu, ứng dụng mạnh mẽ và thành công ở nhiều lĩnh vực trong những năm gần đây, là công cụ tốt trong việc giải quyết các bài toán như: hợp và phân lớp đối tượng, phân cụm dữ liệu,...Nó thay thế hiệu quả các công cụ tính toán truyền thống để giải quyết các bài toán này.
Mạng nơron SOM được giáo sư Teuvo Kohonen của trường đại học Helsinki Phần Lan phát triển vào những năm 80 của thế kỷ 20 [9]. Đây là mạng truyền thẳng sử dụng thuật học cạnh tranh, không giám sát có khả năng phân cụm dữ liệu với một lượng lớn dữ liệu đầu vào.

Phân cụm có ý nghĩa rất quan trọng trong hoạt động của con người và được sử dụng rộng rãi trong nhiều ứng dụng, bao gồm nhận dạng mẫu, phân tích dữ liệu, xử lý ảnh, nghiên cứu thị trường.... [1] phân cụm dữ liệu có thể được sử dụng như một bước tiền xử lí cho các thuật toán khai phá dữ liệu khác như là phân loại và mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm. Với tư cách là một chức năng khai phá dữ liệu, phân tích phân cụm có thể được sử dụng như một công cụ độc lập chuẩn để quan sát đặc trưng của mỗi cụm thu được bên trong sự phân bố của dữ liệu và tập trung vào một tập riêng biệt của các cụm để giúp cho việc phân tích đạt kết quả.
Hiện nay có khá nhiều thuật toán đã được đưa ra để áp dụng cho bài toán phân cụm, tuy nhiên mỗi giải thuật đều có những ưu, nhược điểm riêng. Dựa trên các đặc tính của mạng nơron Kohonen thì việc lựa chọn giải thuật này cho bài toán phân cụm dựa trên tập dữ liệu trình độ học vấn phổ thông của các dân tộc tỉnh Yên Bái là một hướng đi mới, có nhiều hứa hẹn. Qua những phân tích ở trên cho thấy có thể phân cụm dựa trên tập dữ liệu trình độ học vấn phổ thông của các dân tộc tỉnh Yên Bái. Điều này có ý nghĩa quan trọng trong công tác quản lý, giúp cho ngành giáo dục và đào tạo có thể thấy được toàn cảnh về trình độ học vấn của các dân tộc ở các vùng miền trong tỉnh, qua đó có sự đánh giá chính xác về trình độ học vấn giữa các dân tộc, giữa các khu vực trong tỉnh để từ đó có thể đưa ra các định hướng phát triển giáo dục dân tộc giữa các vùng miền trong tỉnh cho phù hợp. Ngoài ra, việc phân cụm cũng có thể giúp định hướng công tác xoá mù chữ, phổ cập giáo dục tiểu học, phổ cập giáo dục trung học cơ sở đạt kết quả và bền vững.
Như vậy, nội dung nghiên cứu của đề tài là giải quyết bước đầu trong vấn đề về khai phá dữ liệu, có vai trò cũng như đóng góp rất quan trọng trong việc nâng cao hiệu quả cho các bước phân tích dữ liệu phía sau.
Được sự gợi ý của thầy hướng dẫn và nhận thấy tính thiết thực của vấn đề em chọn đề tài: “Mạng Kohonen và ứng dụng cho việc đánh giá trình độ học vấn của các dân tộc tỉnh Yên Bái”.

Chương 1: MẠNG NƠRON VÀ BÀI TOÁN PHÂN CỤM DỮ LIỆU .............. 3
1.1. Cấu trúc và mô hình mạng Nơron ............................................................... 3
1.1.1. Mô hình một nơron sinh học ............................................................... 3
1.1.2. Cấu trúc và mô hình của một nơron nhân tạo .................................... 4
1.2. Mạng Nơron Kohonen và bài toán phân cụm dữ liệu ................................. 7
1.2.1. Giới thiệu mạng Kohonen (SOM - Self Organizing Maps) ................. 7
1.2.2. Bài toán phân cụm dữ liệu ................................................................ 10
Chương 2: PHÂN CỤM DỮ LIỆU BẰNG MẠNG KOHONEN .................... 16
2.1. Thuật toán phân cụm dữ liệu ..................................................................... 16
2.2. Một số thuật toán trong phân cụm dữ liệu ................................................ 17
2.2.1. Thuật toán phân cụm phân cấp ......................................................... 17
2.2.2. Thuật toán phân cụm phân hoạch (Thuật toán K-means) ................ 18
2.2.3. Thuật toán phân cụm dựa trên mật độ (Thuật toán DBSCAN) ........ 22
2.2.4. Thuật toán phân cụm dựa trên lưới (Thuật toán STING) ................ 24
2.2.5. Các thuật toán phân cụm dựa trên mô hình (Thuật toán EM) ......... 25
2.3. Thuật toán phân cụm bằng mạng Kohonen .............................................. 26
2.3.1. Cấu trúc của mạng nơron Kohonen .................................................. 26
2.3.2. Thuật toán phân cụm bằng mạng Kohonen ...................................... 27
2.4. Phân cụm bằng mạng Kohonen .................................................................. 31
2.4.1. Khởi tạo mạng Kohonen (SOM) ........................................................ 31
2.4.2. Huấn luyện mạng Kohonen .............................................................. 32
2.4.3. Tỉ lệ học ............................................................................................. 32
2.4.4. Cập nhật lại trọng số ......................................................................... 33
2.4.5. Xác định nơron chiến thắng .............................................................. 34
Chương 3: ỨNG DỤNG MẠNG KOHONEN (SOM) TRONG PHÂN TÍCH
ĐÁNH GIÁ TRÌNH ĐỘ HỌC VẤN CÁC DÂN TỘC Ở TỈNH YÊN BÁI ..... 35
3.1. Mô tả bài toán ............................................................................................. 35
3.1.1. Khái quát điều kiện tự nhiên, tình hình kinh tế-xã hội và giáo dục tỉnh
Yên Bái ............................................................................................................... 35
3.1.2. Trình độ học vấn ............................................................................... 36
3.2. Thu thập dữ liệu. ........................................................................................ 37
3.3. Mạng Kohonen cho phân tích đánh giá trình độ học vấn các dân tộc ở tỉnh
Yên Bái ............................................................................................................... 42
3.3.1. Cấu trúc mạng ................................................................................... 42
3.3.2. Giới thiệu công cụ SOM Toolbox ...................................................... 42
3.3.3. Chuẩn bị dữ liệu ................................................................................ 48
3.3.4. Mô hình mạng Kohonen .................................................................... 49
3.3.5. Chương trình ứng dụng mô hình mạng Kohonen ............................ 51
3.3.6. Kết quả sau khi huấn luyện mô hình mạng Kohonen ....................... 52
3.3.7. Đánh giá kết quả ............................................................................... 57
Tài liệu tham khảo ............................................................................................... 64

LINK DOWNLOAD

M_tả
M_tả

Không có nhận xét nào: