PHÂN TÍCH DỮ LIỆU PHÂN HẠNG TÍN DỤNG DỰA TRÊN BỘ DỮ LIỆU XYZ BẰNG PHẦN MỀM ORANGE
Định nghĩa phân lớp dữ liệu: Phân lớp dữ liệu là kĩ thuật dựa trên tập huấn luyện và những giá trị hay hay là nhãn của lớp trong một thuộc tính phân lớp và sử dụng nó trong việc phân lớp dữ liệu mới.
Quá trình phân lớp dữ liệu: gồm 2 bước
Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)
Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ:
Bước 2.1: Đánh giá mô hình (kiểm tra tính đúngđắn của mô hình)
Bước 2.2: Phân lớp dữ liệu mới
NỘI DUNG:
CHƯƠNG 1. TỔNG QUAN 1
1.1 Tổng quan về bài toán phân lớp dữ liệu 1
1.2 Giới thiệu về Python và Phần mềm Orange 1
1.3 Lý Do Chọn Lựa Đề Tài 7
CHƯƠNG 2. CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU 8
2.1. Các mô hình phân lớp dữ liệu Mô hình phân lớp trên phần mềm Orange: 8
2.1.1.Mô hình Logistic Regression ( hồi quy logistic): 8
2.1.2.Mô hình Decision tree ( cây quyết định) : 9
2.1.3. Mô hình Support Vector Machine 10
2.1.4. Mô hình Neural Network 12
2.2. Quy trình phân lớp dữ liệu 13
2.2.1. Phân cụm dữ liệu 13
2.2.1.1. Phân cụm phân cấp (Hierarchical Clustering) bằng phương pháp Diana 14
2.2.1.2. Phân cụm phân cấp bằng phương pháp Diana và kết quả 14
2.2.1.3. Phân cụm phân hoạch bằng thuật toán K-means và kết quả 16
2.2.1.4. Đánh giá các mô hình phân cụm, chọn mô hình phân cụm tối ưu 17
2.2.2. Phân lớp dữ liệu 18
2.2.2.1. Một số phương pháp phân lớp dữ liệu 18
2.2.2.2. Xây dựng mô hình phân lớp, kiểm tra mô hình và phân lớp dữ liệu mới 19
CHƯƠNG 3. CÁC KẾT QUẢ THỰC NGHIỆM 22
3.1 Bộ dữ liệu 22
3.1.1. Mô tả dữ liệu 23
3.2. Phân tích và đánh giá 25
CHƯƠNG 4. KẾT LUẬN 28
4.1. Các Kết Quả Đạt Được 28
4.2. Những hạn chế và phát triển 28
LỜI CẢM ƠN 28
TÀI LIỆU THAM KHẢO 29
Định nghĩa phân lớp dữ liệu: Phân lớp dữ liệu là kĩ thuật dựa trên tập huấn luyện và những giá trị hay hay là nhãn của lớp trong một thuộc tính phân lớp và sử dụng nó trong việc phân lớp dữ liệu mới.
Quá trình phân lớp dữ liệu: gồm 2 bước
Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)
Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ:
Bước 2.1: Đánh giá mô hình (kiểm tra tính đúngđắn của mô hình)
Bước 2.2: Phân lớp dữ liệu mới
NỘI DUNG:
CHƯƠNG 1. TỔNG QUAN 1
1.1 Tổng quan về bài toán phân lớp dữ liệu 1
1.2 Giới thiệu về Python và Phần mềm Orange 1
1.3 Lý Do Chọn Lựa Đề Tài 7
CHƯƠNG 2. CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU 8
2.1. Các mô hình phân lớp dữ liệu Mô hình phân lớp trên phần mềm Orange: 8
2.1.1.Mô hình Logistic Regression ( hồi quy logistic): 8
2.1.2.Mô hình Decision tree ( cây quyết định) : 9
2.1.3. Mô hình Support Vector Machine 10
2.1.4. Mô hình Neural Network 12
2.2. Quy trình phân lớp dữ liệu 13
2.2.1. Phân cụm dữ liệu 13
2.2.1.1. Phân cụm phân cấp (Hierarchical Clustering) bằng phương pháp Diana 14
2.2.1.2. Phân cụm phân cấp bằng phương pháp Diana và kết quả 14
2.2.1.3. Phân cụm phân hoạch bằng thuật toán K-means và kết quả 16
2.2.1.4. Đánh giá các mô hình phân cụm, chọn mô hình phân cụm tối ưu 17
2.2.2. Phân lớp dữ liệu 18
2.2.2.1. Một số phương pháp phân lớp dữ liệu 18
2.2.2.2. Xây dựng mô hình phân lớp, kiểm tra mô hình và phân lớp dữ liệu mới 19
CHƯƠNG 3. CÁC KẾT QUẢ THỰC NGHIỆM 22
3.1 Bộ dữ liệu 22
3.1.1. Mô tả dữ liệu 23
3.2. Phân tích và đánh giá 25
CHƯƠNG 4. KẾT LUẬN 28
4.1. Các Kết Quả Đạt Được 28
4.2. Những hạn chế và phát triển 28
LỜI CẢM ƠN 28
TÀI LIỆU THAM KHẢO 29


.png)
.png)
%20(1).png)
.png)




Không có nhận xét nào: