(LUẬN văn THẠC sĩ) ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
(LUẬN văn THẠC sĩ) ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động.
NỘI DUNG:
Giới thiệu .............................................................................................................. 1
1.1.2
Đặt vấn đề và giải quyết bài toán .......................................................................... 2
1.2.
Các đặc điểm về dữ liệu nhà mạng .............................................................................. 3
1.2.1 Giới thiệu về dữ liệu của nhà mạng ........................................................................... 4
1.2.2 Khối lƣợng dữ liệu lớn và phức tạp ........................................................................... 5
1.2.3 Dữ liệu đa dạng và trùng lặp ...................................................................................... 5
1.2.4 Tập dữ liệu không cân bằng ....................................................................................... 6
1.2.5 Giá trị bị mất .............................................................................................................. 6
1.2.6 Giá trị cố định ............................................................................................................ 6
1.3.
Phân nhóm nghề nghiệp và dữ liệu mẫu ...................................................................... 7
1.3.1 Lý thuyết chọn mẫu ................................................................................................... 7
1.3.2 Mẫu nghiên cứu ......................................................................................................... 8
1.4.
Kết luận ........................................................................................................................ 8
CHƢƠNG 2 – MỘT SỐ THUẬT TOÁN HỌC MÁY LIÊN QUAN ........................................ 9
2.1 Cây quyết định .................................................................................................................. 9
2.2 Rừng ngẫu nhiên ............................................................................................................. 11
2.3 Mơ hình tuyến tính tổng qt .......................................................................................... 12
2.3 Các thuật toán Boosting .................................................................................................. 14
2.3.1 Phát biểu bài toán ..................................................................................................... 14
download by :
6
2.3.2 Boosting ................................................................................................................... 15
2.3.3 Gradient descent ...................................................................................................... 15
2.3.4 Kết hợp hai hƣớng tiếp cận ...................................................................................... 16
2.3.5 Thuật toán Gradient boosting (GBM) ...................................................................... 16
2.3.6 Triển khai thuật toán XGBoost ................................................................................ 17
2.4 Đánh giá mơ hình ............................................................................................................ 19
2.4.1 Độ đo dùng trong phân loại ..................................................................................... 19
2.4.2 ROC và AUC ........................................................................................................... 21
2.4.3 Đánh giá mơ hình bằng kiểm tra chéo ..................................................................... 22
2.5 Kết luận ........................................................................................................................... 24
CHƢƠNG 3 - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN NHĨM NGHỀ NGHIỆP ...................... 25
3.1 Mơ hình đề xuất .............................................................................................................. 25
3.2 Xử lý dữ liệu ................................................................................................................... 25
3.2.1 Các bảng dữ liệu chính ............................................................................................ 25
3.2.2 Xây dựng đặc trƣng ................................................................................................. 32
3.2.2 Trích chọn đặc trƣng ................................................................................................ 35
3.3 Thực nghiệm và kết quả .................................................................................................. 37
3.4 Kết luận ........................................................................................................................... 43
KẾT LUẬN............................................................................................................................... 44
DANH MỤC CÁC TÀI LIỆU THAM KHẢO ........................................................................ 45
LỜI CAM ĐOAN
LINK ĐẶT MUA TÀI LIỆU ONLINE
LINK ĐẶT MUA TÀI LIỆU ONLINE 1
LINK DOWNLOAD (UPDATING...)
(LUẬN văn THẠC sĩ) ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động.
NỘI DUNG:
Giới thiệu .............................................................................................................. 1
1.1.2
Đặt vấn đề và giải quyết bài toán .......................................................................... 2
1.2.
Các đặc điểm về dữ liệu nhà mạng .............................................................................. 3
1.2.1 Giới thiệu về dữ liệu của nhà mạng ........................................................................... 4
1.2.2 Khối lƣợng dữ liệu lớn và phức tạp ........................................................................... 5
1.2.3 Dữ liệu đa dạng và trùng lặp ...................................................................................... 5
1.2.4 Tập dữ liệu không cân bằng ....................................................................................... 6
1.2.5 Giá trị bị mất .............................................................................................................. 6
1.2.6 Giá trị cố định ............................................................................................................ 6
1.3.
Phân nhóm nghề nghiệp và dữ liệu mẫu ...................................................................... 7
1.3.1 Lý thuyết chọn mẫu ................................................................................................... 7
1.3.2 Mẫu nghiên cứu ......................................................................................................... 8
1.4.
Kết luận ........................................................................................................................ 8
CHƢƠNG 2 – MỘT SỐ THUẬT TOÁN HỌC MÁY LIÊN QUAN ........................................ 9
2.1 Cây quyết định .................................................................................................................. 9
2.2 Rừng ngẫu nhiên ............................................................................................................. 11
2.3 Mơ hình tuyến tính tổng qt .......................................................................................... 12
2.3 Các thuật toán Boosting .................................................................................................. 14
2.3.1 Phát biểu bài toán ..................................................................................................... 14
download by :
6
2.3.2 Boosting ................................................................................................................... 15
2.3.3 Gradient descent ...................................................................................................... 15
2.3.4 Kết hợp hai hƣớng tiếp cận ...................................................................................... 16
2.3.5 Thuật toán Gradient boosting (GBM) ...................................................................... 16
2.3.6 Triển khai thuật toán XGBoost ................................................................................ 17
2.4 Đánh giá mơ hình ............................................................................................................ 19
2.4.1 Độ đo dùng trong phân loại ..................................................................................... 19
2.4.2 ROC và AUC ........................................................................................................... 21
2.4.3 Đánh giá mơ hình bằng kiểm tra chéo ..................................................................... 22
2.5 Kết luận ........................................................................................................................... 24
CHƢƠNG 3 - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN NHĨM NGHỀ NGHIỆP ...................... 25
3.1 Mơ hình đề xuất .............................................................................................................. 25
3.2 Xử lý dữ liệu ................................................................................................................... 25
3.2.1 Các bảng dữ liệu chính ............................................................................................ 25
3.2.2 Xây dựng đặc trƣng ................................................................................................. 32
3.2.2 Trích chọn đặc trƣng ................................................................................................ 35
3.3 Thực nghiệm và kết quả .................................................................................................. 37
3.4 Kết luận ........................................................................................................................... 43
KẾT LUẬN............................................................................................................................... 44
DANH MỤC CÁC TÀI LIỆU THAM KHẢO ........................................................................ 45
LỜI CAM ĐOAN
LINK ĐẶT MUA TÀI LIỆU ONLINE
LINK ĐẶT MUA TÀI LIỆU ONLINE 1
LINK DOWNLOAD (UPDATING...)
Không có nhận xét nào: