Báo cáo đồ án Decision Tree Regression



I. Giới thiệu bài toán

a) Giới thiệu chung

Cây quyết định là một thuật toán dựa trên cấu trúc cây được sử dụng để giải quyết vấn đề hồi quy (Regression) hoặc phân loại (Classification), và rất hữu ích cho các bộ dữ liệu phức tạp. Cây quyết định thuộc mơ hình thuật tốn học có giảm sát (Supervised learning), nó hoạt động bằng cách quan sát các đặc điểm, tính năng của một đối tượng và đào tạo một mơ hình trong cấu trúc của cây, chia nhỏ tập dữ liệu thành các tập con ngày càng nhỏ hơn và sau đó đưa ra các dự đốn dữ liệu trong tương lai dựa trên tập con.

Hình 1.1: Cấu trúc của Decision Tree


b) Cây quyết định

Cây quyết định là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật. Các thuộc tính của đối tượng có thể thuộc các kiểu dữ liệu khác nhau như Nhị phân (Binary) , Định danh (Nominal), Thứ tự (Ordinal), Số lượng (Quantitative) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal. Nói chung, cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes) của nó, cây quyết định sẽ sinh ra các luật để dự đốn lớp của các dữ liệu chưa biết.

Nhìn chung Decision Tree thường áp dụng vào cả 2 bài toán: Phân loại (Classification) và Hồi quy (Regression). Dạng phân loại kết quả thường là rời rạc và khơng có thứ tự (Ví dụ: mơ hình dự đốn thời tiết dự đốn có hay khơng mưa vào một ngày cụ thể), dạng hồi quy thì dữ liệu có vector đặc trưng bao gồm cả thuộc tính dạng categorical và liên tục, có ý nghĩa (Ví dụ: một mơ hình dự đốn lợi nhuận cho biết lợi nhuận có thể được tạo ra từ việc bán một sản phẩm).

Trong phạm vi đồ án này thì nhóm em sẽ tập trung vào mơ hình hồi quy của cây quyết định (Decision Tree Regression).


NỘI DUNG:


Giới thiệu bài toán....................................................................................................................3
a) Giới thiệu chung...........................................................................................................................3
b) Cây quyết định............................................................................................................................4
c) Các cơng đoạn khác nhau của mơ hình......................................................................................5
d) Ưu và nhược điểm của mơ hình...................................................................................................6
e) Ví dụ đơn giản về Decision Tree..................................................................................................6

II. Mục tiêu, ứng dụng của mơ hình................................................................................................7
III. So sánh với các mơ hình hồi quy khác.......................................................................................8
IV. Các đặc điểm trong Decision Tree Regression..........................................................................8
a) Entropy.........................................................................................................................................8
b) Information Gain.........................................................................................................................9
c) Chỉ số Gini....................................................................................................................................9
d) Điều kiện dừng...........................................................................................................................10
e) Pruning (cắt tỉa)..........................................................................................................................10
V.

Siêu tham số, tuning siêu tham số.............................................................................................10

VI. Các thuật toán phổ biến............................................................................................................12
a) ID3..............................................................................................................................................12
b) C4.5.............................................................................................................................................13
c) Kết luận.......................................................................................................................................13
VII. Thực nghiệm.............................................................................................................................13
a) Giới thiệu bộ dữ liệu...................................................................................................................13
b) Phân tích dữ liệu........................................................................................................................14
c) Huấn luyện mơ hình...................................................................................................................15
c) Điều chỉnh tham số.....................................................................................................................16
VIII. Tài liệu tham khảo..................................................................................................................17



LINK ĐẶT MUA TÀI LIỆU ONLINE


LINK ĐẶT MUA TÀI LIỆU ONLINE 1




LINK DOWNLOAD (UPDATING...)



I. Giới thiệu bài toán

a) Giới thiệu chung

Cây quyết định là một thuật toán dựa trên cấu trúc cây được sử dụng để giải quyết vấn đề hồi quy (Regression) hoặc phân loại (Classification), và rất hữu ích cho các bộ dữ liệu phức tạp. Cây quyết định thuộc mơ hình thuật tốn học có giảm sát (Supervised learning), nó hoạt động bằng cách quan sát các đặc điểm, tính năng của một đối tượng và đào tạo một mơ hình trong cấu trúc của cây, chia nhỏ tập dữ liệu thành các tập con ngày càng nhỏ hơn và sau đó đưa ra các dự đốn dữ liệu trong tương lai dựa trên tập con.

Hình 1.1: Cấu trúc của Decision Tree


b) Cây quyết định

Cây quyết định là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật. Các thuộc tính của đối tượng có thể thuộc các kiểu dữ liệu khác nhau như Nhị phân (Binary) , Định danh (Nominal), Thứ tự (Ordinal), Số lượng (Quantitative) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal. Nói chung, cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes) của nó, cây quyết định sẽ sinh ra các luật để dự đốn lớp của các dữ liệu chưa biết.

Nhìn chung Decision Tree thường áp dụng vào cả 2 bài toán: Phân loại (Classification) và Hồi quy (Regression). Dạng phân loại kết quả thường là rời rạc và khơng có thứ tự (Ví dụ: mơ hình dự đốn thời tiết dự đốn có hay khơng mưa vào một ngày cụ thể), dạng hồi quy thì dữ liệu có vector đặc trưng bao gồm cả thuộc tính dạng categorical và liên tục, có ý nghĩa (Ví dụ: một mơ hình dự đốn lợi nhuận cho biết lợi nhuận có thể được tạo ra từ việc bán một sản phẩm).

Trong phạm vi đồ án này thì nhóm em sẽ tập trung vào mơ hình hồi quy của cây quyết định (Decision Tree Regression).


NỘI DUNG:


Giới thiệu bài toán....................................................................................................................3
a) Giới thiệu chung...........................................................................................................................3
b) Cây quyết định............................................................................................................................4
c) Các cơng đoạn khác nhau của mơ hình......................................................................................5
d) Ưu và nhược điểm của mơ hình...................................................................................................6
e) Ví dụ đơn giản về Decision Tree..................................................................................................6

II. Mục tiêu, ứng dụng của mơ hình................................................................................................7
III. So sánh với các mơ hình hồi quy khác.......................................................................................8
IV. Các đặc điểm trong Decision Tree Regression..........................................................................8
a) Entropy.........................................................................................................................................8
b) Information Gain.........................................................................................................................9
c) Chỉ số Gini....................................................................................................................................9
d) Điều kiện dừng...........................................................................................................................10
e) Pruning (cắt tỉa)..........................................................................................................................10
V.

Siêu tham số, tuning siêu tham số.............................................................................................10

VI. Các thuật toán phổ biến............................................................................................................12
a) ID3..............................................................................................................................................12
b) C4.5.............................................................................................................................................13
c) Kết luận.......................................................................................................................................13
VII. Thực nghiệm.............................................................................................................................13
a) Giới thiệu bộ dữ liệu...................................................................................................................13
b) Phân tích dữ liệu........................................................................................................................14
c) Huấn luyện mơ hình...................................................................................................................15
c) Điều chỉnh tham số.....................................................................................................................16
VIII. Tài liệu tham khảo..................................................................................................................17



LINK ĐẶT MUA TÀI LIỆU ONLINE


LINK ĐẶT MUA TÀI LIỆU ONLINE 1




LINK DOWNLOAD (UPDATING...)

M_tả

M_tả

Chuyên mục:

Không có nhận xét nào: