Đồ án Xử lý ngôn ngữ tự nhiên - Phân loại văn bản (Nguyễn Minh Thành)



Phân loại văn bản  là một  vấn đề quan trọng trong lĩnh vực  xử lý  ngôn ngữ. 

Nhiệm vụ của bài toán này là gán các tài liệu văn bản vào nhóm các chủ đề cho trước. Đây là một bài toán rất thường gặp trong thực tế điển hình như : một nhà chuyên phân tích thị thường chứng khoán, anh ta cần phải tổng hợp rất nhiều tài liệu,  bài  viết  về  thị  trường  chứng khoán để đọc và đưa ra phán đoán của mình. 

Tuy nhiên, anh ta không thể đọc tất cả các bài viết, bài báo hay các tài liệu để rồi phân loại chúng đâu là tài liệu chứng khoán sau đó anh ta mới đọc kỹ chúng cho mục đích của anh ta.  Lý do của vấn đề này là  bởi  ví  số lượng bào viết,  bài báo hiện nay rất nhiều, đặc biệt là trên internet, nếu để đọc hết được tất cả tài liệu đó thì sẽ mất rất nhiều thời gian. Một ví dụ khác trong thực tế là việc phân loại spam mail. Khi một mail được gửi đến hộp thư, nếu để người dùng phải đọc tất cả các mail  thì  sẽ  tốn  rất  nhiều  thời  gian  vì  spam  mail  rất  nhiều.  Vì  vậy,  cần  có một  hệ thống phân loại đâu là spam mail và đâu là mail tốt. 


NỘI DUNG:


1.  Tóm tắt đồ án ................................................................................................... 1 

2.  Bài toán phân loại văn bản............................................................................... 2 

2.1  Giới thiệu ................................................................................................... 2 

2.2  Phát biểu bài toán ...................................................................................... 2 

2.3  Mô hình tổng quát ...................................................................................... 3 

2.3.1  Giai đoạn huấn luyện ........................................................................... 4 

2.3.2  Giai đoạn phân lớp .............................................................................. 5 

2.4  Tiền xử lý văn bản ..................................................................................... 6 

2.5  Phương pháp biểu diễn văn bản ................................................................ 7 

2.5.1  Mô hình không gian vector .................................................................. 7 

2.5.2  Khái niệm trọng số ............................................................................... 7 

2.6  Đánh giá bộ phân lớp ................................................................................. 9 

2.6.1  Macro-Averaging ............................................................................... 11 

2.6.2  Micro-Averaging ................................................................................ 11 

3.  Các phương pháp phân loại văn bản ............................................................. 12 

3.1  Thuật toán Naïve Bayes ........................................................................... 12 

3.1.1  Định lý ............................................................................................... 12 

3.1.2  Thuật toán ......................................................................................... 13 

3.1.3  Áp dụng trong phân loại văn bản ....................................................... 15 

3.2  Cây quyết định (Decision Tree) ................................................................ 18 

3.2.1  Khái niệm .......................................................................................... 18 

3.2.2  Thuật toán xây dựng cây ................................................................... 19 

3.2.2.1  Thuật toán ID3 ............................................................................ 19 

3.2.2.2  Các độ đo trong thuật toán : ........................................................ 20 

3.2.2.3  Ví dụ ........................................................................................... 20 

3.2.3  Áp dụng vào phân loại văn bản ......................................................... 23 

3.2.3.1  Biểu diễn văn bản ....................................................................... 23 

3.2.3.2  Giai đoạn huấn luyện .................................................................. 24 

3.2.3.3  Cross-validation .......................................................................... 28 

3.2.3.4  Giai đoạn phân lớp ..................................................................... 29 

3.3  Mô hình xác xuất Entropy tối đại (Maximum Entropy Modeling) .............. 29 

3.3.1  Entropy .............................................................................................. 29 

3.3.1.1  Khái niệm .................................................................................... 29 

3.3.1.2  Entropy của biến ngẫu nhiên ...................................................... 30 

3.3.2  Áp dụng vào phân loại văn bản ......................................................... 30 

3.3.2.1  Biểu diễn văn bản ....................................................................... 30 

3.3.2.2  Hàm đặc trưng và ràng buộc ...................................................... 31 

3.3.2.3  Một số kí hiệu : ............................................................................ 31 

3.3.2.4  Mô hình ....................................................................................... 31 

3.3.2.5  Thủ tục huấn luyện Generalized iterative scaling ........................ 32 

3.3.2.6  Giai đoạn phân lớp ..................................................................... 34 

5.  Tài liệu tham khảo ....





LINK DOWNLOAD



Phân loại văn bản  là một  vấn đề quan trọng trong lĩnh vực  xử lý  ngôn ngữ. 

Nhiệm vụ của bài toán này là gán các tài liệu văn bản vào nhóm các chủ đề cho trước. Đây là một bài toán rất thường gặp trong thực tế điển hình như : một nhà chuyên phân tích thị thường chứng khoán, anh ta cần phải tổng hợp rất nhiều tài liệu,  bài  viết  về  thị  trường  chứng khoán để đọc và đưa ra phán đoán của mình. 

Tuy nhiên, anh ta không thể đọc tất cả các bài viết, bài báo hay các tài liệu để rồi phân loại chúng đâu là tài liệu chứng khoán sau đó anh ta mới đọc kỹ chúng cho mục đích của anh ta.  Lý do của vấn đề này là  bởi  ví  số lượng bào viết,  bài báo hiện nay rất nhiều, đặc biệt là trên internet, nếu để đọc hết được tất cả tài liệu đó thì sẽ mất rất nhiều thời gian. Một ví dụ khác trong thực tế là việc phân loại spam mail. Khi một mail được gửi đến hộp thư, nếu để người dùng phải đọc tất cả các mail  thì  sẽ  tốn  rất  nhiều  thời  gian  vì  spam  mail  rất  nhiều.  Vì  vậy,  cần  có một  hệ thống phân loại đâu là spam mail và đâu là mail tốt. 


NỘI DUNG:


1.  Tóm tắt đồ án ................................................................................................... 1 

2.  Bài toán phân loại văn bản............................................................................... 2 

2.1  Giới thiệu ................................................................................................... 2 

2.2  Phát biểu bài toán ...................................................................................... 2 

2.3  Mô hình tổng quát ...................................................................................... 3 

2.3.1  Giai đoạn huấn luyện ........................................................................... 4 

2.3.2  Giai đoạn phân lớp .............................................................................. 5 

2.4  Tiền xử lý văn bản ..................................................................................... 6 

2.5  Phương pháp biểu diễn văn bản ................................................................ 7 

2.5.1  Mô hình không gian vector .................................................................. 7 

2.5.2  Khái niệm trọng số ............................................................................... 7 

2.6  Đánh giá bộ phân lớp ................................................................................. 9 

2.6.1  Macro-Averaging ............................................................................... 11 

2.6.2  Micro-Averaging ................................................................................ 11 

3.  Các phương pháp phân loại văn bản ............................................................. 12 

3.1  Thuật toán Naïve Bayes ........................................................................... 12 

3.1.1  Định lý ............................................................................................... 12 

3.1.2  Thuật toán ......................................................................................... 13 

3.1.3  Áp dụng trong phân loại văn bản ....................................................... 15 

3.2  Cây quyết định (Decision Tree) ................................................................ 18 

3.2.1  Khái niệm .......................................................................................... 18 

3.2.2  Thuật toán xây dựng cây ................................................................... 19 

3.2.2.1  Thuật toán ID3 ............................................................................ 19 

3.2.2.2  Các độ đo trong thuật toán : ........................................................ 20 

3.2.2.3  Ví dụ ........................................................................................... 20 

3.2.3  Áp dụng vào phân loại văn bản ......................................................... 23 

3.2.3.1  Biểu diễn văn bản ....................................................................... 23 

3.2.3.2  Giai đoạn huấn luyện .................................................................. 24 

3.2.3.3  Cross-validation .......................................................................... 28 

3.2.3.4  Giai đoạn phân lớp ..................................................................... 29 

3.3  Mô hình xác xuất Entropy tối đại (Maximum Entropy Modeling) .............. 29 

3.3.1  Entropy .............................................................................................. 29 

3.3.1.1  Khái niệm .................................................................................... 29 

3.3.1.2  Entropy của biến ngẫu nhiên ...................................................... 30 

3.3.2  Áp dụng vào phân loại văn bản ......................................................... 30 

3.3.2.1  Biểu diễn văn bản ....................................................................... 30 

3.3.2.2  Hàm đặc trưng và ràng buộc ...................................................... 31 

3.3.2.3  Một số kí hiệu : ............................................................................ 31 

3.3.2.4  Mô hình ....................................................................................... 31 

3.3.2.5  Thủ tục huấn luyện Generalized iterative scaling ........................ 32 

3.3.2.6  Giai đoạn phân lớp ..................................................................... 34 

5.  Tài liệu tham khảo ....





LINK DOWNLOAD

M_tả

M_tả

Không có nhận xét nào: