ĐỒ ÁN - Nghiên cứu các phương pháp đánh giá độ tương đồng của văn bản


CHƯƠNG I: TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÀ ỨNG DỤNG ... 3
1.1. Xử lý ngôn ngữ tự nhiên ...................................................................................... 3
1.2. Một số ứng dụng của xử lý ngôn ngữ tự nhiên (NLP) ......................................... 4
1.3. Vấn đề về độ tương tự trong văn bản ................................................................... 9
1.4. Vấn đề về sự sao chép, đạo văn trong văn bản .................................................... 9

CHƯƠNG II:  BÀI TOÁN SO SÁNH VĂN BẢN TIẾNG VIỆT ..................................... 11
2.1. Phát biểu về bài toán so sánh văn bản. ............................................................... 11
2.2. Một số kết quả đã đạt được trong Xử lý văn bản tiếng Việt .............................. 11
2.3. Đặc điểm ngôn ngữ tiếng Việt ........................................................................... 12
2.3.1. Cấu tạo từ tiếng Việt ....................................................................................... 12
2.3.2. Biến hình từ tiếng Việt .................................................................................... 13
2.3.3. Từ đồng âm khác nghĩa ................................................................................... 13
2.3.4.  Từ đồng nghĩa ................................................................................................ 14
2.3.5. Đặc điểm chính tả ............................................................................................ 14
2.3.6. Bảng mã tiếng Việt trên máy tính ................................................................... 15
2.4. Bài toán so sánh văn bản .................................................................................... 16
2.4.1. Tiền xử lý văn bản ........................................................................................... 16
2.4.2. Biểu diễn văn bản ............................................................................................ 21
2.4.3. Phương pháp tính độ tương đồng giữa các văn bản ........................................ 21

CHƯƠNG III:  MÔ HÌNH BIỂU DIỄN VĂN BẢN ........................................................... 22
3.1. Mô hình biểu diễn văn bản truyền thống ........................................................... 22
3.1.1. Mô hình túi từ ngữ (Bag-of-Word) ................................................................. 22
3.1.2. Mô hình logic .................................................................................................. 23
3.1.3. Mô hình phân tích cú pháp .............................................................................. 24
3.1.4. Mô hình vector ................................................................................................ 25
3.2. Mô hình đồ thị biểu diễn văn bản ...................................................................... 28
3.2.1. Mô hình đồ thị khái niệm (Conceptual Graphs - CGs) ................................... 29
3.2.2. Mô hình đồ thị hình sao .................................................................................. 30
3.2.3. Mô hình đồ thị vô hướng sử dụng tần số xuất hiện......................................... 31
3.2.4. Mô hình đồ thị có hướng, cạnh không gán nhãn ............................................. 31
3.2.5. Mô hình đồ thị có hướng, cạnh không gán nhãn, cạnh là khoảng cách n giữa
hai từ trong văn bản .................................................................................................. 32
3.3. Mô hình word2vec văn bản ................................................................................ 33
3.4. Mô hình doc2vec văn bản .................................................................................. 34

CHƯƠNG IV: ......................................................................................................................... 36
PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN.............................................. 36
4.1. Khái niệm độ tương đồng ................................................................................... 36
4.2. Độ tương đồng văn bản dựa trên tập từ chung ................................................... 36
4.2.1. Khoảng cách Jaro ............................................................................................ 36
4.2.2. Mô hình tương phản (Contrast model) ............................................................ 37
4.2.3. Hệ số Jaccard ................................................................................................... 37
4.3. Độ tương đồng văn bản dựa trên vector biểu diễn ............................................. 37
4.3.1. Độ tương đồng Cosine .................................................................................... 37
4.3.2. Độ tương đồng dựa vào khoảng cách Euclide ................................................ 38
4.3.3. Độ tương đồng dựa vào khoảng cách Manhattan ........................................... 38
4.4.  Độ tương đồng văn bản trong tiếng Việt .......................................................... 38
4.4.1. Độ tương tự ngữ nghĩa từ - từ ......................................................................... 39
4.4.2. Độ tương tự ngữ nghĩa của văn bản ................................................................ 41
4.4.3. Độ tương tự về thứ tự của từ trong câu ........................................................... 42
4.4.3.1. Tính độ tương đồng theo hệ số cosin ........................................................... 42
4.4.3.2. Độ tương tự về thứ tự của từ trong câu ........................................................ 42
4.4.3.3. Tính độ tương đồng cho toàn bộ câu ........................................................... 43
4.4.4. Tính toán độ tương đồng cho toàn văn bản ..................................................... 44
4.4.4.1. Một số phương pháp tìm độ tương đồng giữa hai văn bản .......................... 44
4.4.4.2. Phương pháp tính độ tương đồng bằng công thức trung bình ..................... 45

CHƯƠNG V:  XÂY DỰNG MÔ HÌNH SÁNH VĂN BẢN ............................................. 46
5.1. Mô hình hệ thống ............................................................................................... 46
5.2. Các công đoạn xử lý trong hệ thống .................................................................. 47
5.2.1. Tiền xử lý ........................................................................................................ 47
5.2.2. Tách từ, câu  trong văn bản ............................................................................. 47
5.2.3. Loại bỏ từ dừng ............................................................................................... 47
5.2.4. Vector hóa văn bản .......................................................................................... 47
5.2.5. Tính độ tương tự văn bản ................................................................................ 49
5.3. Thực hiện hóa bằng chương trình ...................................................................... 50
5.3.1. Lựa chọn công cụ tiền xử lý ............................................................................ 50
5.3.2. Chương trình ứng dụng ................................................................................... 50

CHƯƠNG VI:  KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................................. 51
TÀI LIỆU THAM KHẢO ...................................................................................................... 53

LINK DOWNLOAD


CHƯƠNG I: TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÀ ỨNG DỤNG ... 3
1.1. Xử lý ngôn ngữ tự nhiên ...................................................................................... 3
1.2. Một số ứng dụng của xử lý ngôn ngữ tự nhiên (NLP) ......................................... 4
1.3. Vấn đề về độ tương tự trong văn bản ................................................................... 9
1.4. Vấn đề về sự sao chép, đạo văn trong văn bản .................................................... 9

CHƯƠNG II:  BÀI TOÁN SO SÁNH VĂN BẢN TIẾNG VIỆT ..................................... 11
2.1. Phát biểu về bài toán so sánh văn bản. ............................................................... 11
2.2. Một số kết quả đã đạt được trong Xử lý văn bản tiếng Việt .............................. 11
2.3. Đặc điểm ngôn ngữ tiếng Việt ........................................................................... 12
2.3.1. Cấu tạo từ tiếng Việt ....................................................................................... 12
2.3.2. Biến hình từ tiếng Việt .................................................................................... 13
2.3.3. Từ đồng âm khác nghĩa ................................................................................... 13
2.3.4.  Từ đồng nghĩa ................................................................................................ 14
2.3.5. Đặc điểm chính tả ............................................................................................ 14
2.3.6. Bảng mã tiếng Việt trên máy tính ................................................................... 15
2.4. Bài toán so sánh văn bản .................................................................................... 16
2.4.1. Tiền xử lý văn bản ........................................................................................... 16
2.4.2. Biểu diễn văn bản ............................................................................................ 21
2.4.3. Phương pháp tính độ tương đồng giữa các văn bản ........................................ 21

CHƯƠNG III:  MÔ HÌNH BIỂU DIỄN VĂN BẢN ........................................................... 22
3.1. Mô hình biểu diễn văn bản truyền thống ........................................................... 22
3.1.1. Mô hình túi từ ngữ (Bag-of-Word) ................................................................. 22
3.1.2. Mô hình logic .................................................................................................. 23
3.1.3. Mô hình phân tích cú pháp .............................................................................. 24
3.1.4. Mô hình vector ................................................................................................ 25
3.2. Mô hình đồ thị biểu diễn văn bản ...................................................................... 28
3.2.1. Mô hình đồ thị khái niệm (Conceptual Graphs - CGs) ................................... 29
3.2.2. Mô hình đồ thị hình sao .................................................................................. 30
3.2.3. Mô hình đồ thị vô hướng sử dụng tần số xuất hiện......................................... 31
3.2.4. Mô hình đồ thị có hướng, cạnh không gán nhãn ............................................. 31
3.2.5. Mô hình đồ thị có hướng, cạnh không gán nhãn, cạnh là khoảng cách n giữa
hai từ trong văn bản .................................................................................................. 32
3.3. Mô hình word2vec văn bản ................................................................................ 33
3.4. Mô hình doc2vec văn bản .................................................................................. 34

CHƯƠNG IV: ......................................................................................................................... 36
PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN.............................................. 36
4.1. Khái niệm độ tương đồng ................................................................................... 36
4.2. Độ tương đồng văn bản dựa trên tập từ chung ................................................... 36
4.2.1. Khoảng cách Jaro ............................................................................................ 36
4.2.2. Mô hình tương phản (Contrast model) ............................................................ 37
4.2.3. Hệ số Jaccard ................................................................................................... 37
4.3. Độ tương đồng văn bản dựa trên vector biểu diễn ............................................. 37
4.3.1. Độ tương đồng Cosine .................................................................................... 37
4.3.2. Độ tương đồng dựa vào khoảng cách Euclide ................................................ 38
4.3.3. Độ tương đồng dựa vào khoảng cách Manhattan ........................................... 38
4.4.  Độ tương đồng văn bản trong tiếng Việt .......................................................... 38
4.4.1. Độ tương tự ngữ nghĩa từ - từ ......................................................................... 39
4.4.2. Độ tương tự ngữ nghĩa của văn bản ................................................................ 41
4.4.3. Độ tương tự về thứ tự của từ trong câu ........................................................... 42
4.4.3.1. Tính độ tương đồng theo hệ số cosin ........................................................... 42
4.4.3.2. Độ tương tự về thứ tự của từ trong câu ........................................................ 42
4.4.3.3. Tính độ tương đồng cho toàn bộ câu ........................................................... 43
4.4.4. Tính toán độ tương đồng cho toàn văn bản ..................................................... 44
4.4.4.1. Một số phương pháp tìm độ tương đồng giữa hai văn bản .......................... 44
4.4.4.2. Phương pháp tính độ tương đồng bằng công thức trung bình ..................... 45

CHƯƠNG V:  XÂY DỰNG MÔ HÌNH SÁNH VĂN BẢN ............................................. 46
5.1. Mô hình hệ thống ............................................................................................... 46
5.2. Các công đoạn xử lý trong hệ thống .................................................................. 47
5.2.1. Tiền xử lý ........................................................................................................ 47
5.2.2. Tách từ, câu  trong văn bản ............................................................................. 47
5.2.3. Loại bỏ từ dừng ............................................................................................... 47
5.2.4. Vector hóa văn bản .......................................................................................... 47
5.2.5. Tính độ tương tự văn bản ................................................................................ 49
5.3. Thực hiện hóa bằng chương trình ...................................................................... 50
5.3.1. Lựa chọn công cụ tiền xử lý ............................................................................ 50
5.3.2. Chương trình ứng dụng ................................................................................... 50

CHƯƠNG VI:  KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................................. 51
TÀI LIỆU THAM KHẢO ...................................................................................................... 53

LINK DOWNLOAD

M_tả
M_tả

Không có nhận xét nào: