XÂY DỰNG HỆ THỐNG TRẢ LỜI CÂU HỎI RAG TRÊN TIẾNG VIỆT - NTTU CHATBOT (Nguyễn Thành Phát)Một số mục tiêu bao gồm việc tìm hiểu và đánh giá được độ hiệu quả của các mơ hình học sâu trong lĩnh vực xử lý chuỗi dữ liệu liên tục và xử lý ngôn ngữ tự nhiên, cách huấn luyện và triển khai mơ hình trong thực tiễn. Mục tiêu chính của đề tài này là xây dựng một hệ thống trả lời câu hỏi miền mở trên tiếng Việt có độ chính xác cao, khả năng đáp ứng tốt các câu hỏi mở, mang tính suy luận, sáng tạo. Cụ thể, hệ thống này cần đạt được các mục tiêu bao gồm:

• Hệ thống có thể trả lời được các câu hỏi mở, mang tính suy luận, sáng tạo một cách chính xác, đầy đủ và hữu ích.

• Hệ thống có khả năng xử lý được nhiều loại câu hỏi mở khác nhau, bao gồm câu hỏi về sự kiện, câu hỏi về khái niệm, câu hỏi về mối quan hệ, câu hỏi về ý kiến,...


NỘI DUNG:


CHƯƠNG 1: Giới thiệu chung về đề tài ... 1


1.1. Giới thiệu để tài mục tiêu ... 1


1.2. Phương pháp đề tài ... 1


1.3. Lý do chọn đề tài ... 1


1.4. Mục tiêu nghiên cứu ... 2


1.5. Đối tượng nghiên cứu ... 2


1.6. Bố cục đề tài ... 3


CHƯƠNG 2: Cơ sở lý luận về vấn đề nghiên cứu ... 4


2.1. Giới thiệu về Hệ thống Trả lời câu hỏi ... 4


2.2. Hệ thống Trả lời câu hỏi miền mở là gì? ... 5


2.3. Cơ chế hoạt động của Open-Domain Question Answering ... 5


2.4. Tìm kiếm mức độ tương tự văn bản ... 6


2.4.1. Thuật toán TF-IDF ... 6


2.4.2. Thuật toán BM25 ... 7


2.4.3. Tìm kiếm tương đồng dựa trên vector nhúng từ ... 8


</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

2.5. Lịch sử hình thành mơ hình ngơn ngữ ... 8


2.5.1. Word Embedding ... 9


2.5.2. Mạng Nơ-ron Hồi tiếp truyền thống (RNN) ... 11


2.5.3. Mạng Nơ-ron Hồi tiếp hiện đại (LSTM và GRU) ... 13


2.5.4. Kiến trúc Mã hóa - Giải mã (Encoder - Decoder) ... 15


2.5.5. Cơ chế Tập trung (Attention)... 17


2.5.6. Kiến trúc mạng Transformer ... 18


2.5.7. Mơ hình BERT ... 23


2.5.8. Mơ hình GPT ... 27


2.6. Lượng tử hóa mơ hình (Quantization model) ... 30


CHƯƠNG 3: Xây dựng hệ thống trình bày ... 34


3.1. Tổng quan về ý tưởng hệ thống ... 34


3.2. Chuẩn bị dữ liệu ... 35


3.2.1. Làm sạch dữ liệu ... 36


3.2.2. Khám phá dữ liệu ... 40


3.3. Xây dựng lõi back-end ... 42


3.3.1. Xây dựng vector database ... 43


3.3.2. Xây dựng Retriver ... 44


3.4. Lựa chọn mơ hình ngơn ngữ lớn ... 46


3.4.1. Lượng tử hóa mơ hình ... 48


3.4.2. Huấn luyện mơ hình ... 49


3.4.3. Triển khai mơ hình ... 53


3.5. Xây dựng front-end ... 54


CHƯƠNG 4: Thực nghiệm và đánh giá ... 57LINK ĐẶT MUA TÀI LIỆU ONLINE


LINK ĐẶT MUA TÀI LIỆU ONLINE 1


INBOX HỖ TRỢ MUA TÀI LIỆU (90 % GIÁ GỐC)


LINK DOWNLOAD (UPDATING...)Một số mục tiêu bao gồm việc tìm hiểu và đánh giá được độ hiệu quả của các mơ hình học sâu trong lĩnh vực xử lý chuỗi dữ liệu liên tục và xử lý ngôn ngữ tự nhiên, cách huấn luyện và triển khai mơ hình trong thực tiễn. Mục tiêu chính của đề tài này là xây dựng một hệ thống trả lời câu hỏi miền mở trên tiếng Việt có độ chính xác cao, khả năng đáp ứng tốt các câu hỏi mở, mang tính suy luận, sáng tạo. Cụ thể, hệ thống này cần đạt được các mục tiêu bao gồm:

• Hệ thống có thể trả lời được các câu hỏi mở, mang tính suy luận, sáng tạo một cách chính xác, đầy đủ và hữu ích.

• Hệ thống có khả năng xử lý được nhiều loại câu hỏi mở khác nhau, bao gồm câu hỏi về sự kiện, câu hỏi về khái niệm, câu hỏi về mối quan hệ, câu hỏi về ý kiến,...


NỘI DUNG:


CHƯƠNG 1: Giới thiệu chung về đề tài ... 1


1.1. Giới thiệu để tài mục tiêu ... 1


1.2. Phương pháp đề tài ... 1


1.3. Lý do chọn đề tài ... 1


1.4. Mục tiêu nghiên cứu ... 2


1.5. Đối tượng nghiên cứu ... 2


1.6. Bố cục đề tài ... 3


CHƯƠNG 2: Cơ sở lý luận về vấn đề nghiên cứu ... 4


2.1. Giới thiệu về Hệ thống Trả lời câu hỏi ... 4


2.2. Hệ thống Trả lời câu hỏi miền mở là gì? ... 5


2.3. Cơ chế hoạt động của Open-Domain Question Answering ... 5


2.4. Tìm kiếm mức độ tương tự văn bản ... 6


2.4.1. Thuật toán TF-IDF ... 6


2.4.2. Thuật toán BM25 ... 7


2.4.3. Tìm kiếm tương đồng dựa trên vector nhúng từ ... 8


</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

2.5. Lịch sử hình thành mơ hình ngơn ngữ ... 8


2.5.1. Word Embedding ... 9


2.5.2. Mạng Nơ-ron Hồi tiếp truyền thống (RNN) ... 11


2.5.3. Mạng Nơ-ron Hồi tiếp hiện đại (LSTM và GRU) ... 13


2.5.4. Kiến trúc Mã hóa - Giải mã (Encoder - Decoder) ... 15


2.5.5. Cơ chế Tập trung (Attention)... 17


2.5.6. Kiến trúc mạng Transformer ... 18


2.5.7. Mơ hình BERT ... 23


2.5.8. Mơ hình GPT ... 27


2.6. Lượng tử hóa mơ hình (Quantization model) ... 30


CHƯƠNG 3: Xây dựng hệ thống trình bày ... 34


3.1. Tổng quan về ý tưởng hệ thống ... 34


3.2. Chuẩn bị dữ liệu ... 35


3.2.1. Làm sạch dữ liệu ... 36


3.2.2. Khám phá dữ liệu ... 40


3.3. Xây dựng lõi back-end ... 42


3.3.1. Xây dựng vector database ... 43


3.3.2. Xây dựng Retriver ... 44


3.4. Lựa chọn mơ hình ngơn ngữ lớn ... 46


3.4.1. Lượng tử hóa mơ hình ... 48


3.4.2. Huấn luyện mơ hình ... 49


3.4.3. Triển khai mơ hình ... 53


3.5. Xây dựng front-end ... 54


CHƯƠNG 4: Thực nghiệm và đánh giá ... 57LINK ĐẶT MUA TÀI LIỆU ONLINE


LINK ĐẶT MUA TÀI LIỆU ONLINE 1


INBOX HỖ TRỢ MUA TÀI LIỆU (90 % GIÁ GỐC)


LINK DOWNLOAD (UPDATING...)

M_tả
M_tả

Chuyên mục:

Không có nhận xét nào: