Một số kỹ thuật tìm kiếm & xử lý thông tin trong quá trình nghiên cứu (Trần Hoài Nam)
Tìm kiếm dưới tầng sâu của Web (Deep Web)
Những vấn đề trong tìm kiếm thông tin:
Theo Công ty nghiên cứu thị trường trực tuyến NPD (www.npd.com) 85% số người tìm kiếm thông tin trực tuyến là thông qua các công cụ tìm kiếm; Tuy nhiên, 85% trong số người được hỏi tỏ thái độ thất vọng, cho rằng họ không nhận được chính xác những gì mình cần.
Hiện có hai nguyên tắc tìm kiếm thông tin:
Công cụ tìm kiếm xuất phát từ trang thông tin có chứa từ khoá theo yêu cầu của người truy cập, từ đó lần tới các trang thông tin theo các siêu liên kết có chứa từ khoá. Qui trình này lặp đi lặp lại tương tự sóng nước làn trên mặt hồ từ một tâm điểm duy nhất. Cách này chỉ tìm được các thông tin có trên “bề mặt của Web”. Trên bề mặt Web hiện có khoảng 2,5 tỷ văn bản và tăng với tốc độ 7,5 triệu văn bản/ngày (Nguồn: www.Inktomi.com; www.cyveillance.com). Tuy nhiên, kết quả thu được không sát với yêu cầu tìm kiếm do "sóng tìm kiếm" lan ra quá xa các cụm từ khoá ban đầu.
Google đưa ra kỹ thuật tìm kiếm theo “tính phổ biến của thông tin”. Các trang được nhiều người vào hơn cả, có nội dung phù hợp từ khoá tìm kiếm sẽ được ưu tiên liệt kê trong danh sách tìm kiếm Tuy nhiên, thường bỏ qua các văn bản có ít đường liên kết tới.
Tìm thông tin chính xác, đầy đủ ở những kho thông tin công cộng đã khó, tìm thông tin ở những “thư mục cá nhân” của những người không muốn phổ biến tài nguyên của mình trên mạng càng khó hơn.
- Giải quyết vấn đề này như thế nào?
Tìm kiếm dưới tầng sâu của Web (Deep Web)
Những vấn đề trong tìm kiếm thông tin:
Theo Công ty nghiên cứu thị trường trực tuyến NPD (www.npd.com) 85% số người tìm kiếm thông tin trực tuyến là thông qua các công cụ tìm kiếm; Tuy nhiên, 85% trong số người được hỏi tỏ thái độ thất vọng, cho rằng họ không nhận được chính xác những gì mình cần.
Hiện có hai nguyên tắc tìm kiếm thông tin:
Công cụ tìm kiếm xuất phát từ trang thông tin có chứa từ khoá theo yêu cầu của người truy cập, từ đó lần tới các trang thông tin theo các siêu liên kết có chứa từ khoá. Qui trình này lặp đi lặp lại tương tự sóng nước làn trên mặt hồ từ một tâm điểm duy nhất. Cách này chỉ tìm được các thông tin có trên “bề mặt của Web”. Trên bề mặt Web hiện có khoảng 2,5 tỷ văn bản và tăng với tốc độ 7,5 triệu văn bản/ngày (Nguồn: www.Inktomi.com; www.cyveillance.com). Tuy nhiên, kết quả thu được không sát với yêu cầu tìm kiếm do "sóng tìm kiếm" lan ra quá xa các cụm từ khoá ban đầu.
Google đưa ra kỹ thuật tìm kiếm theo “tính phổ biến của thông tin”. Các trang được nhiều người vào hơn cả, có nội dung phù hợp từ khoá tìm kiếm sẽ được ưu tiên liệt kê trong danh sách tìm kiếm Tuy nhiên, thường bỏ qua các văn bản có ít đường liên kết tới.
Tìm thông tin chính xác, đầy đủ ở những kho thông tin công cộng đã khó, tìm thông tin ở những “thư mục cá nhân” của những người không muốn phổ biến tài nguyên của mình trên mạng càng khó hơn.
- Giải quyết vấn đề này như thế nào?



%20(1).png)


.png)
.png)


Không có nhận xét nào: