Thông tin tài liệu:
Luận văn này đực thực hiện nhằm đề xuất ra được một phương thức xây dựng hệ thống hỗ trợ tư vấn với các kết quả sau: Tư vấn hoàn toàn tự động các tài liệu cho người dùng theo từ khóa, lịch sử truy cập của người dùng đó và những người dùng khác và sở thích của họ. Kết quả tư vấn ngày càng chính xác hơn vì hệ thống có phân tích và cập nhật lịch sử truy cập của người dùng; Giới thiệu tài liệu có độ tương tự nhất định với tài liệu đang nghiên......
Nội dung trích xuất từ tài liệu:
Đồ án : "Xây dựng ứng dụng phân tích chữ nghĩa trong tìm kiếm tài liệu trực tuyến" TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN ──────── * ─────── ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TINĐỀ TÀI: XÂY DỰNG ỨNG DỤNG PHÂN TÍCH NGỮ NGHĨA TRONG TÌM KIẾM TÀI LIỆU TRỰC TUYẾN Sinh viên thực hiện: Nguyễn Công Chính . Lớp: HTTTA-K48 . Giáo viên hướng dẫn: TS. Lê Thanh Hương . Hà nội, tháng 6 năm 2008 1 MỤC LỤCPHẦN 0: LỜI NÓI ĐẦU .......................................................................................... 101. MỤC TIÊU VÀ Ý NGHĨA CỦA ĐỀ TÀI............................................................ 102. VẤN ĐỀ GIẢI QUYẾT ........................................................................................ 10 3. CÁCH GIẢI QUYẾT .............................................................................................................. 11 3.1 Phân tách tài liệu thành các từ khóa (Filter) ...................................................... 11 3.2 Phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analystic-LSA) ......................... 12 3.3 Phân tích lịch sử truy cập của người dùng.................................................. 12 5.1 Tách tài liệu thành các từ khóa. Tìm kiếm dựa trên từ khóa...................... 14 5.2 Mô hình tìm tư vấn dựa trên phân tích ngữ nghĩa tiềm ẩn................................ 15 6. GIAO DIỆN TRANG CHỦ CHƯƠNG TRÌNH................................................................. 17PHẦN I: VẤN ĐỀ VÀ THỰC TRẠNG...................................................................18 1. ĐẶT BÀI TOÁN.................................................................................................................. 18 2. CÁC VẤN ĐỀ VÀ CÁC GIẢI PHÁP HIỆN TẠI............................................................... 21 2.1 Các hệ thống gợi ý (recommender systems - RS)....................................... 21 2.1.1 Các khái niệm về Recommender System ................................................ 21 2.1.2 Các hệ thống recommender tiêu biểu ..................................................... 22 2.2 Xử lý tài liệu tiếng Việt .................................................................................... 26 2.2.1 Các nghiên cứu về cấu của các nhà nghiên cứu Việt Nam. ................ 26 2.2.2 Tóm tắt đặc trưng của cấu trúc ngữ pháp tiếng Việt, Anh...................... 29 2.3 Xử lý tài liệu theo ngữ nghĩa ......................................................................... 30 2.3.1 Đặt vấn đề.................................................................................................... 30 2.3.2 Phân tích ngữ nghĩa tiềm ẩn (LSA) ............................................................ 31 2.3.3 Nhận xét, kết luận........................................................................................ 31 2.4 Thu thập thông tin người dùng ...................................................................... 32 2.4.1 Ưu điểm của các hệ thống tự học............................................................ 32 2.4.2 Phân tích logfile........................................................................................... 32 2.4.3 Phân tích dựa thông tin người dùng......................................................... 32 2.4.4 Kết luận ........................................................................................................ 33 2.5 Vấn đề lưu trữ dữ liệu ..................................................................................... 33PHẦN II: CƠ SỞ LÝ THUYẾT ..............................................................................34 1. CÁC BỘ MÁY TÌM KIẾM ........................................................... 34 2 1.1 Một số engine thông dụng............................................................................. 34 2.1 Chiến lược tìm kiếm ....................................................................................... 37 2.1.1 Công nghệ tìm kiếm ngữ nghĩa trên thế giới hiện nay ............................ 37 2.1.2 Chiến lược tìm kiếm.................................................................................... 38 2. XỬ LÝ VĂN BẢN TIẾNG VIỆT........................................................................................ 40 ...