Tóm tắt Luận văn Thạc sĩ ngành Công nghệ thông tin: Nghiên cứu công nghệ tìm kiếm (Mã nguồn mở) Lucene áp dụng giải quyết bài toán tìm kiếm trong hệ thống văn bản
Số trang: 24
Loại file: pdf
Dung lượng: 1.52 MB
Lượt xem: 7
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Nội dung mà luận văn nghiên cứu bao gồm: Tìm hiểu tổng quan về các hệ thống tìm kiếm thông tin; tìm hiểu tổng quan về công nghệ tìm kiếm mã nguồn mở Lucene và phân tích, thiết kế, xây dựng ứng dụng thử nghiệm quản lý văn bản.
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận văn Thạc sĩ ngành Công nghệ thông tin: Nghiên cứu công nghệ tìm kiếm (Mã nguồn mở) Lucene áp dụng giải quyết bài toán tìm kiếm trong hệ thống văn bảnĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNGHỌCCÔNGNGHỆĐẠI HỌCĐẠIQUỐCGIAHÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆVÕ VĂN TRƯỜNGNGUYỄN THỊ LOANNGHIÊN CỨU VÀ ỨNG DỤNG KỸ THUẬT HỌCMÁYVÀOBÀICÔNGTOÁNPHÁTHIỆNMÃ(MÃĐỘCNGHIÊNCỨUNGHỆTÌMKIẾMNGUỒN MỞ) LUCENE ÁP DỤNG GIẢI QUYẾT BÀITOÁN TÌM KIẾM TRONG HỆ THỐNG VĂN BẢNNgành: Công nghệ Thông tinChuyên ngành: Kỹ thuật phần mềmNgành:Công nghệ Thông tinMãsố: 60480103Chuyên ngành: Kỹ thuật phần mềmMã số: 62.48.01.03TÓM TẮT LUẬN VĂN THẠC SĨNGÀNH CÔNG NGHỆ THÔNG TINTÓM TẮT LUẬN VĂN THẠC SĨNGÀNH CÔNG NGHỆ THÔNG TINHà Nội - 2016Hà Nội - 20171MỤC LỤCMỞ ĐẦU...................................................................................................... 4CHƯƠNG 1: NGHIÊN CỨU TỔNG QUAN VỀ HỆ THỐNG TÌMKIẾM THÔNG TIN ................................................................................ 61.1. Khái niệm về hệ thống tìm kiếm thông tin ........................................ 61.2. Các bộ phận cấu thành hệ thống tìm kiếm thông tin ....................... 61.3. Hệ thống tìm kiếm thông tin của Google ........................................... 71.4. Kiến trúc của hệ thống tìm kiếm thông tin ....................................... 8CHƯƠNG 2: NGHIÊN CỨU TỔNG QUAN VỀ MÃ NGUỒN MỞLUCENE ................................................................................................... 102.1. Giới thiệu về thư viện Lucene ........................................................... 102.2. Quy trình đánh chỉ mục .................................................................... 112.3. Các toán tử đánh chỉ mục cơ bản ..................................................... 112.4. Tối ưu hóa việc đánh chỉ mục ........................................................... 122.5. Tính đồ ng thời, an toàn tiến tình, ngăn chă ̣n các thư ̣c thi ............. 122.6. Bô ̣ chuyể n đổ i câu truy vấ n của người dùng: QueryParser .......... 122.7. Các biể u thức truy vấ n của QueryParser ........................................ 132.8. Bộ phân tích – Analyzer: .................................................................. 132.9. Sử du ̣ng lớp IndexSearcher ............................................................. 132.10. Cú pháp truy vấn Lucene ............................................................... 142.11. Các máy tìm kiếm phát triển dựa trên Lucene ............................. 14CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM .................... 1523.1. Tài mã nguồn Lucene.NET ............................................................... 153.2. Dữ liệu văn bản thử nghiệm ............................................................. 153.3. Mô hình cơ sở dữ liệu ........................................................................ 163.3.1. Lược đồ cơ sở dữ liệu ..................................................................... 163.4. Giao diện chính .................................................................................. 163.4.1. Giao diện trang Quản lý văn bản .................................................. 163.4.2. Giao diện trang Cập nhật văn bản ................................................ 173.4.3. Giao diện trang Tìm kiếm văn bản ............................................... 173.4.4. Giao diện trang Xem nội dung file văn bản ................................. 183.5. Đánh giá và thử nghiệm .................................................................... 193.5.1. Mô hình kiến trúc ứng dụng thử nghiệm ..................................... 193.5.2. Kịch bản và kết quả ........................................................................ 20CHƯƠNG 4: KẾT LUẬN ........................................................................ 234.1. Đánh giá kết quả nghiên cứu ............................................................ 23TÀI LIỆU THAM KHẢO........................................................................ 243MỞ ĐẦUVới sự phát triển không ngừng của công nghệ thông tin, số lượng cáctài liệu điện tử do con người tạo ra ngày càng phong phú và đa dạng, nhu cầukhai thác dữ liệu trong kho tài liệu là rất lớn, đây là một trong những nhu cầuthường ngày và thiết thực của người sử dụng. Tuy nhiên, một trong nhữngkhó khăn con người gặp phải trong việc khai thác thông tin là: Khả năng tìmkiếm chính xác thông tin cần tìm trong kho tài liệu, khả năng tìm kiếm nhanhvới số lượng dữ liệu lớn. Nếu dùng các hệ quản trị cơ sở dữ liệu quan hệ đểtìm kiếm dữ liệu thì sẽ gặp phải các hạn chế như: Bị giới hạn ở cú pháp củangôn ngữ SQL, tốc độ tìm kiếm chậm khi tìm kiếm gần đúng (dùng LIKE)trong cơ sở dữ liệu lớn…Điều này đã thúc đẩy cho sự ra đời của các hệ thốngtìm kiếm, điển hình nhất cho các hệ thống này là các máy tìm kiếm nhưGoogle và Yahoo…Tuy nhiên, phần lớn các công cụ tìm k ...
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận văn Thạc sĩ ngành Công nghệ thông tin: Nghiên cứu công nghệ tìm kiếm (Mã nguồn mở) Lucene áp dụng giải quyết bài toán tìm kiếm trong hệ thống văn bảnĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNGHỌCCÔNGNGHỆĐẠI HỌCĐẠIQUỐCGIAHÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆVÕ VĂN TRƯỜNGNGUYỄN THỊ LOANNGHIÊN CỨU VÀ ỨNG DỤNG KỸ THUẬT HỌCMÁYVÀOBÀICÔNGTOÁNPHÁTHIỆNMÃ(MÃĐỘCNGHIÊNCỨUNGHỆTÌMKIẾMNGUỒN MỞ) LUCENE ÁP DỤNG GIẢI QUYẾT BÀITOÁN TÌM KIẾM TRONG HỆ THỐNG VĂN BẢNNgành: Công nghệ Thông tinChuyên ngành: Kỹ thuật phần mềmNgành:Công nghệ Thông tinMãsố: 60480103Chuyên ngành: Kỹ thuật phần mềmMã số: 62.48.01.03TÓM TẮT LUẬN VĂN THẠC SĨNGÀNH CÔNG NGHỆ THÔNG TINTÓM TẮT LUẬN VĂN THẠC SĨNGÀNH CÔNG NGHỆ THÔNG TINHà Nội - 2016Hà Nội - 20171MỤC LỤCMỞ ĐẦU...................................................................................................... 4CHƯƠNG 1: NGHIÊN CỨU TỔNG QUAN VỀ HỆ THỐNG TÌMKIẾM THÔNG TIN ................................................................................ 61.1. Khái niệm về hệ thống tìm kiếm thông tin ........................................ 61.2. Các bộ phận cấu thành hệ thống tìm kiếm thông tin ....................... 61.3. Hệ thống tìm kiếm thông tin của Google ........................................... 71.4. Kiến trúc của hệ thống tìm kiếm thông tin ....................................... 8CHƯƠNG 2: NGHIÊN CỨU TỔNG QUAN VỀ MÃ NGUỒN MỞLUCENE ................................................................................................... 102.1. Giới thiệu về thư viện Lucene ........................................................... 102.2. Quy trình đánh chỉ mục .................................................................... 112.3. Các toán tử đánh chỉ mục cơ bản ..................................................... 112.4. Tối ưu hóa việc đánh chỉ mục ........................................................... 122.5. Tính đồ ng thời, an toàn tiến tình, ngăn chă ̣n các thư ̣c thi ............. 122.6. Bô ̣ chuyể n đổ i câu truy vấ n của người dùng: QueryParser .......... 122.7. Các biể u thức truy vấ n của QueryParser ........................................ 132.8. Bộ phân tích – Analyzer: .................................................................. 132.9. Sử du ̣ng lớp IndexSearcher ............................................................. 132.10. Cú pháp truy vấn Lucene ............................................................... 142.11. Các máy tìm kiếm phát triển dựa trên Lucene ............................. 14CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM .................... 1523.1. Tài mã nguồn Lucene.NET ............................................................... 153.2. Dữ liệu văn bản thử nghiệm ............................................................. 153.3. Mô hình cơ sở dữ liệu ........................................................................ 163.3.1. Lược đồ cơ sở dữ liệu ..................................................................... 163.4. Giao diện chính .................................................................................. 163.4.1. Giao diện trang Quản lý văn bản .................................................. 163.4.2. Giao diện trang Cập nhật văn bản ................................................ 173.4.3. Giao diện trang Tìm kiếm văn bản ............................................... 173.4.4. Giao diện trang Xem nội dung file văn bản ................................. 183.5. Đánh giá và thử nghiệm .................................................................... 193.5.1. Mô hình kiến trúc ứng dụng thử nghiệm ..................................... 193.5.2. Kịch bản và kết quả ........................................................................ 20CHƯƠNG 4: KẾT LUẬN ........................................................................ 234.1. Đánh giá kết quả nghiên cứu ............................................................ 23TÀI LIỆU THAM KHẢO........................................................................ 243MỞ ĐẦUVới sự phát triển không ngừng của công nghệ thông tin, số lượng cáctài liệu điện tử do con người tạo ra ngày càng phong phú và đa dạng, nhu cầukhai thác dữ liệu trong kho tài liệu là rất lớn, đây là một trong những nhu cầuthường ngày và thiết thực của người sử dụng. Tuy nhiên, một trong nhữngkhó khăn con người gặp phải trong việc khai thác thông tin là: Khả năng tìmkiếm chính xác thông tin cần tìm trong kho tài liệu, khả năng tìm kiếm nhanhvới số lượng dữ liệu lớn. Nếu dùng các hệ quản trị cơ sở dữ liệu quan hệ đểtìm kiếm dữ liệu thì sẽ gặp phải các hạn chế như: Bị giới hạn ở cú pháp củangôn ngữ SQL, tốc độ tìm kiếm chậm khi tìm kiếm gần đúng (dùng LIKE)trong cơ sở dữ liệu lớn…Điều này đã thúc đẩy cho sự ra đời của các hệ thốngtìm kiếm, điển hình nhất cho các hệ thống này là các máy tìm kiếm nhưGoogle và Yahoo…Tuy nhiên, phần lớn các công cụ tìm k ...
Tìm kiếm theo từ khóa liên quan:
Luận văn Thạc sĩ Khoa học ngành Công nghệ thông tin Kỹ thuật phần mềm Công nghệ tìm kiếm mã nguồn mở Lucene Ứng dụng thử nghiệm quản lý văn bản Hệ thống tìm kiếm thông tinTài liệu liên quan:
-
64 trang 265 0 0
-
Báo cáo nghiên cứu khoa học: Xây dựng ứng dụng quản lý sinh viên trên thiết bị di động
36 trang 142 0 0 -
150 trang 104 0 0
-
60 trang 44 0 0
-
69 trang 37 0 0
-
Một số giải pháp lập trình ASP.NET 2.0
82 trang 37 0 0 -
Bài giảng Lý thuyết kiểm tra phần mềm: Bài 6 - GV.Nguyễn Ngọc Tú
26 trang 34 0 0 -
Báo cáo nghiên cứu khoa học: Nghiên cứu phần mềm bãi giữ xe thông minh
37 trang 34 0 0 -
24 trang 34 0 0
-
Luận văn Thạc sĩ Kỹ thuật phần mềm: Dự đoán sự tương tác giữa các protein dựa trên kỹ thuật học sâu
33 trang 32 0 0