Tóm tắt luận văn Thạc sĩ Kỹ thuật: Ứng dụng thuật toán Map Reduce xây dựng tệp chỉ mục cho hệ thống tìm kiếm
Số trang: 25
Loại file: pdf
Dung lượng: 1.16 MB
Lượt xem: 10
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Mục tiêu là nghiên cứu phương pháp lập chỉ mục mới tạo ra tệp chỉ mục tìm kiếm Tiếng Việt nhằm nâng cao hiệu suất, tốc độ cũng như đảm bảo tính chính xác của kết quả tìm kiếm và áp dụng vào thực tế như thế nào. Mời các bạn cùng tham khảo.
Nội dung trích xuất từ tài liệu:
Tóm tắt luận văn Thạc sĩ Kỹ thuật: Ứng dụng thuật toán Map Reduce xây dựng tệp chỉ mục cho hệ thống tìm kiếmBỘ GIÁO DỤC VÀ ĐÀO TẠOĐẠI HỌC ĐÀ NẴNGHUỲNH THẢO PHÚCỨNG DỤNG THUẬT TOÁN MAP REDUCEXÂY DỰNG TỆP CHỈ MỤC CHOHỆ THỐNG TÌM KIẾMChuyên ngành : Khoa học máy tínhMã số : 60.48.01TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬTĐà Nẵng - Năm 2014Công trình được hoàn thành tạiĐẠI HỌC ĐÀ NẴNGNgười hướng dẫn khoa học: TS. Huỳnh Công PhápPhản biện 1: PGS.TS. Lê Văn SơnPhản biện 2: TS. Nguyễn Quang ThanhLuận văn được bảo vệ trước Hội đồng chấm Luận văn tốtnghiệp thạc sĩ kỹ thuật họp tại Đại học Đà Nẵng vào ngày 28tháng 6 năm 2014Có thể tìm hiểu luận văn tại :- Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng1MỞ ĐẦU1. Lý do chọn đề tàiCùng với sự phát triển của CNTT, số lượng các tài liệu điện tử(các tệp tài liệu, công văn, các log dữ liệu cần lưu trữ,…) của các tổchức, doanh nghiệp gia tăng từng ngày. Trong khi đó, nhu cầu khaithác trong kho tài liệu khổng lồ này để tìm kiếm những thông tin cầnthiết đang là nhu cầu thường ngày và thiết thực của người sử dụng.Tuy nhiên, một trong những khó khăn con người gặp phải trong việckhai thác thông tin là khả năng tìm chính xác thông tin họ cần trongkho tài liệu. Để trợ giúp công việc này, các hệ thống tìm kiếm đã lầnlượt được phát triển nhằm phục vụ cho nhu cầu tìm kiếm của ngườisử dụng.Những hệ thống tìm kiếm bắt đầu phát triển và đưa vào ứngdụng, phổ biến là các hệ thống tìm kiếm theo từ khóa. Nhiều hệthống hoạt động hiệu quả trên Internet như Google, Bing, Yahoo!…Tuy nhiên, phần lớn các công cụ tìm kiếm này chỉ giúp người dùngtìm kiếm các tài liệu điện tử mang tính chất phổ biến rộng rãi, khôngthể giúp người dùng tìm kiếm các tài liệu nội bộ mang tính bảo mậttrong doanh nghiệp. Hoặc các hệ thống tìm kiếm trên máy cá nhânnhư Windows Search, Google Desktop… đã đáp ứng phần nào nhucầu của người sử dụng trong việc tìm kiếm tài liệu nội bộ mang tínhbảo mật, tuy nhiên cũng chỉ đáp ứng được trên phạm vi nhỏ, khôngthể xử lý các dữ liệu phân tán, thời gian tìm kiếm lâu (vì các tài liệukhông được đánh chỉ mục và chỉ bắt đầu tìm kiếm trong từng tài liệukhi người dùng sử dụng chức năng tìm kiếm).Điều này dẫn tới một số tổ chức/ doanh nghiệp phải tự mìnhxây dựng hệ thống tìm kiếm nội bộ. Tuy nhiên, các giải pháp tìm2kiếm thông tin hiện nay vẫn còn gặp phải một số hạn chế sau :(i) Việc lập chỉ mục chủ yếu dựa trên các từ khóa là các từ đơnmà chưa quan tâm đến từ khóa là các từ, cụm từ, hoặc tập hợp các từcó nghĩa. Việc so khớp đơn thuần trên từ khóa là từ đơn có thể trả vềnhững tài liệu không phù hợp với nhu cầu thông tin của người dùng.Ví dụ tìm kiếm từ “cao học” nhưng đa số kết quả trả về cho các tàiliệu chứa riêng biệt từ “cao” và “học”(ii) Một thách thức lớn là các kho tài liệu điện tử hiện nay cóthể được lưu trữ phân tán (tùy vào bối cảnh và cách tổ chức lưu trữdữ liệu của các tổ chức/doanh nghiệp), điều này khiến cho việc lậpchỉ mục đồng bộ các tài liệu rất khó khăn.(iii) Khi người dùng tìm kiếm thông tin, họ thường rất quantâm đến việc kết quả tìm kiếm trả về những kết quả có thực, nghĩa làkết quả trả về không phải là những dữ liệu đã không còn tồn tại hoặcdữ liệu mới chưa được cập nhật (do việc lập chỉ mục xử lý với mậtđộ thời gian dài hoặc thời gian tiêu tốn cho việc lập chỉ mục quá lâu).Các giải pháp tìm kiếm thông tin hiện có chưa đáp ứng được nhu cầunày nếu xử lý dữ liệu lên đến mức dung lượng Terabyte.Từ đó mở ra hướng nghiên cứu để xây dựng một mô hình lậpchỉ mục mới nhằm khắc phục các hạn chế trên và giúp tìm kiếmthông tin hiệu quả hơn. Với lý do như vậy, tác giả xin đề xuất đề tài:“Ứng dụng thuật toán Map Reduce xây dựng tệp chỉ mụccho hệ thống tìm kiếm”2. Mục tiêu nghiên cứua) Mục tiêu- Mục tiêu là nghiên cứu phương pháp lập chỉ mục mới tạo ratệp chỉ mục tìm kiếm Tiếng Việt nhằm nâng cao hiệu suất, tốc độcũng như đảm bảo tính chính xác của kết quả tìm kiếm và áp dụng3vào thực tế như thế nào.b) Nhiệm vụ nghiên cứu- Tìm hiểu Hadoop/ Map Reduce- Hướng tới việc xây dựng ứng dụng Map Reduce và kho từđiển Tiếng Việt để xây dựng một hệ thống phần mềm có khả năngxây dựng tệp chỉ mục tìm kiếm Tiếng Việt.- Thử nghiệm, đánh giá hệ thống tạo tệp chỉ mục tìm kiếmtiếng Việt (tốc độ thực hiện, hổ trợ phân tán, khả năng phân tích từ,cụm từ Tiếng Việt).3. Đối tượng và phạm vi nghiên cứua) Đối tượng nghiên cứu- Hadoop/ Map Reduce- Phương pháp tạo tệp chỉ mục tìm kiếmb) Phạm vi nghiên cứu- Ứng dụng trong phạm vi các tài liệu cơ bản: txt, doc,…- Tệp chỉ mục trên ngôn ngữ Tiếng Việt.4. Phương pháp nghiên cứua) Phương pháp nghiên cứu lý thuyết- Tìm hiểu Hadoop/ Map Reduce- Tìm hiểu về tệp chỉ mục tìm kiếm- Tìm hiểu về khả năng tích hợp tạo chỉ mục và kho từ điển từ,cụm từ Tiếng Việtb) Phương pháp nghiên cứu thực nghiệm- Xây dựng một ứng dụng tạo tệp chỉ mục tìm kiếm Tiếng Việttừ kho tài liệu.5. Bố cục đề tàiMở đầu.Chương 1 : Tổng quan về hệ thống tìm kiếm. ...
Nội dung trích xuất từ tài liệu:
Tóm tắt luận văn Thạc sĩ Kỹ thuật: Ứng dụng thuật toán Map Reduce xây dựng tệp chỉ mục cho hệ thống tìm kiếmBỘ GIÁO DỤC VÀ ĐÀO TẠOĐẠI HỌC ĐÀ NẴNGHUỲNH THẢO PHÚCỨNG DỤNG THUẬT TOÁN MAP REDUCEXÂY DỰNG TỆP CHỈ MỤC CHOHỆ THỐNG TÌM KIẾMChuyên ngành : Khoa học máy tínhMã số : 60.48.01TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬTĐà Nẵng - Năm 2014Công trình được hoàn thành tạiĐẠI HỌC ĐÀ NẴNGNgười hướng dẫn khoa học: TS. Huỳnh Công PhápPhản biện 1: PGS.TS. Lê Văn SơnPhản biện 2: TS. Nguyễn Quang ThanhLuận văn được bảo vệ trước Hội đồng chấm Luận văn tốtnghiệp thạc sĩ kỹ thuật họp tại Đại học Đà Nẵng vào ngày 28tháng 6 năm 2014Có thể tìm hiểu luận văn tại :- Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng1MỞ ĐẦU1. Lý do chọn đề tàiCùng với sự phát triển của CNTT, số lượng các tài liệu điện tử(các tệp tài liệu, công văn, các log dữ liệu cần lưu trữ,…) của các tổchức, doanh nghiệp gia tăng từng ngày. Trong khi đó, nhu cầu khaithác trong kho tài liệu khổng lồ này để tìm kiếm những thông tin cầnthiết đang là nhu cầu thường ngày và thiết thực của người sử dụng.Tuy nhiên, một trong những khó khăn con người gặp phải trong việckhai thác thông tin là khả năng tìm chính xác thông tin họ cần trongkho tài liệu. Để trợ giúp công việc này, các hệ thống tìm kiếm đã lầnlượt được phát triển nhằm phục vụ cho nhu cầu tìm kiếm của ngườisử dụng.Những hệ thống tìm kiếm bắt đầu phát triển và đưa vào ứngdụng, phổ biến là các hệ thống tìm kiếm theo từ khóa. Nhiều hệthống hoạt động hiệu quả trên Internet như Google, Bing, Yahoo!…Tuy nhiên, phần lớn các công cụ tìm kiếm này chỉ giúp người dùngtìm kiếm các tài liệu điện tử mang tính chất phổ biến rộng rãi, khôngthể giúp người dùng tìm kiếm các tài liệu nội bộ mang tính bảo mậttrong doanh nghiệp. Hoặc các hệ thống tìm kiếm trên máy cá nhânnhư Windows Search, Google Desktop… đã đáp ứng phần nào nhucầu của người sử dụng trong việc tìm kiếm tài liệu nội bộ mang tínhbảo mật, tuy nhiên cũng chỉ đáp ứng được trên phạm vi nhỏ, khôngthể xử lý các dữ liệu phân tán, thời gian tìm kiếm lâu (vì các tài liệukhông được đánh chỉ mục và chỉ bắt đầu tìm kiếm trong từng tài liệukhi người dùng sử dụng chức năng tìm kiếm).Điều này dẫn tới một số tổ chức/ doanh nghiệp phải tự mìnhxây dựng hệ thống tìm kiếm nội bộ. Tuy nhiên, các giải pháp tìm2kiếm thông tin hiện nay vẫn còn gặp phải một số hạn chế sau :(i) Việc lập chỉ mục chủ yếu dựa trên các từ khóa là các từ đơnmà chưa quan tâm đến từ khóa là các từ, cụm từ, hoặc tập hợp các từcó nghĩa. Việc so khớp đơn thuần trên từ khóa là từ đơn có thể trả vềnhững tài liệu không phù hợp với nhu cầu thông tin của người dùng.Ví dụ tìm kiếm từ “cao học” nhưng đa số kết quả trả về cho các tàiliệu chứa riêng biệt từ “cao” và “học”(ii) Một thách thức lớn là các kho tài liệu điện tử hiện nay cóthể được lưu trữ phân tán (tùy vào bối cảnh và cách tổ chức lưu trữdữ liệu của các tổ chức/doanh nghiệp), điều này khiến cho việc lậpchỉ mục đồng bộ các tài liệu rất khó khăn.(iii) Khi người dùng tìm kiếm thông tin, họ thường rất quantâm đến việc kết quả tìm kiếm trả về những kết quả có thực, nghĩa làkết quả trả về không phải là những dữ liệu đã không còn tồn tại hoặcdữ liệu mới chưa được cập nhật (do việc lập chỉ mục xử lý với mậtđộ thời gian dài hoặc thời gian tiêu tốn cho việc lập chỉ mục quá lâu).Các giải pháp tìm kiếm thông tin hiện có chưa đáp ứng được nhu cầunày nếu xử lý dữ liệu lên đến mức dung lượng Terabyte.Từ đó mở ra hướng nghiên cứu để xây dựng một mô hình lậpchỉ mục mới nhằm khắc phục các hạn chế trên và giúp tìm kiếmthông tin hiệu quả hơn. Với lý do như vậy, tác giả xin đề xuất đề tài:“Ứng dụng thuật toán Map Reduce xây dựng tệp chỉ mụccho hệ thống tìm kiếm”2. Mục tiêu nghiên cứua) Mục tiêu- Mục tiêu là nghiên cứu phương pháp lập chỉ mục mới tạo ratệp chỉ mục tìm kiếm Tiếng Việt nhằm nâng cao hiệu suất, tốc độcũng như đảm bảo tính chính xác của kết quả tìm kiếm và áp dụng3vào thực tế như thế nào.b) Nhiệm vụ nghiên cứu- Tìm hiểu Hadoop/ Map Reduce- Hướng tới việc xây dựng ứng dụng Map Reduce và kho từđiển Tiếng Việt để xây dựng một hệ thống phần mềm có khả năngxây dựng tệp chỉ mục tìm kiếm Tiếng Việt.- Thử nghiệm, đánh giá hệ thống tạo tệp chỉ mục tìm kiếmtiếng Việt (tốc độ thực hiện, hổ trợ phân tán, khả năng phân tích từ,cụm từ Tiếng Việt).3. Đối tượng và phạm vi nghiên cứua) Đối tượng nghiên cứu- Hadoop/ Map Reduce- Phương pháp tạo tệp chỉ mục tìm kiếmb) Phạm vi nghiên cứu- Ứng dụng trong phạm vi các tài liệu cơ bản: txt, doc,…- Tệp chỉ mục trên ngôn ngữ Tiếng Việt.4. Phương pháp nghiên cứua) Phương pháp nghiên cứu lý thuyết- Tìm hiểu Hadoop/ Map Reduce- Tìm hiểu về tệp chỉ mục tìm kiếm- Tìm hiểu về khả năng tích hợp tạo chỉ mục và kho từ điển từ,cụm từ Tiếng Việtb) Phương pháp nghiên cứu thực nghiệm- Xây dựng một ứng dụng tạo tệp chỉ mục tìm kiếm Tiếng Việttừ kho tài liệu.5. Bố cục đề tàiMở đầu.Chương 1 : Tổng quan về hệ thống tìm kiếm. ...
Tìm kiếm theo từ khóa liên quan:
Luận văn Thạc sĩ Tóm tắt luận văn Thạc sĩ Khoa học máy tính Ứng dụng thuật toán Map Reduce Thuật toán Map Reduce Xây dựng tệp chỉ mục Hệ thống tìm kiếmGợi ý tài liệu liên quan:
-
30 trang 506 0 0
-
Tóm tắt Đồ án tốt nghiệp Khoa học máy tính: Xây dựng ứng dụng quản lý quán cà phê
15 trang 457 1 0 -
Đề thi kết thúc học phần học kì 2 môn Cơ sở dữ liệu năm 2019-2020 có đáp án - Trường ĐH Đồng Tháp
5 trang 371 6 0 -
Luận văn Thạc sĩ Kinh tế: Quản trị chất lượng dịch vụ khách sạn Mường Thanh Xa La
136 trang 357 5 0 -
97 trang 309 0 0
-
Luận văn Thạc sĩ Khoa học máy tính: Tìm hiểu xây dựng thuật toán giấu tin mật và ứng dụng
76 trang 296 0 0 -
97 trang 267 0 0
-
26 trang 263 0 0
-
115 trang 254 0 0
-
155 trang 250 0 0