Luận văn: NGHIÊN CỨU KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG TÌM KIẾM TRÍCH CHỌN THÔNG TIN THEO CHỦ ĐỀ

Số trang: 26 Loại file: pdf Dung lượng: 836.11 KB Lượt xem: 21 Lượt tải: 0

tailieu_vip

Hỗ trợ phí lưu trữ khi tải xuống: 26,000 VND

Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Hơn bốn thập niên kể từ khi Internet ra đời cho đến nay, nó mang lại rất nhiều tiện ích hữu dụng cho người sử dụng như: hệ thống thư điện tử (Email), trò chơi (Game), trò chuyện trực tuyến (Chat), máy truy vấn dữ liệu (Search engine), các dịch vụ thương mại, y tế và giáo dục…
Nội dung trích xuất từ tài liệu:
Luận văn:NGHIÊN CỨU KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG TÌM KIẾM TRÍCH CHỌN THÔNG TIN THEO CHỦ ĐỀ BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN ĐÌNH BÌNH NGHIÊN CỨU KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG TÌM KIẾM TRÍCH CHỌN THÔNG TIN THEO CHỦ ĐỀ Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2012 Công trình đƣợc hoàn thành tại ĐẠI HỌC ĐÀ NẴNG Ngƣời hƣớng dẫn khoa học: PGS.TS. Lê Văn Sơn Phản biện 1: PGS.TS. Võ Trung Hùng Phản biện 2: GS.TS. Nguyễn Thanh Thủy Luận văn được bảo vệ tại Hội đồng chấm Luận văn tốt nghiệp Thạc sĩ Kỹ thuật họp tại Đại học Đà Nẵng vào ngày 19 tháng 01 năm 2013. * Có thể tìm hiểu Luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng. -1- MỞ ĐẦU 1. Lý do chọn đề tài Hơn bốn thập niên kể từ khi Internet ra đời cho đến nay, nó mang lại rất nhiều tiện ích hữu dụng cho người sử dụng như: hệ thống thư điện tử (Email), trò chơi (Game), trò chuyện trực tuyến (Chat), máy truy vấn dữ liệu (Search engine), các dịch vụ thương mại, y tế và giáo dục… Sự phát triển nhanh chóng của mạng Internet đã sinh ra một khối lượng khổng lồ các dữ liệu dạng siêu văn bản (dữ liệu Web). Các tài liệu siêu văn bản chứa đựng văn bản và thường nhúng các liên kết đến các tài liệu khác phân bố trên Web. Ngày nay, Web bao gồm hàng tỉ tài liệu của hàng triệu tác giả được tạo ra và được phân tán qua hàng triệu máy tính được kết nối qua đường hữu tuyến (dây điện thoại, cáp quang) và đường vô tuyến (sóng radio, bức xạ hồng ngoại hay sóng truyền qua vệ tinh) . Web đang ngày càng được sử dụng phổ biến trong nhiều lĩnh vực như báo chí, phát thanh, truyền hình, hệ thống bưu điện, trường học, các tổ chức thương mại, chính phủ…Chính vì vậy lĩnh vực Web mining hay tìm kiếm các thông tin phù hợp có giá trị trên Web là một chủ đề quan trọng trong Data Mining và là vấn đề quan trọng của mỗi đơn vị, tổ chức có nhu cầu thu thập và tìm kiếm thông tin trên Internet. Các hệ thống tìm kiếm thông tin hay nói ngắn gọn là các máy tìm kiếm Web thông thường trả lại một danh sách các tài liệu được phân hạng mà người dùng sẽ phải tốn công chọn lọc trong một danh sách rất dài để có được những tài liệu phù hợp. Ngoài ra các thông tin đó thường rất phong phú, đa dạng và liên quan đến nhiều đối tượng khác nhau. Điều này tạo nên sự nhập nhằng gây khó khăn cho người sử dụng trong việc lấy được các thông tin cần thiết. Có nhiều hướng tiếp cận khác nhau để giải quyết vấn đề này, các hướng này thường chú ý giảm sự nhập nhằng bằng các phương -2- pháp tìm kiếm trích chọn thông tin hay thêm các tùy chọn để cắt bớt thông tin và hướng biểu diễn các thông tin trả về bởi các máy tìm kiếm thành từng cụm, lớp để cho người dùng có thể dễ dàng tìm được thông tin mà họ cần. Đã có nhiều thuật toán phân cụm, phân lớp để tìm kiếm thông tin. Tuy nhiên việc tập hợp tài liệu của các máy tìm kiếm là quá lớn và luôn thay đổi để có thể phân cụm ngoại tuyến. Do đó, việc phân cụm phải được ứng dụng trên tập các tài liệu nhỏ hơn được trả về từ các truy vấn và thay vì trả về một danh sách rất dài các thông tin gây nhập nhằng cho người sử dụng cần có một phương pháp tổ chức lại các kết quả tìm kiếm một cách hợp lý. Do những vấn đề cấp thiết được đề cập ở trên nên em chọn đề tài: Nghiên cứu khai phá dữ liệu Web và Ứng dụng tìm kiếm trích chọn thông tin theo chủ đề” . 2. Mục tiêu và nhiệm vụ nghiên cứu Mục đích của đề tài là nghiên cứu áp dụng tìm kiếm và trích chọn mẫu mới, hữu ích, hiểu được, tiềm ẩn trong Web. Những thông tin theo chủ đề nhanh, chính xác và đầy đủ, thông tin tiềm ẩn bên trong nội dung trang Web đó và những thông tin quan trọng hay những luồng thông tin tốt nhất trên trang Web tìm kiếm trả về kết quả phù hợp với yêu cầu người dùng. Mục tiêu cụ thể như sau: Nghiên cưu tìm kiếm ́ Nghiên cứu kỹ thuật tìm kiếm trên Web. Hiệu quả tìm kiếm một cách nhanh chóng và chính xác trên Web. Thông tin tìm kiếm trên Web đầy đủ nguyên vẹn, cô động. Nghiên cứu vê trích chọn ̀ Những thông tin cần khai thác còn tìm ẩn trong một câu, một vùng văn bản và một phân vùng của trang Web . -3- Nhưng vân đê kho khăn khi thưc hiên về việc trích chọn ̃ ́ ̀ ́ ̣ ̣ thông tin chủ đề ẩn trên trang Web. Đưa ra những luồng thông tin theo chủ đề tốt nhất để đáp ứng yêu cầu người sử dụng. Ứng dụng thực tế Sử dụng quy trình khai phá dư liêu Web trong v iệc tìm kiếm ̃ ̣ trích chọn thông tin theo chủ đề trên những trang Web vào thực tế để đáp ứng theo yêu cầu người dùng. Lấy được những thông tin quí giá tìm ẩn bên trong trang Web đó, để đáp ứng được nhu cầu tìm kiếm tối ưu cho người dùng. Tìm kiếm trích chọn các mẫu hoặc tri thức hấp dẫn (không tầm thường, ẩn, chưa biết và hữu dụng tiềm năng) từ một tập hợp lớn dữ liệu. để kết quả đạt được đáp ứng yêu cầu xã hội hiện nay. 3. Đối tƣợng và phạm vi nghiên cứu: Đối tượng dữ liệu là khai phá kho dữ liệu Web. Cấu trúc đối tượng là CSDL quan hệ, CSDL đa phương tiện, Dữ liệu dạng Text và dữ liệu Web. Phạm vi nghiên cứu luận văn này, tôi chỉ áp dụng thuật toán Viterbi, Crawling, Markov, Apriori … Công cụ hỗ trợ dư liêu vơi ngôn ngư Java trong hê quan trị cơ ̃ ̣ ́ ̃ ̣ ̉ sơ dư liêu MySQL, máy tìm kiếm Google, Yahoo…. ̉ ̃ ̣ Đề xuất khai phá dữ liệu Web dựa trên lý thuyết xác suất ( điển hình là mô hình xác suất Bayes, mô hình Markov ẩn, mô hình trường ngẫu nhiên có điều kiện…) trong việc tìm kiếm, trích chọn và thử nghiệm thực tế với các môt cơ ...