LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM
Số trang: 71
Loại file: pdf
Dung lượng: 1.69 MB
Lượt xem: 16
Lượt tải: 0
Xem trước 8 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Một trong những ứng dụng đó là trích xuất thông tin của sản phẩm từ các trang thương mại điện tử để xây dựng hệ thống tìm kiếm giá cả, nhằm cung cấp thông tin tốt nhất đến người tiêu dùng.Khóa luận này tập trung nghiên cứu bài toán trích xuất thông tin từ dữ liệu web và áp dụng để xây dựng hệ thống tìm kiếm giá cả sản phẩm. Khóa luận xác định một tập luật để giải quyết bài toán trích xuất giá khi cho biết tên sản phẩm, và trên cơ sở đó, bài toán tự...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Tiến Thành BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆUBÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Tiến Thành BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆUBÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: Th.S. Trần Thị Oanh Cán bộ đồng hướng dẫn: CN. Trần Mai Vũ HÀ NỘI – 2009 Lời cảm ơn Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiếnsĩ Hà Quang Thụy, Thạc sỹ Trần Thị Oanh, Cử nhân Trần Mai Vũ đã tận tình hướng dẫntôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để tôihọc tập và nghiên cứu tại trường Đại Học Công Nghệ. Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khaiphá dữ liệu” đã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu. Tôi xin gửi lời cảm ơn tới các bạn trong lớp K50CA và K50CHTTT đã ủng hộkhuyến khích tôi trong suốt quá trình học tập tại trường. Cuối cùng, tôi muốn được gửi lời cảm ơn vô hạn tới gia đình và bạn bè, nhữngngười thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốtnghiệp.Tôi xin chân thành cảm ơn ! Sinh viên Vũ Tiến ThànhTóm tắt nội dung Trích xuất thông tin từ dữ liệu bán cấu trúc là một bài toán được sự quan tâm tạinhiều hội nghị lớn trên thế giới [9],[10],[12],[13]. Bài toán này là một thành phần khôngthể thiếu trong các ứng dụng về thu thập và trích xuất thông tin hiện nay. Một trongnhững ứng dụng đó là trích xuất thông tin của sản phẩm từ các trang thương mại điện tửđể xây dựng hệ thống tìm kiếm giá cả, nhằm cung cấp thông tin tốt nhất đến người tiêudùng. Khóa luận này tập trung nghiên cứu bài toán trích xuất thông tin từ dữ liệu web vàáp dụng để xây dựng hệ thống tìm kiếm giá cả sản phẩm. Khóa luận xác định một tập luậtđể giải quyết bài toán trích xuất giá khi cho biết tên sản phẩm, và trên cơ sở đó, bài toántự động trích xuất thông tin về tên và giá của sản phẩm được giải quyết. Khóa luận đưa racác bước xây dựng hệ thống tìm kiếm giá cho sản phẩm trên các trang web tiếng Việt,tiến hành các thực nghiệm trên hệ thống và đánh giá kết quả. Kết quả thực nghiệm chothấy các thông tin được trích xuất từ hệ thống là có độ tin cậy. iMục lụcTóm tắt nội dung .................................................................................................................iMục lục ................................................................................................................................iiBảng các kí hiệu và chữ viết tắt.........................................................................................vDanh sách các hình ............................................................................................................viDanh sách bảng biểu ...................................................................................................... viiiGiới thiệu .............................................................................................................................1Chương 1. Khái quát bài toán trích xuất thông tin cho dữ liệu bán cấu trúc ..............3 1.1 Bài toán trích xuất thông tin .......................................................................................3 1.1.1 Giới thiệu bài toán................................................................................................3 1.1.2 Dữ liệu của bài toán .............................................................................................3 1.1.3 Các hướng tiếp cận trong bài toán trích xuất thông tin........................................4 1.2 Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc................................................6 1.2.1 Vấn đề đặt ra với bài toán ....................................................................................6 1.2.2 Một số phương pháp trích xuất thông tin cho dữ liệu bán cấu trúc .....................6 1.2.3 Phương pháp đánh giá........................................................................... ...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Tiến Thành BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆUBÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Tiến Thành BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆUBÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: Th.S. Trần Thị Oanh Cán bộ đồng hướng dẫn: CN. Trần Mai Vũ HÀ NỘI – 2009 Lời cảm ơn Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiếnsĩ Hà Quang Thụy, Thạc sỹ Trần Thị Oanh, Cử nhân Trần Mai Vũ đã tận tình hướng dẫntôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để tôihọc tập và nghiên cứu tại trường Đại Học Công Nghệ. Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khaiphá dữ liệu” đã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu. Tôi xin gửi lời cảm ơn tới các bạn trong lớp K50CA và K50CHTTT đã ủng hộkhuyến khích tôi trong suốt quá trình học tập tại trường. Cuối cùng, tôi muốn được gửi lời cảm ơn vô hạn tới gia đình và bạn bè, nhữngngười thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốtnghiệp.Tôi xin chân thành cảm ơn ! Sinh viên Vũ Tiến ThànhTóm tắt nội dung Trích xuất thông tin từ dữ liệu bán cấu trúc là một bài toán được sự quan tâm tạinhiều hội nghị lớn trên thế giới [9],[10],[12],[13]. Bài toán này là một thành phần khôngthể thiếu trong các ứng dụng về thu thập và trích xuất thông tin hiện nay. Một trongnhững ứng dụng đó là trích xuất thông tin của sản phẩm từ các trang thương mại điện tửđể xây dựng hệ thống tìm kiếm giá cả, nhằm cung cấp thông tin tốt nhất đến người tiêudùng. Khóa luận này tập trung nghiên cứu bài toán trích xuất thông tin từ dữ liệu web vàáp dụng để xây dựng hệ thống tìm kiếm giá cả sản phẩm. Khóa luận xác định một tập luậtđể giải quyết bài toán trích xuất giá khi cho biết tên sản phẩm, và trên cơ sở đó, bài toántự động trích xuất thông tin về tên và giá của sản phẩm được giải quyết. Khóa luận đưa racác bước xây dựng hệ thống tìm kiếm giá cho sản phẩm trên các trang web tiếng Việt,tiến hành các thực nghiệm trên hệ thống và đánh giá kết quả. Kết quả thực nghiệm chothấy các thông tin được trích xuất từ hệ thống là có độ tin cậy. iMục lụcTóm tắt nội dung .................................................................................................................iMục lục ................................................................................................................................iiBảng các kí hiệu và chữ viết tắt.........................................................................................vDanh sách các hình ............................................................................................................viDanh sách bảng biểu ...................................................................................................... viiiGiới thiệu .............................................................................................................................1Chương 1. Khái quát bài toán trích xuất thông tin cho dữ liệu bán cấu trúc ..............3 1.1 Bài toán trích xuất thông tin .......................................................................................3 1.1.1 Giới thiệu bài toán................................................................................................3 1.1.2 Dữ liệu của bài toán .............................................................................................3 1.1.3 Các hướng tiếp cận trong bài toán trích xuất thông tin........................................4 1.2 Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc................................................6 1.2.1 Vấn đề đặt ra với bài toán ....................................................................................6 1.2.2 Một số phương pháp trích xuất thông tin cho dữ liệu bán cấu trúc .....................6 1.2.3 Phương pháp đánh giá........................................................................... ...
Tìm kiếm theo từ khóa liên quan:
luận văn công nghệ thông tin thông tin giá cả dữ liệu bán cấu trúc trích xuất thông tin dữ liệu wedTài liệu liên quan:
-
52 trang 441 1 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 332 0 0 -
Thảo luận đề tài: Mối quan hệ giữa đầu tư theo chiều rộng và đầu tư theo chiều sâu
98 trang 318 0 0 -
74 trang 310 0 0
-
96 trang 307 0 0
-
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 299 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng di động android quản lý khách hàng cắt tóc
81 trang 293 0 0 -
Tài liệu dạy học môn Tin học trong chương trình đào tạo trình độ cao đẳng
348 trang 291 1 0 -
EBay - Internet và câu chuyện thần kỳ: Phần 1
143 trang 279 0 0 -
Tài liệu hướng dẫn sử dụng thư điện tử tài nguyên và môi trường
72 trang 275 0 0