Luận văn: Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản
Số trang: 223
Loại file: pdf
Dung lượng: 2.28 MB
Lượt xem: 10
Lượt tải: 0
Xem trước 10 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Trong truy xuất thông tin (Information Retrieval, IR), do những yếu tố khác nhau, người sử dụng thường dùng các truy vấn dạng đơn giản biểu diễn yêu cầu cần tìm. Việc này dẫn đến kết quả tìm được không đáp ứng đủ nhu cầu mong muốn, hoặc chất lượng thấp. Do đó, mở rộng truy vấn là vấn đề cần thiết, để từ đó giúp hệ thống truy xuất thông tin có thêm thông tin theo ngữ cảnh nhằm cải tiến các kết quả truy vấn. Thông tin theo ngữ cảnh có thể thu được từ những thông tin...
Nội dung trích xuất từ tài liệu:
Luận văn: Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản Đ I H C QU C GIA TP. HCM TRƯ NG Đ I H C BÁCH KHOA TP.HCM NGUY N CHÁNH THÀNHXÂY D NG MÔ HÌNH M R NG TRUY V NTRONG TRUY XU T THÔNG TIN VĂN B N LU N ÁN TI N SĨ K THU T TP.H CHÍ MINH – 2010 Đ I H C QU C GIA TP. HCM TRƯ NG Đ I H C BÁCH KHOA TP.HCM NGUY N CHÁNH THÀNHXÂY D NG MÔ HÌNH M R NG TRUY V NTRONG TRUY XU T THÔNG TIN VĂN B NChuyên ngành: KHOA H C MÁY TÍNHMã s : 62.48.01.01 LU N ÁN TI N SĨ K THU TNGƯ I HƯ NG D N KHOA H C PGS.TS. PHAN TH TƯƠI TP.H CHÍ MINH – 2010 L I CAM ĐOAN Tôi cam ñoan r ng n i dung c a lu n án này là k t qu nghiên c u c a b nthân. T t c nh ng tham kh o t các nghiên c u liên quan ñi u ñư c nêu ngu n g cm t cách rõ ràng t danh m c tài li u tham kh o trong lu n án. Nh ng ñóng góptrong lu n án là k t qu nghiên c u c a tác gi ñã ñư c công b trong các bài báokhoa h c trong ph n “Các công trình khoa h c” c a lu n án và chưa ñư c công btrong b t kỳ công trình khoa h c nào khác. Tác gi lu n án Nguy n Chánh Thành L I C M ƠN Trong quá trình hoàn thành lu n án này, tôi ñã ñư c các th y cô nơi cơ sñào t o giúp ñ t n tình, cơ quan nơi công tác t o m i ñi u ki n thu n l i và b n bècùng gia ñình thư ng xuyên ñ ng viên khích l . Lu n án này không th hoàn thành t t n u không có s t n tình hư ng d n vàs giúp ñ quí báu c a PGS.TS. Phan Th Tươi, giáo viên hư ng d n mà tôi tônvinh và mu n ñư c bày t lòng bi t ơn sâu s c nh t. Tôi cũng mu n ñư c bày t lòng bi t ơn ñ i v i t p th các th y cô khoaKhoa h c và K thu t Máy tính trư ng Đ i h c Bách khoa TP. H Chí Minh ñãgiúp ñ và t o ñi u ki n cho tôi r t nhi u trong quá trình h c t p và nghiên c uKhoa; ñ c bi t PGS.TS. Cao Hoàng Tr , PGS.TS. Dương Tu n Anh, PGS.TS. ĐPhúc và TS. Đ ng Tr n Khánh ñã có nh ng l i khuyên quý giá trong quá trình làmNCS và vi t lu n án này; c m ơn Phòng qu n lý Sau Đ i h c v s h tr các tht c hoàn thành lu n án. S bi t ơn c a tôi xin ñư c g i ñ n gia ñình, v con và ngư i thân, ñã h trñ ng viên và t o m i ñi u ki n thu n l i cho tôi trong su t quá trình hoàn thànhkhóa h c NCS. Cu i cùng tôi c m ơn anh Ngô Hùng Phương cùng t t c b n bè, ñ c bi t cácthành viên trong nhóm nghiên c u BK-NLP (thu c trư ng Đ i h c Bách khoaTp.HCM) ñã góp nhi u ý ki n thi t th c và có nh ng l i ñ ng viên khích l quý báugiúp tôi vư t qua khó khăn và hoàn thành t t lu n án. Tác gi lu n án Nguy n Chánh Thành TÓM T T Trong truy xu t thông tin (Information Retrieval, IR), do nh ng y u t khácnhau, ngư i s d ng thư ng dùng các truy v n d ng ñơn gi n bi u di n yêu c u c ntìm. Vi c này d n ñ n k t qu tìm ñư c không ñáp ng ñ nhu c u mong mu n,ho c ch t lư ng th p. Do ñó, m r ng truy v n là v n ñ c n thi t, ñ t ñó giúp hth ng truy xu t thông tin có thêm thông tin theo ng c nh nh m c i ti n các k t qutruy v n. Thông tin theo ng c nh có th thu ñư c t nh ng thông tin ph n h i liênquan, t ñ ng hi n hay mô hình tri th c như b n th h c (ontology). Vi c ng d ng ontology ñ tr giúp vi c m r ng truy v n ñư c nghiên c ut ñ u th p niên 1990 v i m t s thành công. Trong bài toán m r ng truy v n, m ts nhóm nghiên c u trên th gi i ñã s d ng ontology WordNet. M t s nhóm khácñã phát tri n ontology ñ ph c v nhu c u m r ng truy v n. Nh ng ñ nh hư ng ñ cbi t v c u trúc ontology c n xây d ng bao g m ñ xu t v nhóm thành ph n l p,th hi n, thu c tính, hay ñ xu t v nhóm th hi n, thu c tính, khái ni m và quan hr i r c (disjointness), IS-A, và tương ñương (equivalence), ho c phát tri n m t môhình m i v m ng ng nghĩa d a trên nh ng quan h trích d n t WordNet nhưquan h thư ng danh (hypernymy), h danh (hyponymy) … cùng m t s quan hñư c ñ nh nghĩa thêm như chú gi i (gloss), ch ñ và mi n (domain). Lu n án này ñ xu t phương pháp m r ng truy v n d a trên cơ s b n thh c (ontology-based query expansion). Đ th c hi n m c tiêu trên, lu n án ph i gi iquy t các v n ñ chính: (1) ñ xu t cơ s lý thuy t v các mô hình m r ng truy v nd a trên ontology; (2) phát tri n và hu n luy n ontology b ng phương pháp khaithác kho ng li u s n có và phương pháp rút trích d li u t WordNet; (3) ñ xu tphương pháp hoàn thi n và m r ng truy v n. Ph n th c nghi m c a lu n án ñư cti n hành cho ngôn ng ti ng Anh d a trên ngu n d li u và truy v n ti ng Anh tngu n TREC (Text REtrieval Conference) trong m t s lĩnh v c. Các k t qu th cnghi m ph n ánh tính kh thi c a nh ng phương pháp ñ xu t trong lu n án, ñ ngth i cho th y nhi u tri n v ng phát tri n c a các ñ xu t lý thuy t trong lu n án. ...
Nội dung trích xuất từ tài liệu:
Luận văn: Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản Đ I H C QU C GIA TP. HCM TRƯ NG Đ I H C BÁCH KHOA TP.HCM NGUY N CHÁNH THÀNHXÂY D NG MÔ HÌNH M R NG TRUY V NTRONG TRUY XU T THÔNG TIN VĂN B N LU N ÁN TI N SĨ K THU T TP.H CHÍ MINH – 2010 Đ I H C QU C GIA TP. HCM TRƯ NG Đ I H C BÁCH KHOA TP.HCM NGUY N CHÁNH THÀNHXÂY D NG MÔ HÌNH M R NG TRUY V NTRONG TRUY XU T THÔNG TIN VĂN B NChuyên ngành: KHOA H C MÁY TÍNHMã s : 62.48.01.01 LU N ÁN TI N SĨ K THU TNGƯ I HƯ NG D N KHOA H C PGS.TS. PHAN TH TƯƠI TP.H CHÍ MINH – 2010 L I CAM ĐOAN Tôi cam ñoan r ng n i dung c a lu n án này là k t qu nghiên c u c a b nthân. T t c nh ng tham kh o t các nghiên c u liên quan ñi u ñư c nêu ngu n g cm t cách rõ ràng t danh m c tài li u tham kh o trong lu n án. Nh ng ñóng góptrong lu n án là k t qu nghiên c u c a tác gi ñã ñư c công b trong các bài báokhoa h c trong ph n “Các công trình khoa h c” c a lu n án và chưa ñư c công btrong b t kỳ công trình khoa h c nào khác. Tác gi lu n án Nguy n Chánh Thành L I C M ƠN Trong quá trình hoàn thành lu n án này, tôi ñã ñư c các th y cô nơi cơ sñào t o giúp ñ t n tình, cơ quan nơi công tác t o m i ñi u ki n thu n l i và b n bècùng gia ñình thư ng xuyên ñ ng viên khích l . Lu n án này không th hoàn thành t t n u không có s t n tình hư ng d n vàs giúp ñ quí báu c a PGS.TS. Phan Th Tươi, giáo viên hư ng d n mà tôi tônvinh và mu n ñư c bày t lòng bi t ơn sâu s c nh t. Tôi cũng mu n ñư c bày t lòng bi t ơn ñ i v i t p th các th y cô khoaKhoa h c và K thu t Máy tính trư ng Đ i h c Bách khoa TP. H Chí Minh ñãgiúp ñ và t o ñi u ki n cho tôi r t nhi u trong quá trình h c t p và nghiên c uKhoa; ñ c bi t PGS.TS. Cao Hoàng Tr , PGS.TS. Dương Tu n Anh, PGS.TS. ĐPhúc và TS. Đ ng Tr n Khánh ñã có nh ng l i khuyên quý giá trong quá trình làmNCS và vi t lu n án này; c m ơn Phòng qu n lý Sau Đ i h c v s h tr các tht c hoàn thành lu n án. S bi t ơn c a tôi xin ñư c g i ñ n gia ñình, v con và ngư i thân, ñã h trñ ng viên và t o m i ñi u ki n thu n l i cho tôi trong su t quá trình hoàn thànhkhóa h c NCS. Cu i cùng tôi c m ơn anh Ngô Hùng Phương cùng t t c b n bè, ñ c bi t cácthành viên trong nhóm nghiên c u BK-NLP (thu c trư ng Đ i h c Bách khoaTp.HCM) ñã góp nhi u ý ki n thi t th c và có nh ng l i ñ ng viên khích l quý báugiúp tôi vư t qua khó khăn và hoàn thành t t lu n án. Tác gi lu n án Nguy n Chánh Thành TÓM T T Trong truy xu t thông tin (Information Retrieval, IR), do nh ng y u t khácnhau, ngư i s d ng thư ng dùng các truy v n d ng ñơn gi n bi u di n yêu c u c ntìm. Vi c này d n ñ n k t qu tìm ñư c không ñáp ng ñ nhu c u mong mu n,ho c ch t lư ng th p. Do ñó, m r ng truy v n là v n ñ c n thi t, ñ t ñó giúp hth ng truy xu t thông tin có thêm thông tin theo ng c nh nh m c i ti n các k t qutruy v n. Thông tin theo ng c nh có th thu ñư c t nh ng thông tin ph n h i liênquan, t ñ ng hi n hay mô hình tri th c như b n th h c (ontology). Vi c ng d ng ontology ñ tr giúp vi c m r ng truy v n ñư c nghiên c ut ñ u th p niên 1990 v i m t s thành công. Trong bài toán m r ng truy v n, m ts nhóm nghiên c u trên th gi i ñã s d ng ontology WordNet. M t s nhóm khácñã phát tri n ontology ñ ph c v nhu c u m r ng truy v n. Nh ng ñ nh hư ng ñ cbi t v c u trúc ontology c n xây d ng bao g m ñ xu t v nhóm thành ph n l p,th hi n, thu c tính, hay ñ xu t v nhóm th hi n, thu c tính, khái ni m và quan hr i r c (disjointness), IS-A, và tương ñương (equivalence), ho c phát tri n m t môhình m i v m ng ng nghĩa d a trên nh ng quan h trích d n t WordNet nhưquan h thư ng danh (hypernymy), h danh (hyponymy) … cùng m t s quan hñư c ñ nh nghĩa thêm như chú gi i (gloss), ch ñ và mi n (domain). Lu n án này ñ xu t phương pháp m r ng truy v n d a trên cơ s b n thh c (ontology-based query expansion). Đ th c hi n m c tiêu trên, lu n án ph i gi iquy t các v n ñ chính: (1) ñ xu t cơ s lý thuy t v các mô hình m r ng truy v nd a trên ontology; (2) phát tri n và hu n luy n ontology b ng phương pháp khaithác kho ng li u s n có và phương pháp rút trích d li u t WordNet; (3) ñ xu tphương pháp hoàn thi n và m r ng truy v n. Ph n th c nghi m c a lu n án ñư cti n hành cho ngôn ng ti ng Anh d a trên ngu n d li u và truy v n ti ng Anh tngu n TREC (Text REtrieval Conference) trong m t s lĩnh v c. Các k t qu th cnghi m ph n ánh tính kh thi c a nh ng phương pháp ñ xu t trong lu n án, ñ ngth i cho th y nhi u tri n v ng phát tri n c a các ñ xu t lý thuy t trong lu n án. ...
Tìm kiếm theo từ khóa liên quan:
Xây dựng mô hình truy vấn truy xuất thông tin văn bản sử dụng ontology WordNet luận văn quan hệ rời rạc khai thác kho ngữ liệuGợi ý tài liệu liên quan:
-
Thảo luận đề tài: Mối quan hệ giữa đầu tư theo chiều rộng và đầu tư theo chiều sâu
98 trang 306 0 0 -
Luận văn: Thiết kế xây dựng bộ đếm xung, ứng dụng đo tốc độ động cơ trong hệ thống truyền động điện
63 trang 236 0 0 -
79 trang 226 0 0
-
Đồ án: Kỹ thuật xử lý ảnh sử dụng biến đổi Wavelet
41 trang 218 0 0 -
Tiểu luận: Phân tích chiến lược của Công ty Sữa Vinamilk
25 trang 214 0 0 -
LUẬN VĂN: TÌM HIỂU PHƯƠNG PHÁP HỌC TÍCH CỰC VÀ ỨNG DỤNG CHO BÀI TOÁN LỌC THƯ RÁC
65 trang 212 0 0 -
Báo cáo thực tập nhà máy đường Bến Tre
68 trang 209 0 0 -
BÀI THUYẾT TRÌNH CÔNG TY CỔ PHẦN
11 trang 204 0 0 -
Báo cáo bài tập môn học : phân tích thiết kế hệ thống
27 trang 201 0 0 -
Luận văn: Nghiên cứu văn hóa Ấn Độ
74 trang 199 0 0