Danh mục

Luận văn: Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản

Số trang: 223      Loại file: pdf      Dung lượng: 2.28 MB      Lượt xem: 10      Lượt tải: 0    
Thu Hiền

Xem trước 10 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong truy xuất thông tin (Information Retrieval, IR), do những yếu tố khác nhau, người sử dụng thường dùng các truy vấn dạng đơn giản biểu diễn yêu cầu cần tìm. Việc này dẫn đến kết quả tìm được không đáp ứng đủ nhu cầu mong muốn, hoặc chất lượng thấp. Do đó, mở rộng truy vấn là vấn đề cần thiết, để từ đó giúp hệ thống truy xuất thông tin có thêm thông tin theo ngữ cảnh nhằm cải tiến các kết quả truy vấn. Thông tin theo ngữ cảnh có thể thu được từ những thông tin...
Nội dung trích xuất từ tài liệu:
Luận văn: Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản Đ I H C QU C GIA TP. HCM TRƯ NG Đ I H C BÁCH KHOA TP.HCM NGUY N CHÁNH THÀNHXÂY D NG MÔ HÌNH M R NG TRUY V NTRONG TRUY XU T THÔNG TIN VĂN B N LU N ÁN TI N SĨ K THU T TP.H CHÍ MINH – 2010 Đ I H C QU C GIA TP. HCM TRƯ NG Đ I H C BÁCH KHOA TP.HCM NGUY N CHÁNH THÀNHXÂY D NG MÔ HÌNH M R NG TRUY V NTRONG TRUY XU T THÔNG TIN VĂN B NChuyên ngành: KHOA H C MÁY TÍNHMã s : 62.48.01.01 LU N ÁN TI N SĨ K THU TNGƯ I HƯ NG D N KHOA H C PGS.TS. PHAN TH TƯƠI TP.H CHÍ MINH – 2010 L I CAM ĐOAN Tôi cam ñoan r ng n i dung c a lu n án này là k t qu nghiên c u c a b nthân. T t c nh ng tham kh o t các nghiên c u liên quan ñi u ñư c nêu ngu n g cm t cách rõ ràng t danh m c tài li u tham kh o trong lu n án. Nh ng ñóng góptrong lu n án là k t qu nghiên c u c a tác gi ñã ñư c công b trong các bài báokhoa h c trong ph n “Các công trình khoa h c” c a lu n án và chưa ñư c công btrong b t kỳ công trình khoa h c nào khác. Tác gi lu n án Nguy n Chánh Thành L I C M ƠN Trong quá trình hoàn thành lu n án này, tôi ñã ñư c các th y cô nơi cơ sñào t o giúp ñ t n tình, cơ quan nơi công tác t o m i ñi u ki n thu n l i và b n bècùng gia ñình thư ng xuyên ñ ng viên khích l . Lu n án này không th hoàn thành t t n u không có s t n tình hư ng d n vàs giúp ñ quí báu c a PGS.TS. Phan Th Tươi, giáo viên hư ng d n mà tôi tônvinh và mu n ñư c bày t lòng bi t ơn sâu s c nh t. Tôi cũng mu n ñư c bày t lòng bi t ơn ñ i v i t p th các th y cô khoaKhoa h c và K thu t Máy tính trư ng Đ i h c Bách khoa TP. H Chí Minh ñãgiúp ñ và t o ñi u ki n cho tôi r t nhi u trong quá trình h c t p và nghiên c uKhoa; ñ c bi t PGS.TS. Cao Hoàng Tr , PGS.TS. Dương Tu n Anh, PGS.TS. ĐPhúc và TS. Đ ng Tr n Khánh ñã có nh ng l i khuyên quý giá trong quá trình làmNCS và vi t lu n án này; c m ơn Phòng qu n lý Sau Đ i h c v s h tr các tht c hoàn thành lu n án. S bi t ơn c a tôi xin ñư c g i ñ n gia ñình, v con và ngư i thân, ñã h trñ ng viên và t o m i ñi u ki n thu n l i cho tôi trong su t quá trình hoàn thànhkhóa h c NCS. Cu i cùng tôi c m ơn anh Ngô Hùng Phương cùng t t c b n bè, ñ c bi t cácthành viên trong nhóm nghiên c u BK-NLP (thu c trư ng Đ i h c Bách khoaTp.HCM) ñã góp nhi u ý ki n thi t th c và có nh ng l i ñ ng viên khích l quý báugiúp tôi vư t qua khó khăn và hoàn thành t t lu n án. Tác gi lu n án Nguy n Chánh Thành TÓM T T Trong truy xu t thông tin (Information Retrieval, IR), do nh ng y u t khácnhau, ngư i s d ng thư ng dùng các truy v n d ng ñơn gi n bi u di n yêu c u c ntìm. Vi c này d n ñ n k t qu tìm ñư c không ñáp ng ñ nhu c u mong mu n,ho c ch t lư ng th p. Do ñó, m r ng truy v n là v n ñ c n thi t, ñ t ñó giúp hth ng truy xu t thông tin có thêm thông tin theo ng c nh nh m c i ti n các k t qutruy v n. Thông tin theo ng c nh có th thu ñư c t nh ng thông tin ph n h i liênquan, t ñ ng hi n hay mô hình tri th c như b n th h c (ontology). Vi c ng d ng ontology ñ tr giúp vi c m r ng truy v n ñư c nghiên c ut ñ u th p niên 1990 v i m t s thành công. Trong bài toán m r ng truy v n, m ts nhóm nghiên c u trên th gi i ñã s d ng ontology WordNet. M t s nhóm khácñã phát tri n ontology ñ ph c v nhu c u m r ng truy v n. Nh ng ñ nh hư ng ñ cbi t v c u trúc ontology c n xây d ng bao g m ñ xu t v nhóm thành ph n l p,th hi n, thu c tính, hay ñ xu t v nhóm th hi n, thu c tính, khái ni m và quan hr i r c (disjointness), IS-A, và tương ñương (equivalence), ho c phát tri n m t môhình m i v m ng ng nghĩa d a trên nh ng quan h trích d n t WordNet nhưquan h thư ng danh (hypernymy), h danh (hyponymy) … cùng m t s quan hñư c ñ nh nghĩa thêm như chú gi i (gloss), ch ñ và mi n (domain). Lu n án này ñ xu t phương pháp m r ng truy v n d a trên cơ s b n thh c (ontology-based query expansion). Đ th c hi n m c tiêu trên, lu n án ph i gi iquy t các v n ñ chính: (1) ñ xu t cơ s lý thuy t v các mô hình m r ng truy v nd a trên ontology; (2) phát tri n và hu n luy n ontology b ng phương pháp khaithác kho ng li u s n có và phương pháp rút trích d li u t WordNet; (3) ñ xu tphương pháp hoàn thi n và m r ng truy v n. Ph n th c nghi m c a lu n án ñư cti n hành cho ngôn ng ti ng Anh d a trên ngu n d li u và truy v n ti ng Anh tngu n TREC (Text REtrieval Conference) trong m t s lĩnh v c. Các k t qu th cnghi m ph n ánh tính kh thi c a nh ng phương pháp ñ xu t trong lu n án, ñ ngth i cho th y nhi u tri n v ng phát tri n c a các ñ xu t lý thuy t trong lu n án. ...

Tài liệu được xem nhiều: