Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin trên văn bản tiếng việt
Số trang: 8
Loại file: pdf
Dung lượng: 278.61 KB
Lượt xem: 14
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Trong các hệ thống tìm kiếm thông tin văn bản (Text Information Retrieval System), tiến trình
quan trọng nhất là tiến trình phân tích nội dung văn bản để xác định tập chỉ mục biểu diễn tốt
nhất nội dung của văn bản (tiến trình lập chỉ mục - indexing). Để có thể phân tích và rút trích
được các chỉ mục (index term / term) tốt người ta thường ứng dụng các kết quả của lĩnh vực xử lý
ngôn ngữ tự nhiên vào tiến trình này. ...
Nội dung trích xuất từ tài liệu:
Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin trên văn bản tiếng việt Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin trên văn bản tiếng Việt Đồng Thị Bích Thủy#, Hồ Bảo Quốc#* # Khoa Công Nghệ Thông Tin - Đại học khoa học tự nhiên TP. HCM 227 Nguyễn Văn Cừ - Q5 – TP.HCM * Laboratoire CLIP – IMAG, Grenoble France thuy@hcmuns.edu.vn, Ho-Bao.Quoc@imag.fr 0. Dẫn nhập Trong các hệ thống tìm kiếm thông tin văn bản (Text Information Retrieval System), tiến trình quan trọng nhất là tiến trình phân tích nội dung văn bản để xác định tập chỉ mục biểu diễn tốt nhất nội dung của văn bản (tiến trình lập chỉ mục - indexing). Để có thể phân tích và rút trích được các chỉ mục (index term / term) tốt người ta thường ứng dụng các kết quả của lĩnh vực xử lý ngôn ngữ tự nhiên vào tiến trình này. Chỉ mục có thể là từ (word) hay là một cấu trúc phức tạp hơn như cụm danh từ (noun phrase), khái niệm (concept)... Vấn đề xác định chỉ mục cho văn bản tiếng Việt phức tạp hơn đối với ngôn ngữ châu Âu do việc xác định giới hạn của một từ (word segmentation) trong tiếng Việt không đơn giản là chỉ dựa vào các khoảng trắng giữa chúng. Hơn nữa ngữ pháp tiếng Việt vẫn còn nhiều vấn đề tranh luận giữa các nhà ngôn ngữ học nên cũng còn nhiều khó khăn trong việc tự động hóa việc phân tích tiếng Việt. Trong báo cáo này chúng tôi trình bày việc ứng dụng xử lý ngôn ngữ tự nhiên vào hệ thống tìm kiến thông tin nói chung, tiếp theo chúng tôi trình bày một số đặc trưng của tiếng Việt dưới góc nhìn của lĩnh vực tìm kiếm thông tin. Cuối cùng chúng tôi trình bày một số kết quả mà chúng tôi đã đạt được trong việc xác định chỉ mục cho văn bản tiếng Việt. Bài báo chia làm bốn phần, phần I giới thiệu tổng quát về việc ứng dụng xử lý ngôn ngữ tự nhiên vào lĩnh vực tìm kiếm thông tin. Phần II chúng tôi trình bày một số đặc trưng của tiếng Việt dưới góc nhìn của lĩnh vực tìm kiếm thông tin. Phần III một số kêt quả mà chúng tôi đã đạt được trong việc lập chỉ mục cho văn bản tiếng Việt dựa trên uni-gram, bi-gram, cụm danh từ và cuối cùng là phần kết luận. 1 I. Ứng dụng xử lý ngôn ngữ tự nhiên vào tìm kiếm thông tin 1.1 Giới thiệu tổng quan Tìm kiếm thông tin (Information retrieval) là lĩnh vực nghiên cứu nhằm tìm ra các giải pháp giúp người sử dụng có thể tìm thấy các thông tin mình cần trong một khối lượng lớn dữ liệu. Nhiệm vụ của một hệ thống tìm kiếm thông tin tương tự như nhiệm vụ tổ chức phân loại tài liệu và phục vụ việc tra cứu của một thư viện. Một hệ thống tìm kiếm thông tin có hai chức năng chính : lập chỉ mục (indexing) và tra cứu (interrogation). Lập chỉ mục là giai đoạn phân tích tài liệu (document) để xác định các chỉ mục (term / index term) biểu diễn nội dung của tài liệu. Việc lập chỉ mục có thể dựa vào một cấu trúc phân lớp có sẵn (control vocabulary) như cách làm của các nhân viên thư viện, phân loại tài liệu theo một bộ phân loại cho trước. Các chỉ mục trong cách làm này là tồn tại trước và độc lập với tài liệu. Cách thứ hai để lập chỉ mục là rút trích các chỉ mục từ chính nội dung của tài liệu (free text). Trong bài này chúng tôi chỉ đề cập đến cách thứ hai này. Cuối giai đoạn lập chỉ mục nội dung của các tài liệu có trong kho tài liệu (corpus) được biểu diễn bên trong bằng tập các chỉ mục. Trong giai đoạn tra cứu, nhu cầu thông tin của người sử dụng được đưa vào hệ thống dưới dạng một câu hỏi (query) bằng ngôn ngữ tự nhiên hay một dạng thức qui ước nào đó, cũng sẽ được phân tích và biểu diễn thành một dạng biểu diễn trong. Hệ thống sẽ sử dụng một hàm so khớp (matching function) để so khớp biểu diễn của câu hỏi với các biểu diễn của các tài liệu để tìm ra các tài liệu có liên quan (relevance). Một hệ thống tìm kiếm thông tin có thể được biểu diễn như trong hình vẽ sau Nhu cầu thông tin Tài liệu biểu d iễn lập chỉ mục Câu hỏi tập chỉ mục So khớp Thay đổi câu hỏ i Tài liệu liên quan Để đánh giá hiệu năng của một hệ thống tìm kiếm thông tin người ta dựa vào hai độ đo chính là độ chính xác (presicion) và độ bao phủ (recall). Giả sử với một câu hỏi cho trước q, P là tập các tài liệu mà hệ thống tìm được, R là tập các tài liệu thật sự liên quan đến câu hỏi q. Độ chính xác là tỉ số giữa số tài liệu liên quan đến câu hỏi được tìm thầy trên toàn số tài liệu được tìm thấy ((P ∩ R) /P). Độ bao phủ là tỉ số giữa số tài liệu liên quan đến câu hỏi được tìm thấy trên tổng số các tài liệu liên quan ((P∩R)/R). Mặc dù lĩnh vực tìm kiếm thông tin đã được nghiên cứu từ mấy chục năm nay nhưng những kỹ thuật mới vẫn chưa được áp dụng vào các hệ thống thương mại vì nhiều lý do khác nhau. Đa số các hệ thống tìm kiếm thông tin văn bản vẫn dựa trên các kỹ thuật đơn giản dẫn đến các kết quả chưa đáp ứng được mong đợi của người sử dụng. Như chúng ta vẫn thường gặp khi sử dụng 2 các công cụ tìm kiếm (search engine) trên Internet. Phần lớn các hệ thống tìm kiếm đều vẫn đang dựa trên giả định nếu một câu hỏi và một tài liệu có chứa một số từ (từ khoá) chung, thì tài liệu là liên quan đến câu hỏi, và dĩ nhiên là nếu số từ chung càng nhiều thì độ liên quan càng được cho là cao [1]. Để đánh giá độ liên quan giữa tài liệu và câu hỏi tốt hơn là chỉ dựa vào số lượng từ chung, người ta đánh trọng số (weight) cho các từ để biểu diễn mức độ quan trọng của từ trong tài liệu. Với giả định như vậy hệ thống không thể cho một kết quả chính xác do chúng ta xem như đã biểu diễn tài liệu và câu h ...
Nội dung trích xuất từ tài liệu:
Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin trên văn bản tiếng việt Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin trên văn bản tiếng Việt Đồng Thị Bích Thủy#, Hồ Bảo Quốc#* # Khoa Công Nghệ Thông Tin - Đại học khoa học tự nhiên TP. HCM 227 Nguyễn Văn Cừ - Q5 – TP.HCM * Laboratoire CLIP – IMAG, Grenoble France thuy@hcmuns.edu.vn, Ho-Bao.Quoc@imag.fr 0. Dẫn nhập Trong các hệ thống tìm kiếm thông tin văn bản (Text Information Retrieval System), tiến trình quan trọng nhất là tiến trình phân tích nội dung văn bản để xác định tập chỉ mục biểu diễn tốt nhất nội dung của văn bản (tiến trình lập chỉ mục - indexing). Để có thể phân tích và rút trích được các chỉ mục (index term / term) tốt người ta thường ứng dụng các kết quả của lĩnh vực xử lý ngôn ngữ tự nhiên vào tiến trình này. Chỉ mục có thể là từ (word) hay là một cấu trúc phức tạp hơn như cụm danh từ (noun phrase), khái niệm (concept)... Vấn đề xác định chỉ mục cho văn bản tiếng Việt phức tạp hơn đối với ngôn ngữ châu Âu do việc xác định giới hạn của một từ (word segmentation) trong tiếng Việt không đơn giản là chỉ dựa vào các khoảng trắng giữa chúng. Hơn nữa ngữ pháp tiếng Việt vẫn còn nhiều vấn đề tranh luận giữa các nhà ngôn ngữ học nên cũng còn nhiều khó khăn trong việc tự động hóa việc phân tích tiếng Việt. Trong báo cáo này chúng tôi trình bày việc ứng dụng xử lý ngôn ngữ tự nhiên vào hệ thống tìm kiến thông tin nói chung, tiếp theo chúng tôi trình bày một số đặc trưng của tiếng Việt dưới góc nhìn của lĩnh vực tìm kiếm thông tin. Cuối cùng chúng tôi trình bày một số kết quả mà chúng tôi đã đạt được trong việc xác định chỉ mục cho văn bản tiếng Việt. Bài báo chia làm bốn phần, phần I giới thiệu tổng quát về việc ứng dụng xử lý ngôn ngữ tự nhiên vào lĩnh vực tìm kiếm thông tin. Phần II chúng tôi trình bày một số đặc trưng của tiếng Việt dưới góc nhìn của lĩnh vực tìm kiếm thông tin. Phần III một số kêt quả mà chúng tôi đã đạt được trong việc lập chỉ mục cho văn bản tiếng Việt dựa trên uni-gram, bi-gram, cụm danh từ và cuối cùng là phần kết luận. 1 I. Ứng dụng xử lý ngôn ngữ tự nhiên vào tìm kiếm thông tin 1.1 Giới thiệu tổng quan Tìm kiếm thông tin (Information retrieval) là lĩnh vực nghiên cứu nhằm tìm ra các giải pháp giúp người sử dụng có thể tìm thấy các thông tin mình cần trong một khối lượng lớn dữ liệu. Nhiệm vụ của một hệ thống tìm kiếm thông tin tương tự như nhiệm vụ tổ chức phân loại tài liệu và phục vụ việc tra cứu của một thư viện. Một hệ thống tìm kiếm thông tin có hai chức năng chính : lập chỉ mục (indexing) và tra cứu (interrogation). Lập chỉ mục là giai đoạn phân tích tài liệu (document) để xác định các chỉ mục (term / index term) biểu diễn nội dung của tài liệu. Việc lập chỉ mục có thể dựa vào một cấu trúc phân lớp có sẵn (control vocabulary) như cách làm của các nhân viên thư viện, phân loại tài liệu theo một bộ phân loại cho trước. Các chỉ mục trong cách làm này là tồn tại trước và độc lập với tài liệu. Cách thứ hai để lập chỉ mục là rút trích các chỉ mục từ chính nội dung của tài liệu (free text). Trong bài này chúng tôi chỉ đề cập đến cách thứ hai này. Cuối giai đoạn lập chỉ mục nội dung của các tài liệu có trong kho tài liệu (corpus) được biểu diễn bên trong bằng tập các chỉ mục. Trong giai đoạn tra cứu, nhu cầu thông tin của người sử dụng được đưa vào hệ thống dưới dạng một câu hỏi (query) bằng ngôn ngữ tự nhiên hay một dạng thức qui ước nào đó, cũng sẽ được phân tích và biểu diễn thành một dạng biểu diễn trong. Hệ thống sẽ sử dụng một hàm so khớp (matching function) để so khớp biểu diễn của câu hỏi với các biểu diễn của các tài liệu để tìm ra các tài liệu có liên quan (relevance). Một hệ thống tìm kiếm thông tin có thể được biểu diễn như trong hình vẽ sau Nhu cầu thông tin Tài liệu biểu d iễn lập chỉ mục Câu hỏi tập chỉ mục So khớp Thay đổi câu hỏ i Tài liệu liên quan Để đánh giá hiệu năng của một hệ thống tìm kiếm thông tin người ta dựa vào hai độ đo chính là độ chính xác (presicion) và độ bao phủ (recall). Giả sử với một câu hỏi cho trước q, P là tập các tài liệu mà hệ thống tìm được, R là tập các tài liệu thật sự liên quan đến câu hỏi q. Độ chính xác là tỉ số giữa số tài liệu liên quan đến câu hỏi được tìm thầy trên toàn số tài liệu được tìm thấy ((P ∩ R) /P). Độ bao phủ là tỉ số giữa số tài liệu liên quan đến câu hỏi được tìm thấy trên tổng số các tài liệu liên quan ((P∩R)/R). Mặc dù lĩnh vực tìm kiếm thông tin đã được nghiên cứu từ mấy chục năm nay nhưng những kỹ thuật mới vẫn chưa được áp dụng vào các hệ thống thương mại vì nhiều lý do khác nhau. Đa số các hệ thống tìm kiếm thông tin văn bản vẫn dựa trên các kỹ thuật đơn giản dẫn đến các kết quả chưa đáp ứng được mong đợi của người sử dụng. Như chúng ta vẫn thường gặp khi sử dụng 2 các công cụ tìm kiếm (search engine) trên Internet. Phần lớn các hệ thống tìm kiếm đều vẫn đang dựa trên giả định nếu một câu hỏi và một tài liệu có chứa một số từ (từ khoá) chung, thì tài liệu là liên quan đến câu hỏi, và dĩ nhiên là nếu số từ chung càng nhiều thì độ liên quan càng được cho là cao [1]. Để đánh giá độ liên quan giữa tài liệu và câu hỏi tốt hơn là chỉ dựa vào số lượng từ chung, người ta đánh trọng số (weight) cho các từ để biểu diễn mức độ quan trọng của từ trong tài liệu. Với giả định như vậy hệ thống không thể cho một kết quả chính xác do chúng ta xem như đã biểu diễn tài liệu và câu h ...
Tìm kiếm theo từ khóa liên quan:
công nghệ thông tin hệ thống thông tin văn bản ngôn ngữ tự nhiên biến thể ngôn ngữ họcTài liệu liên quan:
-
52 trang 433 1 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 320 0 0 -
74 trang 303 0 0
-
96 trang 298 0 0
-
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 291 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng di động android quản lý khách hàng cắt tóc
81 trang 286 0 0 -
EBay - Internet và câu chuyện thần kỳ: Phần 1
143 trang 277 0 0 -
Tài liệu hướng dẫn sử dụng thư điện tử tài nguyên và môi trường
72 trang 270 0 0 -
Tài liệu dạy học môn Tin học trong chương trình đào tạo trình độ cao đẳng
348 trang 269 1 0 -
64 trang 266 0 0