Danh mục

Báo cáo Tự động sinh mục lục cho văn bản

Số trang: 5      Loại file: pdf      Dung lượng: 254.00 KB      Lượt xem: 13      Lượt tải: 0    
Hoai.2512

Phí lưu trữ: miễn phí Tải xuống file đầy đủ (5 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Giới thiệu bài toán tóm tắt văn bản nói chung và bài toán xây dựng mục lục cho văn bản nói riêng; Nghiên cứu các phương pháp và thuật toán tiêu biểu sử dụng trong các phân đoạn và sinh tiêu đề trong quá trình xây dựng mục lục cho văn bản; Phân tích và đề xuất phương án tích hợp các thuật toán của các bước để giải quyết bài toán chính của luận văn; Đề xuất một số hướng cải tiến và trình bày các phương pháp đánh giá; Phần thử nghiệm trình bày quá trình thử nghiệm...
Nội dung trích xuất từ tài liệu:
Báo cáo " Tự động sinh mục lục cho văn bản " Tự động sinh mục lục cho văn bản Nguyễn Việt Cường Trường Đại học Công nghệ Luận văn ThS chuyên ngành: Công nghệ phần mềm; Mã số: 60 48 10 Người hướng dẫn: PGS TS Hà Quang Thụy Năm bảo vệ: 2007Abstract: Giới thiệu bài toán tóm tắt văn bản nói chung và bài toán xây dựng mục lục chovăn bản nói riêng; Nghiên cứu các phương pháp và thuật toán tiêu biểu sử dụng trong cácphân đoạn và sinh tiêu đề trong quá trình xây dựng mục lục cho văn bản; Phân tích và đề xuấtphương án tích hợp các thuật toán của các bước để giải quyết bài toán chính của luận văn; Đềxuất một số hướng cải tiến và trình bày các phương pháp đánh giá; Phần thử nghiệm trìnhbày quá trình thử nghiệm cùng các kết quả đạt được, đưa ra những ý kiến phân tích và đánhgiá các kết quả làm tiền đề cho các ý kiến đề xuấtKeywords: Công nghệ thông tin, Soạn thảo văn bản, Tự động sinh mục lụcContentMỞ ĐẦUHiện nay, lượng văn bản được số hoá đang tăng lên nhanh chóng và đặc biệt được phổ biếnrộng rãi cùng với sự tăng trưởng của Internet. Các văn bản này thuộc nhiều dạng khác nhaunhư văn bản chữ viết, văn bản âm thanh và văn bản hình ảnh. Nguồn thông tin khổng lồ nàyvừa mang lại lợi ích giúp con người tiếp cận và khai thác được nhiều thông tin hơn, nhưngmặt khác cũng gây khó khăn cho công việc lựa chọn và tổng hợp thông tin. Lĩnh vực xử língôn ngữ tự nhiên (xử lí ngôn ngữ trên máy tính một cách tự động) ra đời nhằm giải quyếtphần nào sự khó khăn này.Lĩnh vực xử lí ngôn ngữ tự nhiên đã đặt ra hàng loạt bài toán nhằm giải quyết các khó khănvà trợ giúp con người xử lí văn bản tốt hơn như: tìm kiếm văn bản, phân lớp văn bản, rút tríchthông tin, tóm tắt văn bản, hệ thống hỏi-đáp,… Các hệ thống thông tin trực tuyến như Google,Yahoo!, MSN,… đã thể hiện được các kết quả nghiên cứu giải quyết các bài toán này. Ví dụnhư máy tìm kiếm Google đảm nhận việc tìm kiếm các văn bản theo yêu cầu của người dùng,trích ra các đoạn văn bản liên quan đến yêu cầu, tóm tắt lại dựa trên các thông tin đó và hiểnthị cho người dùng lựa chọn. Tuy chất lượng xử lí văn bản chưa đạt được mức độ như conngười nhưng sự lớn mạnh của các cỗ máy tìm kiếm trên đã cho thấy tiềm năng và triển vọngthực sự của các bài toán trong xử lí ngôn ngữ tự nhiên.Tóm tắt văn bản là một bài toán trong xử lí ngôn ngữ tự nhiên, đó là “một quá trình thu gọnvăn bản đầu vào thành văn bản tóm tắt thông qua việc cô đọng nội dung bằng cách lựa chọnvà/hoặc tổng hợp những thông tin quan trọng trong văn bản đầu vào” [18]. Trong thời giangần đây, tóm tắt văn bản đang nhận được sự quan tâm rộng rãi của cộng đồng nghiên cứu trênthế giới với sự tăng trưởng về số bài báo có liên quan trong các hội nghị DUC1 2001-2007,ACL2 2001-2007,…; sự phát triển của các hệ thống tóm tắt văn bản3 như MEAD, LexRank,Text Analyst (Megaputer), Text Analysis (IBM Japan), Microsoft Word,… Rất nhiều bàitoán nhỏ của tóm tắt văn bản đã được đặt ra và giải quyết [18] thông qua các hội nghị và phầnmềm kể trên.Một trong những vấn đề được quan tâm nghiên cứu gần đây là xây dựng mục lục cho văn bảnmột cách tự động [2, 5]. Đây là một bài toán tóm tắt văn bản, trong đó các thông tin quantrọng của tài liệu được định nghĩa là tiêu đề của các đoạn văn bản và được thể hiện dưới dạngdanh sách ở mục lục của văn bản. Cấu trúc mục lục là một cấu trúc phổ biến ở trong các vănbản dài mà đặc biệt là các cuốn sách, nó giúp người đọc tìm kiếm chủ đề quan tâm và định vịđược vị trí của chủ đề đó trong văn bản. Đối với các văn bản âm thanh, hình ảnh, việc xâydựng được mục lục cho văn bản là rất cần thiết vì những văn bản dạng này hầu như không cósẵn mục lục để định vị các phân đoạn thông tin khác nhau [3, 10, 18, 20]. Việc xây dựng mụclục cho văn bản gồm hai bước, bước thứ nhất là phân đoạn văn bản, tức là phân văn bảnthành các đoạn rời rạc, nối tiếp nhau, mỗi đoạn nói về một chủ đề tương đối khác nhau [2, 4,6, 15, 16, 20] và bước thứ hai là sinh tiêu đề cho các đoạn văn bản, tức là sinh một cụm từngắn thể hiện được chủ đề chính của đoạn văn [3, 10, 17, 28]. Trong [5], các tác giả đã trìnhbày và thử nghiệm xây dựng mục lục cho văn bản, tuy nhiên bài báo mới dừng lại ở việc giảiquyết nửa sau của bài toán xây dựng mục lục cho văn bản, tức là sinh tiêu đề và xây dựng cấutrúc mục lục với việc sử dụng cấu trúc phân đoạn sẵn có của văn bản. Hơn thế nữa, mô hìnhtrong [5] là mô hình học giám sát, đòi hỏi phải có dữ liệu huấn luyện trong khi loại dữ liệunày rất thiếu đối với bài toán được đề cập.Với việc lựa chọn đề tài “Tự động sinh mục lục cho văn bản”, luận văn này hướng tới việctích hợp hai bước phân đoạn và sinh tiêu đề trong quá trình xây dựng mục lục cho văn bảnmột cách tự động. Trong luận văn này, các bài toán của từng bước được nghiên cứu chi tiết;phương pháp tích hợp hai bước với nhau được đề xuất và tiến hành thử ng ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: