Danh mục

LUẬN VĂN: PHÂN LỚP PHÂN CẤP TAXONOMY VĂN BẢN WEB VÀ ỨNG DỤNG

Số trang: 61      Loại file: pdf      Dung lượng: 654.40 KB      Lượt xem: 13      Lượt tải: 0    
10.10.2023

Xem trước 7 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Phân lớp văn bản là quá trình gán văn bản một cách tự động vào một hoặc nhiều lớp cho trước. Tuy nhiên, trong trường hợp có số lượng khá lớn các lớp, bài toán sẽ phức tạp hơn rất nhiều, do đó, khi tiến hành phân lớp thường cho kết quả có độ chính xác không cao. Vì vậy, một vấn đề được đặt ra là cần phân lớp các văn bản sử dụng cấu trúc phân cấp. Hiện nay, bài toán này đã và đang trở thành lĩnh vực nhận được nhiều sự quan tâm, nghiên cứu...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN: PHÂN LỚP PHÂN CẤP TAXONOMY VĂN BẢN WEB VÀ ỨNG DỤNG ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Hương ThảoPHÂN LỚP PHÂN CẤP TAXONOMY VĂN BẢN WEB VÀ ỨNG DỤNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Hà Quang Thụy Cán bộ đồng hướng dẫn: CN. Đặng Thanh Hải HÀ NỘI - 2006 Tóm tắt nội dung Phân lớp văn bản là quá trình gán văn bản một cách tự động vào một hoặc nhiềulớp cho trước. Tuy nhiên, trong trường hợp có số lượng khá lớn các lớp, bài toán sẽphức tạp hơn rất nhiều, do đó, khi tiến hành phân lớp thường cho kết quả có độ chínhxác không cao. Vì vậy, một vấn đề được đặt ra là cần phân lớp các văn bản sử dụngcấu trúc phân cấp. Hiện nay, bài toán này đã và đang trở thành lĩnh vực nhận đượcnhiều sự quan tâm, nghiên cứu của nhiều nhà khoa học trên thế giới. Khoá luận tốtnghiệp với đề tài Phân lớp phân cấp Taxonomy văn bản Web và ứng dụng nghiêncứu nội dung, các thuộc tính, các thuật toán giải quyết bài toán phân lớp phân cấp.Khóa luận đã tiến hành thực nghiệm trên 12 lớp dữ liệu, sử dụng thuật toán máy vectorhỗ trợ, kết quả thu được rất tốt với độ đo F1 trung bình lên tới gần 90%.Phân lớp phân cấp Taxonomy văn bản Web và ứng dụng Lời mở đầu Trích chọn thông tin trên Web đã và đang tạo thêm nhiều tài nguyên thông tin,tri thức mới đáp ứng ngày càng hiệu quả nhu cầu thông tin của con người. Ngày nay,công nghệ trích chọn thông tin trên Web đã hình thành loại hình dịch vụ đầy triểnvọng trong việc cung cấp thông tin phong phú và hữu ích từ nguồn dữ liệu được coi làvô hạn trên Web. Một trong những bài toán cơ bản và quan trọng trong trích chọnthông tin trên Web là bài toán phát hiện các quan hệ của các lớp đối tượng trên Webmà quan hệ phân cấp giữa chúng là một loại quan hệ điển hình. Để thực hiện việc pháthiện mối quan hệ phân cấp giữa các lớp đối tượng trên Web thì bài toán đầu tiên cầngiải quyết đó là bài toán phân lớp tự động các đối tượng. Tự động phân lớp văn bản làmột nhiệm vụ rất quan trọng có thể giúp ích trong việc tổ chức cũng như tìm kiếmthông tin trên nguồn tài nguyên lớn này. Phân lớp văn bản là quá trình gán văn bảnmột cách tự động vào một hoặc nhiều lớp cho trước. Trong các nghiên cứu phân lớp văn bản, hầu hết đều tập trung vào bài toán phânlớp mà các lớp cho trước được xem là tách biệt nhau và không có cấu trúc xác địnhmối quan hệ giữa chúng. Những bài toán phân lớp như vậy được gọi là bài toán phânlớp phẳng (flat classification). Tuy nhiên, trong trường hợp có số lượng khá lớn cáclớp, bài toán sẽ phức tạp hơn rất nhiều và khi thực hiện các giải pháp phân lớp thườngcho kết quả không chính xác. Vì vậy, một vấn đề được đặt ra là cần phân lớp các vănbản sử dụng cấu trúc phân cấp. Thực hiện công việc này mặc nhiên cũng đã bao hàmvấn đề phát hiện quan hệ phân cấp giữa các lớp đối tượng như đã nói ở trên. Về bảnchất đây cũng được coi là một loại quan hệ ngữ nghĩa giữa các đối tượng và lớp đốitượng. Bài toán cần được giải quyết là phát hiện các lớp và kiến trúc các lớp đã đượcphát hiện vào một cây phân cấp. Đây là bài toán phân lớp phân cấp. Phân lớp phân cấpcho phép định hướng vào bài toán phân lớp lớn ban đầu và sử dụng phương pháp chianhỏ và đệ quy. Khoá luận tốt nghiệp với đề tài Phân lớp phân cấp Taxonomy văn bản Webvà ứng dụng nghiên cứu nội dung, các thuộc tính, các thuật toán giải quyết bài toánphân lớp phân cấp và cố gắng đưa ra một số nhận xét, đề xuất thích hợp và thi hànhchương trình thực nghiệm để kiểm chứng tính khả thi của phương pháp. 1Nguyễn Thị Hương Thảo - Lớp K47CA – Trường Đại học Công nghệPhân lớp phân cấp Taxonomy văn bản Web và ứng dụng Khóa luận được tổ chức thành ba chương mà nội dung chính của các chươngđược giới thiệu như dưới đây. Chương 1. Tổng quan về Taxonomy và phân lớp văn bản trình bày những nét cơbản nhất về taxonomy, các khái niệm và nội dung cơ bản về bài toán phân lớp văn bản.Chương này cũng trình bày một số thuật toán phân lớp văn bản điển hình, đặc biệt tậptrung vào thuật toán SVM - thuật toán hiện nay được đánh giá là bộ phân lớp nhanh vàhiệu quả nhất với bài toán phân lớp văn bản. Chương 2. Phân lớp phân cấp Taxonomy văn bản Web nghiên cứu các phươngpháp giải quyết bài toán phân lớp phân cấp và cách xây dựng các bộ phân lớp cho câyphân cấp văn bản. Chương này cũng giới thiệu một số phương pháp đánh giá cho bàitoán phân lớp phẳng và độ đo dựa vào khoảng cách và độ tương tự giữa các lớp. Chương 3. Thực nghiệm trình bày các kết quả thực nghiệm thu được khi ápdụng thuật toán SVM và phương pháp phân lớp phân cấp theo hướng top-down. Mộtsố nhận xét, đánh giá kết luận cũng được trình bày. ...

Tài liệu được xem nhiều: