Danh mục

LUẬN VĂN: PHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC

Số trang: 45      Loại file: pdf      Dung lượng: 558.46 KB      Lượt xem: 17      Lượt tải: 0    
tailieu_vip

Hỗ trợ phí lưu trữ khi tải xuống: 22,500 VND Tải xuống file đầy đủ (45 trang) 0
Xem trước 5 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong khóa luận này em trình bày một phương pháp để trích chọn thực thể tên tổ chức tiếng Việt trong văn bản tiếng Việt trên môi trường Web. Phương pháp này dựa trên ý tưởng của Sergey Brin mà cụ thể hơn là thuật toán DIPRE trong việc trích chọn cặp quan hệ tên sách và tác giả của những cuốn sách tiếng Anh trên môi trường Web. Ưu điểm của phương pháp này là cần ít sự can thiệp của con người, không cần sự hỗ trợ của các ứng dụng phụ như xác định từ loại (POS...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN: PHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Quốc ĐạtPHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Quốc ĐạtPHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Nguyễn Trí Thành HÀ NỘI – 2009 Lời cảm ơn Trước tiên em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo, TS. Nguyễn TríThành, người đã giúp em chọn đề tài, đưa ra những nhận xét quý giá và trực tiếphướng dẫn giúp em hoàn thành luận văn tốt nghiệp. Em xin chân thành cảm ơn cácthầy cô giáo trong khoa CNTT- Trường Đại học Công Nghệ - ĐHQG Hà Nội đãtruyền đạt kiến thức cho em trong suốt thời gian học tập tại trường. Trong suốt thời gian làm khóa luận, em đã nhận được nhiều sự giúp đỡ, độngviên từ gia đình, thầy cô và bạn bè. Em xin gửi lời cảm ơn tới những người bạn củaem, luôn bên cạnh em để chia sẽ những kiến thức, kinh nghiệm học tập cũng như trongcuộc sống. Cuối cùng, em xin gửi lời cảm ơn sâu sắc nhất tới gia đình của mình, nguồnđộng viên và cổ vũ lớn lao, và là động lực giúp em thành công trong công việc vàtrong cuộc sống. Sinh viên Vũ Quốc Đạt Tóm tắt nội dung Trích chọn thông tin là lĩnh vực quan trọng trong khai phá dữ liệu, trong đó tríchchọn thực thể là một bài toán con, cơ bản nhưng đóng vai trò hết sức quan trọng. Nócó thể được sử dụng để hỗ trợ cho phương pháp tìm kiếm mới – tìm kiếm hướng thựcthể, và góp phần quan trọng cho việc xây dựng web ngữ nghĩa. Có nhiều phương pháp tiếp cận khác nhau cho bài toán trích chọn thực thể nhưphương pháp học máy HMM, … Trong khóa luận này em trình bày một phương phápđể trích chọn thực thể tên tổ chức tiếng Việt trong văn bản tiếng Việt trên môi trườngWeb. Phương pháp này dựa trên ý tưởng của Sergey Brin mà cụ thể hơn là thuật toánDIPRE trong việc trích chọn cặp quan hệ tên sách và tác giả của những cuốn sáchtiếng Anh trên môi trường Web. Ưu điểm của phương pháp này là cần ít sự can thiệpcủa con người, không cần sự hỗ trợ của các ứng dụng phụ như xác định từ loại (POS –tag). Kết quả thực nghiệm trên các văn bản tiếng Việt cho thấy phương pháp nàytương đối khả quan. Mục lụcLời cảm ơn............................................................................................................................3Tóm tắt nội dung...................................................................................................................4Bảng từ viết tắt .....................................................................................................................0Mở đầu..................................................................................................................................1CHƯƠNG 1. SƠ LƯỢC BÀI TOÁN TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC....3 1.1. Tổng quan về trích chọn thông tin ..........................................................................3 1.2. Bài toán rút trích thực thể tên tổ chức.....................................................................4 1.3. Ý nghĩa của bài toán rút trích thực thể tên tổ chức.................................................5CHƯƠNG 2. HƯỚNG TIẾP CẬN BÀI TOÁN TRÍCH CHỌN THỰC THỂ ...............6 2.1. Rút trích cặp quan hệ (title, author) của cuốn sách trong tài liệu web ...................6 2.1.1. Occurrences của sách .......................................................................................6 2.1.2. Patterns của sách ..............................................................................................7 2.1.3. Quy trình rút trích.............................................................................................7 2.1.4. Thuật toán sinh Patterns ...................................................................................8 2.2. Thu thập tên và miền tương ứng từ tập tài liệu web ...............................................9 2.3. Hệ thống Snowball................................................................................................13 2.3.1. Sinh patterns...................................................................................................13 2.3.2. Sinh cặp quan hệ .......................................... ...

Tài liệu được xem nhiều: