![Phân tích tư tưởng của nhân dân qua đoạn thơ: Những người vợ nhớ chồng… Những cuộc đời đã hóa sông núi ta trong Đất nước của Nguyễn Khoa Điềm](https://timtailieu.net/upload/document/136415/phan-tich-tu-tuong-cua-nhan-dan-qua-doan-tho-039-039-nhung-nguoi-vo-nho-chong-nhung-cuoc-doi-da-hoa-song-nui-ta-039-039-trong-dat-nuoc-cua-nguyen-khoa-136415.jpg)
LUẬN VĂN: PHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC
Số trang: 45
Loại file: pdf
Dung lượng: 558.46 KB
Lượt xem: 17
Lượt tải: 0
Xem trước 5 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Trong khóa luận này em trình bày một phương pháp để trích chọn thực thể tên tổ chức tiếng Việt trong văn bản tiếng Việt trên môi trường Web. Phương pháp này dựa trên ý tưởng của Sergey Brin mà cụ thể hơn là thuật toán DIPRE trong việc trích chọn cặp quan hệ tên sách và tác giả của những cuốn sách tiếng Anh trên môi trường Web. Ưu điểm của phương pháp này là cần ít sự can thiệp của con người, không cần sự hỗ trợ của các ứng dụng phụ như xác định từ loại (POS...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN: PHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Quốc ĐạtPHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Quốc ĐạtPHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Nguyễn Trí Thành HÀ NỘI – 2009 Lời cảm ơn Trước tiên em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo, TS. Nguyễn TríThành, người đã giúp em chọn đề tài, đưa ra những nhận xét quý giá và trực tiếphướng dẫn giúp em hoàn thành luận văn tốt nghiệp. Em xin chân thành cảm ơn cácthầy cô giáo trong khoa CNTT- Trường Đại học Công Nghệ - ĐHQG Hà Nội đãtruyền đạt kiến thức cho em trong suốt thời gian học tập tại trường. Trong suốt thời gian làm khóa luận, em đã nhận được nhiều sự giúp đỡ, độngviên từ gia đình, thầy cô và bạn bè. Em xin gửi lời cảm ơn tới những người bạn củaem, luôn bên cạnh em để chia sẽ những kiến thức, kinh nghiệm học tập cũng như trongcuộc sống. Cuối cùng, em xin gửi lời cảm ơn sâu sắc nhất tới gia đình của mình, nguồnđộng viên và cổ vũ lớn lao, và là động lực giúp em thành công trong công việc vàtrong cuộc sống. Sinh viên Vũ Quốc Đạt Tóm tắt nội dung Trích chọn thông tin là lĩnh vực quan trọng trong khai phá dữ liệu, trong đó tríchchọn thực thể là một bài toán con, cơ bản nhưng đóng vai trò hết sức quan trọng. Nócó thể được sử dụng để hỗ trợ cho phương pháp tìm kiếm mới – tìm kiếm hướng thựcthể, và góp phần quan trọng cho việc xây dựng web ngữ nghĩa. Có nhiều phương pháp tiếp cận khác nhau cho bài toán trích chọn thực thể nhưphương pháp học máy HMM, … Trong khóa luận này em trình bày một phương phápđể trích chọn thực thể tên tổ chức tiếng Việt trong văn bản tiếng Việt trên môi trườngWeb. Phương pháp này dựa trên ý tưởng của Sergey Brin mà cụ thể hơn là thuật toánDIPRE trong việc trích chọn cặp quan hệ tên sách và tác giả của những cuốn sáchtiếng Anh trên môi trường Web. Ưu điểm của phương pháp này là cần ít sự can thiệpcủa con người, không cần sự hỗ trợ của các ứng dụng phụ như xác định từ loại (POS –tag). Kết quả thực nghiệm trên các văn bản tiếng Việt cho thấy phương pháp nàytương đối khả quan. Mục lụcLời cảm ơn............................................................................................................................3Tóm tắt nội dung...................................................................................................................4Bảng từ viết tắt .....................................................................................................................0Mở đầu..................................................................................................................................1CHƯƠNG 1. SƠ LƯỢC BÀI TOÁN TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC....3 1.1. Tổng quan về trích chọn thông tin ..........................................................................3 1.2. Bài toán rút trích thực thể tên tổ chức.....................................................................4 1.3. Ý nghĩa của bài toán rút trích thực thể tên tổ chức.................................................5CHƯƠNG 2. HƯỚNG TIẾP CẬN BÀI TOÁN TRÍCH CHỌN THỰC THỂ ...............6 2.1. Rút trích cặp quan hệ (title, author) của cuốn sách trong tài liệu web ...................6 2.1.1. Occurrences của sách .......................................................................................6 2.1.2. Patterns của sách ..............................................................................................7 2.1.3. Quy trình rút trích.............................................................................................7 2.1.4. Thuật toán sinh Patterns ...................................................................................8 2.2. Thu thập tên và miền tương ứng từ tập tài liệu web ...............................................9 2.3. Hệ thống Snowball................................................................................................13 2.3.1. Sinh patterns...................................................................................................13 2.3.2. Sinh cặp quan hệ .......................................... ...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN: PHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Quốc ĐạtPHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Quốc ĐạtPHƯƠNG PHÁP HỌC GẦN KHÔNG GIÁM SÁT ĐỂ TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Nguyễn Trí Thành HÀ NỘI – 2009 Lời cảm ơn Trước tiên em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo, TS. Nguyễn TríThành, người đã giúp em chọn đề tài, đưa ra những nhận xét quý giá và trực tiếphướng dẫn giúp em hoàn thành luận văn tốt nghiệp. Em xin chân thành cảm ơn cácthầy cô giáo trong khoa CNTT- Trường Đại học Công Nghệ - ĐHQG Hà Nội đãtruyền đạt kiến thức cho em trong suốt thời gian học tập tại trường. Trong suốt thời gian làm khóa luận, em đã nhận được nhiều sự giúp đỡ, độngviên từ gia đình, thầy cô và bạn bè. Em xin gửi lời cảm ơn tới những người bạn củaem, luôn bên cạnh em để chia sẽ những kiến thức, kinh nghiệm học tập cũng như trongcuộc sống. Cuối cùng, em xin gửi lời cảm ơn sâu sắc nhất tới gia đình của mình, nguồnđộng viên và cổ vũ lớn lao, và là động lực giúp em thành công trong công việc vàtrong cuộc sống. Sinh viên Vũ Quốc Đạt Tóm tắt nội dung Trích chọn thông tin là lĩnh vực quan trọng trong khai phá dữ liệu, trong đó tríchchọn thực thể là một bài toán con, cơ bản nhưng đóng vai trò hết sức quan trọng. Nócó thể được sử dụng để hỗ trợ cho phương pháp tìm kiếm mới – tìm kiếm hướng thựcthể, và góp phần quan trọng cho việc xây dựng web ngữ nghĩa. Có nhiều phương pháp tiếp cận khác nhau cho bài toán trích chọn thực thể nhưphương pháp học máy HMM, … Trong khóa luận này em trình bày một phương phápđể trích chọn thực thể tên tổ chức tiếng Việt trong văn bản tiếng Việt trên môi trườngWeb. Phương pháp này dựa trên ý tưởng của Sergey Brin mà cụ thể hơn là thuật toánDIPRE trong việc trích chọn cặp quan hệ tên sách và tác giả của những cuốn sáchtiếng Anh trên môi trường Web. Ưu điểm của phương pháp này là cần ít sự can thiệpcủa con người, không cần sự hỗ trợ của các ứng dụng phụ như xác định từ loại (POS –tag). Kết quả thực nghiệm trên các văn bản tiếng Việt cho thấy phương pháp nàytương đối khả quan. Mục lụcLời cảm ơn............................................................................................................................3Tóm tắt nội dung...................................................................................................................4Bảng từ viết tắt .....................................................................................................................0Mở đầu..................................................................................................................................1CHƯƠNG 1. SƠ LƯỢC BÀI TOÁN TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC....3 1.1. Tổng quan về trích chọn thông tin ..........................................................................3 1.2. Bài toán rút trích thực thể tên tổ chức.....................................................................4 1.3. Ý nghĩa của bài toán rút trích thực thể tên tổ chức.................................................5CHƯƠNG 2. HƯỚNG TIẾP CẬN BÀI TOÁN TRÍCH CHỌN THỰC THỂ ...............6 2.1. Rút trích cặp quan hệ (title, author) của cuốn sách trong tài liệu web ...................6 2.1.1. Occurrences của sách .......................................................................................6 2.1.2. Patterns của sách ..............................................................................................7 2.1.3. Quy trình rút trích.............................................................................................7 2.1.4. Thuật toán sinh Patterns ...................................................................................8 2.2. Thu thập tên và miền tương ứng từ tập tài liệu web ...............................................9 2.3. Hệ thống Snowball................................................................................................13 2.3.1. Sinh patterns...................................................................................................13 2.3.2. Sinh cặp quan hệ .......................................... ...
Tìm kiếm theo từ khóa liên quan:
luận văn công nghệ thông tin thực thể tên tổ chức môi trường wed bài toán trích chọn thực thể trích chọn thông tinTài liệu liên quan:
-
52 trang 436 1 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 324 0 0 -
Thảo luận đề tài: Mối quan hệ giữa đầu tư theo chiều rộng và đầu tư theo chiều sâu
98 trang 313 0 0 -
74 trang 305 0 0
-
96 trang 301 0 0
-
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 294 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng di động android quản lý khách hàng cắt tóc
81 trang 288 0 0 -
EBay - Internet và câu chuyện thần kỳ: Phần 1
143 trang 277 0 0 -
Tài liệu hướng dẫn sử dụng thư điện tử tài nguyên và môi trường
72 trang 271 0 0 -
Tài liệu dạy học môn Tin học trong chương trình đào tạo trình độ cao đẳng
348 trang 269 1 0