Danh mục

Luận văn Thạc sĩ Hệ thống thông tin: Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên điện thoại di động

Số trang: 97      Loại file: pdf      Dung lượng: 3.10 MB      Lượt xem: 11      Lượt tải: 0    
tailieu_vip

Xem trước 10 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Luận văn với đề tài “Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên điện thoại di động” dựa trên những nghiên cứu trước đây để đề xuất nghiên cứu và phát triển một hệ thống nhận diện tên riêng tiếng Việt (ViNER) bằng cách kết hợp các đặc trưng cú pháp tự động với các từ nhúng được huấn luyện sẵn làm đầu vào cho bộ nhớ ngắn dài hai chiều (BiLSTM).
Nội dung trích xuất từ tài liệu:
Luận văn Thạc sĩ Hệ thống thông tin: Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên điện thoại di động ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT LƯU TUẤN THÀNH PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO BÀI TOÁN TRÍCH CHỌN THÔNG TIN VÀ ỨNG DỤNG TRÍCH CHỌN THỰC THỂ TÊN ĐIỆN THOẠI DI ĐỘNG CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SỸ BÌNH DƯƠNG – 2021 ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT LƯU TUẤN THÀNH PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO BÀI TOÁN TRÍCH CHỌN THÔNG TIN VÀ ỨNG DỤNG TRÍCH CHỌN THỰC THỂ TÊN ĐIỆN THOẠI DI ĐỘNG CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC TS. NGÔ THANH HÙNG BÌNH DƯƠNG – 2021 LỜI CAM ĐOAN Tôi là Lưu Tuấn Thành, học viên lớp CH17HT, ngành Hệ thống thông tin, trường Đại học Thủ Dầu Một. Tôi cam đoan, luận văn “Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên điện thoại di động” là công trình nghiên cứu của riêng cá nhân tôi, dưới sự hướng dẫn của TS. Ngô Thanh Hùng. Luận văn do tôi tự nghiên cứu, tìm hiểu, đọc, dịch tài liệu, tổng hợp và thực hiện. Nội dung cơ sở lý thuyết được đúc kết từ các công trình nghiên cứu trước và được biên mục trong phần tài liệu tham khảo. Các số liệu, chương trình phần mềm và những kết quả trong luận văn là trung thực và chưa được công bố trong bất kỳ một công trình nào khác. Tôi xin chịu trách nhiệm về lời cam đoan này. Bình Dương, ngày 10 tháng 10 năm 2021 Người viết luận văn Lưu Tuấn Thành LỜI CẢM ƠN Trong quá trình thực hiện luận văn “Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên điện thoại di động” tôi đã được sự hướng dẫn nhiệt tình của TS. Ngô Thanh Hùng. Thầy đã dành nhiều thời gian hướng dẫn, góp ý để tôi hoàn thiện đề tài. Trong quá trình nghiên cứu thầy luôn động viên tinh thần, định hướng cho tôi trong những lúc khó khăn khi nghiên cứu. Tôi chân thành cảm ơn. Tôi cũng bày tỏ lòng biết ơn sâu sắc đến các thầy cô đã giảng dạy tôi tận tình, thầy Bùi Thanh Hùng đã truyền đạt những kiến thức bổ ích cho tôi trong suốt thời gian học tại trường Đại học Thủ Dầu Một đã tạo điều kiện tốt nhất để tôi hoàn thành luận văn này. Sau cùng, tôi cũng xin gửi lời cảm ơn đến gia đình, đồng nghiệp, các anh chị học chung lớp đã đoàn kết, sát cánh giúp đỡ, động viên tôi trong suốt thời gian học vừa qua. Một lần nữa, tôi xin Trân trọng cảm ơn. Bình Dương, ngày 10 tháng 10 năm 2021 Người viết luận văn LƯU TUẤN THÀNH II TÓM TẮT LUẬN VĂN Trong thời đại khoa học - kỹ thuật như hiện nay, thời đại của cách mạng khoa học 4.0, với sự phát triển về mọi mặt của đời sống từ văn hóa, giáo dục cho đến công nghệ trong đó lĩnh vực công nghệ thông tin đã tạo ra các sản phẩm trí tuệ nhân tạo, robot công nghệ và máy móc đang dần thay thế con người. Nhu cầu giao tiếp, thương mại điện tử và tìm kiếm thông tin rất lớn, vì thế một số ứng dụng xử lý ngôn ngữ tự nhiên như tóm tắt văn bản, máy tìm kiếm, dịch máy, trích xuất thông tin và trả lời câu hỏi tự động ngày càng phát triển. Những ứng dụng này được phát triển dựa trên nền tảng của một số các tác vụ xử lý ngôn ngữ tự nhiên. Trích chọn tên điện thoại di động trong văn bản đã được nghiên cứu trên nhiều ngôn ngữ như tiếng Anh, tiếng Nhật, tiếng Trung,… bằng nhiều phương pháp khác nhau và đã đạt được nhiều kết quả khả quan. Các phương pháp học máy trước đây như SVM, cây quyết định, … cho kết quả phân loại cũng khá tốt. Luận văn với đề tài “Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên điện thoại di động” dựa trên những nghiên cứu trước đây để đề xuất nghiên cứu và phát triển một hệ thống nhận diện tên riêng tiếng Việt (ViNER) bằng cách kết hợp các đặc trưng cú pháp tự động với các từ nhúng được huấn luyện sẵn làm đầu vào cho bộ nhớ ngắn dài hai chiều (BiLSTM). Phương pháp huấn luyện hệ thống này trên tập dữ liệu mà tôi thu thập từ hàng trăm bài báo khác nhau. Bộ dữ liệu này gồm 3 tập dữ liệu huấn luyện, phê chuẩn và kiểm tra. Mỗi tập dữ liệu gồm 4 cột: Từ hoặc từ ghép, POS, CHUNK và TAG. Sau khi huấn luyện và đánh giá thực nghiệm hệ thống trên nhiều khía cạnh khác nhau bằng độ đo chính xác (Accuracy), tôi nhận thấy hệ thống kết hợp các đặc trưng cú pháp tự động với các từ nhúng được huấn luận sẵn làm đầu vào cho bộ nhớ ngắn dài hai chiều (BiLSTM) cho kết quả cao nhất đạt 74,04%. Luận văn cũng xây dựng một ứng dụng web trích xuất trực quan, nhận diện tên điện thoại di động cho một đoạn văn bản do người dùng nhập vào. I MỤC LỤC LỜI CAM ĐOAN ...................................................................................................................I LỜI CẢM ƠN ........................................................................................................................ II TÓM TẮT LUẬN VĂN ...................................................................................................... DANH MỤC VIẾT TẮT .......................................... ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: