Luận văn Thạc sĩ Công nghệ thông tin: Phân loại thực thể có tên trên wikipedia để phục vụ cho bài toán xây dựng hệ tri thức
Số trang: 79
Loại file: pdf
Dung lượng: 4.28 MB
Lượt xem: 9
Lượt tải: 0
Xem trước 8 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Luận văn giới thiệu một phương pháp hiệu quả để giải quyết bài toán phân loại thực thể có tên trên phiên bản Wikipedia tiếng Việt dựa trên máy véc- tơ hỗ trợ (Support Vector Machine). Mời các bạn cùng tham khảo nội dung chi tiết.
Nội dung trích xuất từ tài liệu:
Luận văn Thạc sĩ Công nghệ thông tin: Phân loại thực thể có tên trên wikipedia để phục vụ cho bài toán xây dựng hệ tri thức ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LƯU MẠNH HÀ PHÂN LOẠI THỰC THỂ CÓ TÊNTRÊN WIKIPEDIA ĐỂ PHỤC VỤ CHO BÀI TOÁN XÂY DỰNG HỆ TRI THỨC LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LƯU MẠNH HÀ PHÂN LOẠI THỰC THỂ CÓ TÊNTRÊN WIKIPEDIA ĐỂ PHỤC VỤ CHO BÀI TOÁN XÂY DỰNG HỆ TRI THỨC LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Cán bộ hướng dẫn: PGS. TS. Phạm Bảo Sơn HÀ NỘI - 2019 iLời cảm ơnTrước tiên, tôi xin gửi lời cảm ơn sâu sắc nhất đến thầy giáo: Phó giáo sư - Tiếnsĩ Phạm Bảo Sơn và thầy giáo: Tiến sĩ Nguyễn Bá Đạt, đã tận tình hướng dẫn tôitrong suốt quá trình thực hiện luận văn tốt nghiệp.Tôi xin bày tỏ lời cảm ơn chân thành tới Trường Đại học Công nghệ - ĐHQG HàNội và những thầy cô giáo đã giảng dạy, truyền thụ kiến thức cho tôi trong thờigian qua, cùng với các anh chị em tại Công ty cổ phần NERD, đã hỗ trợ cho tôitrong suốt thời gian thực hiện luận văn này.Tôi cũng cảm ơn các lãnh đạo của Tập đoàn Công nghiệp Viễn thông Quân độiViettel và các đồng nghiệp đã tạo điều kiện để tôi hoàn thành việc học cao học vàbảo vệ luận văn thạc sĩ.Cuối cùng, tôi xin cảm ơn tất cả gia đình, bạn bè đã luôn động viên giúp đỡ tôitrong thời gian nghiên cứu đề tài. Tuy đã có những cố gắng nhất định nhưng dothời gian và trình độ có hạn nên luận văn còn nhiều thiếu sót và hạn chế. Kínhmong nhận được sự góp ý của quý thầy cô và các bạn. iiLời cam đoanTôi xin cam đoan các kết quả nghiên cứu, thực nghiệm được trình bày trong luậnvăn này do tôi thực hiện dưới sự hướng dẫn của Phó giáo sư - Tiến sĩ Phạm BảoSơn và Tiến sĩ Nguyễn Bá Đạt, và được thực hiện trong quá trình hợp tác nghiêncứu giữa Đại học Công Nghệ và Công ty cổ phần NERD.Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc mộtcách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn, khôngcó việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõvề tài liệu tham khảo. Hà Nội, ngày 12/11/2019 Học viên Lưu Mạnh Hà iiiMục lụcLời cảm ơn ........................................................................................................... iLời cam đoan ...................................................................................................... iiDanh sách bảng .................................................................................................. vDanh sách hình vẽ ............................................................................................. viLời mở đầu ......................................................................................................... 1Chương 1 Giới thiệu........................................................................................ 2 1.1. Phạm vi bài toán và mục tiêu nghiên cứu .............................................. 2 1.2. Đóng góp của luận văn........................................................................... 4 1.3. Cấu trúc của luận văn ............................................................................. 5Chương 2 Hệ thống kiểu của thực thể có tên ................................................ 7 2.1. Khái niệm ............................................................................................... 7 2.1.1. Hệ tri thức ....................................................................................... 7 2.1.2. Thực thể ........................................................................................... 9 2.1.3. Thực thể có tên .............................................................................. 10 2.1.4. Kiểu của thực thể........................................................................... 10 2.2. Các hệ thống kiểu thực thể ................................................................... 11 2.2.1. Các hệ thống kiểu chi tiết cho Tiếng Anh ..................................... 11 2.2.2. Hệ thống kiểu thực thể NERD-TS ................................................. 13 2.2.3. Điểm khác biệt giữa NERD-TS với hệ thống kiểu trong bài toán NER truyền thống................................................................................................ 14Chương 3 Phân loại thực thể có tên trên Wikipedia tiếng Việt ................ 18 3.1. Học máy ............................................................................................... 18 3.1.1. Tổng quan về học máy................................................................... 18 iv 3.1.2. Phân nhóm các thuật toán học máy dựa trên phương thức học ... 20 3.2. Mô hình SVM ...................................................................................... 25 3.2.1. Tổng quan...................................................................................... 25 3.2.2. Mô hình SVM với nhân tuyến tính ................................................. 27 3.2.3. Phân loại đa lớp (Multiclass classification) ................................. 29 3.3. Bộ công cụ Sklearn .............................................................................. 31 3.3.1. Thư viện Sklearn Linear SVC (Linear Support Vector Classification) ...
Nội dung trích xuất từ tài liệu:
Luận văn Thạc sĩ Công nghệ thông tin: Phân loại thực thể có tên trên wikipedia để phục vụ cho bài toán xây dựng hệ tri thức ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LƯU MẠNH HÀ PHÂN LOẠI THỰC THỂ CÓ TÊNTRÊN WIKIPEDIA ĐỂ PHỤC VỤ CHO BÀI TOÁN XÂY DỰNG HỆ TRI THỨC LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LƯU MẠNH HÀ PHÂN LOẠI THỰC THỂ CÓ TÊNTRÊN WIKIPEDIA ĐỂ PHỤC VỤ CHO BÀI TOÁN XÂY DỰNG HỆ TRI THỨC LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Cán bộ hướng dẫn: PGS. TS. Phạm Bảo Sơn HÀ NỘI - 2019 iLời cảm ơnTrước tiên, tôi xin gửi lời cảm ơn sâu sắc nhất đến thầy giáo: Phó giáo sư - Tiếnsĩ Phạm Bảo Sơn và thầy giáo: Tiến sĩ Nguyễn Bá Đạt, đã tận tình hướng dẫn tôitrong suốt quá trình thực hiện luận văn tốt nghiệp.Tôi xin bày tỏ lời cảm ơn chân thành tới Trường Đại học Công nghệ - ĐHQG HàNội và những thầy cô giáo đã giảng dạy, truyền thụ kiến thức cho tôi trong thờigian qua, cùng với các anh chị em tại Công ty cổ phần NERD, đã hỗ trợ cho tôitrong suốt thời gian thực hiện luận văn này.Tôi cũng cảm ơn các lãnh đạo của Tập đoàn Công nghiệp Viễn thông Quân độiViettel và các đồng nghiệp đã tạo điều kiện để tôi hoàn thành việc học cao học vàbảo vệ luận văn thạc sĩ.Cuối cùng, tôi xin cảm ơn tất cả gia đình, bạn bè đã luôn động viên giúp đỡ tôitrong thời gian nghiên cứu đề tài. Tuy đã có những cố gắng nhất định nhưng dothời gian và trình độ có hạn nên luận văn còn nhiều thiếu sót và hạn chế. Kínhmong nhận được sự góp ý của quý thầy cô và các bạn. iiLời cam đoanTôi xin cam đoan các kết quả nghiên cứu, thực nghiệm được trình bày trong luậnvăn này do tôi thực hiện dưới sự hướng dẫn của Phó giáo sư - Tiến sĩ Phạm BảoSơn và Tiến sĩ Nguyễn Bá Đạt, và được thực hiện trong quá trình hợp tác nghiêncứu giữa Đại học Công Nghệ và Công ty cổ phần NERD.Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc mộtcách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn, khôngcó việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõvề tài liệu tham khảo. Hà Nội, ngày 12/11/2019 Học viên Lưu Mạnh Hà iiiMục lụcLời cảm ơn ........................................................................................................... iLời cam đoan ...................................................................................................... iiDanh sách bảng .................................................................................................. vDanh sách hình vẽ ............................................................................................. viLời mở đầu ......................................................................................................... 1Chương 1 Giới thiệu........................................................................................ 2 1.1. Phạm vi bài toán và mục tiêu nghiên cứu .............................................. 2 1.2. Đóng góp của luận văn........................................................................... 4 1.3. Cấu trúc của luận văn ............................................................................. 5Chương 2 Hệ thống kiểu của thực thể có tên ................................................ 7 2.1. Khái niệm ............................................................................................... 7 2.1.1. Hệ tri thức ....................................................................................... 7 2.1.2. Thực thể ........................................................................................... 9 2.1.3. Thực thể có tên .............................................................................. 10 2.1.4. Kiểu của thực thể........................................................................... 10 2.2. Các hệ thống kiểu thực thể ................................................................... 11 2.2.1. Các hệ thống kiểu chi tiết cho Tiếng Anh ..................................... 11 2.2.2. Hệ thống kiểu thực thể NERD-TS ................................................. 13 2.2.3. Điểm khác biệt giữa NERD-TS với hệ thống kiểu trong bài toán NER truyền thống................................................................................................ 14Chương 3 Phân loại thực thể có tên trên Wikipedia tiếng Việt ................ 18 3.1. Học máy ............................................................................................... 18 3.1.1. Tổng quan về học máy................................................................... 18 iv 3.1.2. Phân nhóm các thuật toán học máy dựa trên phương thức học ... 20 3.2. Mô hình SVM ...................................................................................... 25 3.2.1. Tổng quan...................................................................................... 25 3.2.2. Mô hình SVM với nhân tuyến tính ................................................. 27 3.2.3. Phân loại đa lớp (Multiclass classification) ................................. 29 3.3. Bộ công cụ Sklearn .............................................................................. 31 3.3.1. Thư viện Sklearn Linear SVC (Linear Support Vector Classification) ...
Tìm kiếm theo từ khóa liên quan:
Phân loại thực thể Luận văn Thạc sĩ Công nghệ thông tin Bài toán xây dựng hệ tri thức Máy véc- tơ hỗ trợ Wikipedia tiếng ViệtTài liệu liên quan:
-
Master's thesis: Measuring and improving the quality of file carving methods
110 trang 83 0 0 -
Luận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tán
75 trang 62 0 0 -
69 trang 37 0 0
-
24 trang 34 0 0
-
Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng ontology từ kho ngữ liệu dạng văn bản
84 trang 27 0 0 -
LUẬN VĂN: NHẬN DẠNG THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT
73 trang 26 0 0 -
Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng hệ thống quản lý Nhân sự và Tiền Lương trong ERP
87 trang 25 0 0 -
Tóm tắt luận văn Thạc sĩ: Nghiên cứu công nghệ Web 3.0 (SEMANTIC WEB) và khả năng triển khai áp dụng
26 trang 24 0 0 -
Luận văn Thạc sĩ Công nghệ thông tin: Phát triển hệ thống quảng cáo thông minh trên mạng xã hội
76 trang 24 0 0 -
Luận văn Thạc sĩ Công nghệ thông tin: Bảo vệ thông tin trong môi trường ảo hóa
58 trang 23 0 0