Một cải tiến từ điển cảm xúc Tiếng Việt theo chủ đề
Số trang: 6
Loại file: pdf
Dung lượng: 790.88 KB
Lượt xem: 16
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài báo đề xuất phương pháp cải tiến cách xác định trọng số cảm xúc của các từ và cụm từ tiếng Việt dựa trên mối quan hệ ngữ nghĩa và các yếu tố đặc trưng của tiếng Việt trong một miền dữ liệu cụ thể là chủ đề đánh giá xe ô tô. Bài báo có đánh giá kết quả của phương pháp đề xuất bằng thử nghiệm phân loại ý kiến đánh giá xe ô tô trên các trang báo mạng tiếng Việt với phương pháp học máy Support Vector Machine, và đối sánh kết quả với phương pháp học sâu – Deep learning – không dựa vào từ điển cảm xúc. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Một cải tiến từ điển cảm xúc Tiếng Việt theo chủ đề Một Cải Tiến Từ Điển Cảm Xúc Tiếng Việt Theo Chủ Đề Nguyễn Ngọc Duy, Lê Minh Hóa Khoa Công nghệ Thông tin II, Học Viện Công Nghệ Bưu Chính Viễn Thông Email:duynn, hoasac@ptithcm.edu.vn Abstract —Môi trường internet mang lại nguồn tài nguyên phong hạn chế, dẫn đến hạn chế khả năng nhận diện cảm xúc ở các phú là các ý kiến về các vấn đề xã hội cũng như đánh giá sản văn bản tiếng Việt. Do đó, các bài toán liên quan đến phân tích phẩm của người dùng. Vấn đề khai thác cảm xúc của các cá cảm xúc tiếng Việt cũng sẽ bị hạn chế. Vì thế, nhu cầu về một nhân, thăm dò ý kiến cộng đồng về những vấn đề nổi bật trong bộ từ điển cảm xúc tiếng Việt xây dựng dựa trên đặc trưng cuộc sống, các sản phẩm trong kinh doanh từ nguồn tài nguyên ngôn ngữ tiếng Việt là rất lớn. Bài báo này đề xuất cải tiến này rất được chú trọng. Cảm xúc thường được thể hiện rất tinh tế liên quan đến ngôn ngữ và văn hóa. Để khai thác nguồn tài phương pháp xác định trọng số cảm xúc cho các mục từ tiếng nguyên này ở khía cạnh cảm xúc thì từ điển cảm xúc là một Việt dùng trong lĩnh vực hẹp là các văn bản tiếng Việt đánh giá thành phần cơ bản quan trọng. Bài báo này đề xuất phương pháp xe ô tô đã được đề xuất ở công trình [2]. Để đánh giá sự hiệu cải tiến cách xác định trọng số cảm xúc của các từ và cụm từ quả của phương pháp đề xuất, bài sẽ thử nghiệm phân loại cảm tiếng Việt dựa trên mối quan hệ ngữ nghĩa và các yếu tố đặc xúc bằng phương pháp học máy Support Vector Machine – trưng của tiếng Việt trong một miền dữ liệu cụ thể là chủ đề đánh SVM dựa trên từ điển cảm xúc được xây dựng bằng phương giá xe ô tô. Bài báo có đánh giá kết quả của phương pháp đề xuất pháp này. Để có cơ sở so sánh, bài báo cũng thử nghiệm phân bằng thử nghiệm phân loại ý kiến đánh giá xe ô tô trên các trang loại cảm xúc bằng phương pháp học sâu (Deep Learning) báo mạng tiếng Việt với phương pháp học máy Support Vector không dựa trên từ điển cảm xúc. Machine, và đối sánh kết quả với phương pháp học sâu – Deep learning – không dựa vào từ điển cảm xúc. Để đánh giá sự hiệu quả của từ điển đề xuất, bài báo sẽ dùng phương pháp học máy Support Vector Machine – SVM Keywords- Từ điển, ý kiến, cảm xúc, từ điển cảm xúc, phân loại và phương pháp học sâu (Deep Learning). cảm xúc, phân tích cảm xúc. Mô hình học sâu đã được biết đến từ lâu khi đã mang lại cho các lĩnh vực xử lý ảnh và xử lý tín hiệu những kết quả rất I. GIỚI THIỆU tốt. Đối với lĩnh vực xử lý ngôn ngữ tự nhiên thì học sâu chỉ mới được quan tâm trong thời gian gần đây. Yoon Kim [17] Ngày nay internet đã trở nên rất phổ biến ở Việt Nam cũng tiên phong ứng dụng học sâu vào lĩnh vực xử lý ngôn ngữ tự như trên thế giới. Thông tin trên internet gia tăng rất nhanh. nhiên với mô hình mạng nơron tích chập (Convolution Neural Trong môi trường này, mọi người có thể thể hiện suy nghĩ về Network) dùng cho phân loại cảm xúc như ở hình 1. Mô hình mọi vấn đề trong cuộc sống như văn hóa, kinh tế ... mà không chia thành các tầng độc lập. Tầng Word Embedding là ma trận bị ràng buộc nào về chuẩn mực ngôn ngữ. Mỗi ý kiến như vậy trọng số của của các từ trong kho ngữ liệu. ngoài ý nghĩ thông tin còn chứa cả cảm xúc của người viết. Đây là nguồn tài nguyên rất giá trị. Vì vậy nhu cầu khai thác nguồn tài nguyên này là rất lớn. Khi phân tích cảm xúc, vấn đề quan trọng là nhận diện các thực thể cảm xúc, xác định mức độ cảm xúc mà nó thể hiện lên văn bản. Đã có nhiều bộ từ điển cảm xúc được thực hiện bằng nhiều phương pháp xác định trọng số cảm xúc đã được đề xuất. Là một ngôn ngữ phổ biến, tiếng Anh đã có những bộ từ điển cảm xúc tốt như SentiWordNet [13], SenticNet [4]. Vì vậy, tiếng Anh đã có nhiều công trình nghiên cứu về phân tích cảm xúc có chất Word Convolutional Pooling Fully connected Embedding Layer Layer layer lượng cao. Layer Với tiếng Việt, việc nghiên cứu xây dựng từ điển cảm xúc còn đang ở giai đoạn ban đầu. Các công trình đã được giới Hình 1: Mô hình Convolutional Neural Network cơ bản thiệu như [8], [11], [14], hoặc bộ từ điển được biết đến khá Ma trận này được xây dựng trên cơ sở thống kê về từ vựng rộng rãi VietSentiWordNet, được xây dựng trên cơ sở chuyển của kho ngữ liệu [18], từ đó xác định mối tương quan giữa các ngữ từ các bộ từ điển SentiWordNet tiếng Anh. Nhiều phương ...
Nội dung trích xuất từ tài liệu:
Một cải tiến từ điển cảm xúc Tiếng Việt theo chủ đề Một Cải Tiến Từ Điển Cảm Xúc Tiếng Việt Theo Chủ Đề Nguyễn Ngọc Duy, Lê Minh Hóa Khoa Công nghệ Thông tin II, Học Viện Công Nghệ Bưu Chính Viễn Thông Email:duynn, hoasac@ptithcm.edu.vn Abstract —Môi trường internet mang lại nguồn tài nguyên phong hạn chế, dẫn đến hạn chế khả năng nhận diện cảm xúc ở các phú là các ý kiến về các vấn đề xã hội cũng như đánh giá sản văn bản tiếng Việt. Do đó, các bài toán liên quan đến phân tích phẩm của người dùng. Vấn đề khai thác cảm xúc của các cá cảm xúc tiếng Việt cũng sẽ bị hạn chế. Vì thế, nhu cầu về một nhân, thăm dò ý kiến cộng đồng về những vấn đề nổi bật trong bộ từ điển cảm xúc tiếng Việt xây dựng dựa trên đặc trưng cuộc sống, các sản phẩm trong kinh doanh từ nguồn tài nguyên ngôn ngữ tiếng Việt là rất lớn. Bài báo này đề xuất cải tiến này rất được chú trọng. Cảm xúc thường được thể hiện rất tinh tế liên quan đến ngôn ngữ và văn hóa. Để khai thác nguồn tài phương pháp xác định trọng số cảm xúc cho các mục từ tiếng nguyên này ở khía cạnh cảm xúc thì từ điển cảm xúc là một Việt dùng trong lĩnh vực hẹp là các văn bản tiếng Việt đánh giá thành phần cơ bản quan trọng. Bài báo này đề xuất phương pháp xe ô tô đã được đề xuất ở công trình [2]. Để đánh giá sự hiệu cải tiến cách xác định trọng số cảm xúc của các từ và cụm từ quả của phương pháp đề xuất, bài sẽ thử nghiệm phân loại cảm tiếng Việt dựa trên mối quan hệ ngữ nghĩa và các yếu tố đặc xúc bằng phương pháp học máy Support Vector Machine – trưng của tiếng Việt trong một miền dữ liệu cụ thể là chủ đề đánh SVM dựa trên từ điển cảm xúc được xây dựng bằng phương giá xe ô tô. Bài báo có đánh giá kết quả của phương pháp đề xuất pháp này. Để có cơ sở so sánh, bài báo cũng thử nghiệm phân bằng thử nghiệm phân loại ý kiến đánh giá xe ô tô trên các trang loại cảm xúc bằng phương pháp học sâu (Deep Learning) báo mạng tiếng Việt với phương pháp học máy Support Vector không dựa trên từ điển cảm xúc. Machine, và đối sánh kết quả với phương pháp học sâu – Deep learning – không dựa vào từ điển cảm xúc. Để đánh giá sự hiệu quả của từ điển đề xuất, bài báo sẽ dùng phương pháp học máy Support Vector Machine – SVM Keywords- Từ điển, ý kiến, cảm xúc, từ điển cảm xúc, phân loại và phương pháp học sâu (Deep Learning). cảm xúc, phân tích cảm xúc. Mô hình học sâu đã được biết đến từ lâu khi đã mang lại cho các lĩnh vực xử lý ảnh và xử lý tín hiệu những kết quả rất I. GIỚI THIỆU tốt. Đối với lĩnh vực xử lý ngôn ngữ tự nhiên thì học sâu chỉ mới được quan tâm trong thời gian gần đây. Yoon Kim [17] Ngày nay internet đã trở nên rất phổ biến ở Việt Nam cũng tiên phong ứng dụng học sâu vào lĩnh vực xử lý ngôn ngữ tự như trên thế giới. Thông tin trên internet gia tăng rất nhanh. nhiên với mô hình mạng nơron tích chập (Convolution Neural Trong môi trường này, mọi người có thể thể hiện suy nghĩ về Network) dùng cho phân loại cảm xúc như ở hình 1. Mô hình mọi vấn đề trong cuộc sống như văn hóa, kinh tế ... mà không chia thành các tầng độc lập. Tầng Word Embedding là ma trận bị ràng buộc nào về chuẩn mực ngôn ngữ. Mỗi ý kiến như vậy trọng số của của các từ trong kho ngữ liệu. ngoài ý nghĩ thông tin còn chứa cả cảm xúc của người viết. Đây là nguồn tài nguyên rất giá trị. Vì vậy nhu cầu khai thác nguồn tài nguyên này là rất lớn. Khi phân tích cảm xúc, vấn đề quan trọng là nhận diện các thực thể cảm xúc, xác định mức độ cảm xúc mà nó thể hiện lên văn bản. Đã có nhiều bộ từ điển cảm xúc được thực hiện bằng nhiều phương pháp xác định trọng số cảm xúc đã được đề xuất. Là một ngôn ngữ phổ biến, tiếng Anh đã có những bộ từ điển cảm xúc tốt như SentiWordNet [13], SenticNet [4]. Vì vậy, tiếng Anh đã có nhiều công trình nghiên cứu về phân tích cảm xúc có chất Word Convolutional Pooling Fully connected Embedding Layer Layer layer lượng cao. Layer Với tiếng Việt, việc nghiên cứu xây dựng từ điển cảm xúc còn đang ở giai đoạn ban đầu. Các công trình đã được giới Hình 1: Mô hình Convolutional Neural Network cơ bản thiệu như [8], [11], [14], hoặc bộ từ điển được biết đến khá Ma trận này được xây dựng trên cơ sở thống kê về từ vựng rộng rãi VietSentiWordNet, được xây dựng trên cơ sở chuyển của kho ngữ liệu [18], từ đó xác định mối tương quan giữa các ngữ từ các bộ từ điển SentiWordNet tiếng Anh. Nhiều phương ...
Tìm kiếm theo từ khóa liên quan:
Kỷ yếu hội nghị Quốc gia về Điện tử truyền thông Từ điển cảm xúc Phân loại cảm xúc Phân tích cảm xúc Phương pháp học máy Support Vector Machine Mô hình học sâuGợi ý tài liệu liên quan:
-
69 trang 168 0 0
-
7 trang 159 0 0
-
Kỹ thuật điều chế QPSK cho hệ thống thông tin quang vô tuyến DWDM
6 trang 147 0 0 -
6 trang 129 0 0
-
Khảo sát thuật toán OSD sử dụng bộ mã RS và kỹ thuật điều chế QAM
5 trang 105 0 0 -
Phương pháp chênh lệch trong hiện thực hóa các hàm phức tạp trên ASIC cho các hệ thống DSP
6 trang 77 0 0 -
Mô hình nghiên cứu thực nghiệm về truyền dữ liệu thời gian thực sử dụng ánh sáng đèn LED
6 trang 35 0 0 -
Đồ án tốt nghiệp: Phát hiện từ quan điểm mới cho phân tích cảm xúc
55 trang 35 0 0 -
Một phương thức phát hiện bất thường trong lưu lượng mạng
4 trang 32 0 0 -
Nén tín hiệu ECG và bảo mật thông tin bệnh nhân
4 trang 30 0 0