Xây dựng đồ thị tri thức thương mại điện tử tiếng Việt dựa trên trích xuất thông tin ngữ nghĩa với BERT
Số trang: 6
Loại file: pdf
Dung lượng: 3.76 MB
Lượt xem: 21
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết "Xây dựng đồ thị tri thức thương mại điện tử tiếng Việt dựa trên trích xuất thông tin ngữ nghĩa với BERT" trình bày một quy trình đầu cuối xây dựng đồ thị tri thức trong lĩnh vực thương mại điện tử tiếng Việt. Cụ thể, bài báo xây dựng bộ dữ liệu tiếng Việt trong lĩnh vực thương mại điện tử cho các tác vụ NER và RE. Tiếp đó ứng dụng biến thể của mô hình BERT trong việc xác định thông tin các nút và cạnh của đồ thị. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Xây dựng đồ thị tri thức thương mại điện tử tiếng Việt dựa trên trích xuất thông tin ngữ nghĩa với BERT Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Xây dựng Đồ thị tri thức Thương mại điện tử Tiếng Việt dựa trên Trích xuất thông tin ngữ nghĩa với BERT Đinh Bảo Minh1, Đặng Anh Việt1 và Nguyễn Thế Lộc2 1 Khoa Điện tử - Viễn thông, Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội 2 Khoa Công nghệ thông tin, Trường Đại học Mỏ - Địa chất Email: minhdinh@vnu.edu.vn, vietda@vnu.edu.vn, nguyentheloc@humg.edu.vnAbstract— Đồ thị tri thức (KG) lưu trữ thông tin dưới nhằm xây dựng đồ thị tri thức giúp xử lý hiệu quả lượngdạng các nút và cạnh mô tả quan hệ ngữ nghĩa giữa cácnút. Cách lưu trữ này giúp đồ thị tri thức dễ dàng quản lý T12lượng dữ liệu khổng lồ và đa dạng trong lĩnh vực thương T11 (H21)mại điện tử. Đồ thị tri thức được xây dựng trên cơ sở tríchxuất thông tin ngữ nghĩa. Tác vụ nhận diện thực thể(NER) giúp trích xuất thông tin cần lưu trữ tại các nút củađồ thị. Trong khi đó, tác vụ trích xuất tương quan thực H11thể (RE) giúp trích xuất thông tin lưu trữ tại các cạnh củađồ thị. Bài báo trình bày một quy trình đầu cuối xây dựngđồ thị tri thức trong lĩnh vực thương mại điện tử tiếngViệt. Cụ thể, bài báo xây dựng bộ dữ liệu tiếng Việt trong T21lĩnh vực thương mại điện tử cho các tác vụ NER và RE.Tiếp đó ứng dụng biến thể của mô hình BERT trong việcxác định thông tin các nút và cạnh của đồ thị. Thông tin Hình. 1. Ví dụ về đồ thị tri thứctrích xuất được sau đó được biểu diễn trực quan hóa với dữ liệu khổng lồ và đa dạng về hàng hóa, nhà cung cấp,Neo4j. Kết quả thực nghiệm đạt 0.70 với điểm F1-Score sự kiện cùng với mối liên hệ giữa các trường thông tincho tác vụ nhận diện thực thể và 0.80 với điểm F1-Score đó. Tuy nhiên, các nghiên cứu nêu trên đều tập trung chocho tác vụ trích xuất tương quan thực thể. các doanh nghiệp nước ngoài với ngôn ngữ chủ yếu là Keywords- Đồ thị tri thức, Trích xuất thông tin ngữ tiếng Anh và tiếng Trung. Theo hiểu biết của tác giả, cácnghĩa, NER, RE, Neo4j, BERT. nghiên cứu cho thương mại điện tử tiếng Việt hiện còn chưa có hoặc hạn chế. I. GIỚI THIỆU Đồ thị tri thức được xây dựng trên cơ sở ứng dụng Trong những năm gần đây, đồ thị tri thức trích xuất thông tin ngữ nghĩa cho việc xác định thông(Knowledge Graph – KG) đã nổi lên và thu hút rất nhiều tin lưu trữ trên các nút và cạnh của đồ thị. Hai tác vụsự quan tâm với các nhà nghiên cứu về Trí tuệ nhân tạo chính của quy trình này gồm nhận diện thực thể (NER)(AI) [1]. Dữ liệu của đồ thị tri thức là sự biểu diễn của [9] và trích xuất tương quan thực thể (RE) [10]. Trongcác bộ ba (h, r, t) gồm thực thể đầu (h), thực thể đuôi (t) đó, thông tin về thực thể được lưu trữ tại các nút đượcvà mỗi liên hệ giữa hai thực thể (r). Các bộ ba (h, r, t) trích xuất bởi NER và thông tin lưu trữ tại các cạnh sẽđược biểu thị trực quan dưới dạng các nút đầu (h) cuối được trích xuất bởi RE.(t) và mũi tên có hướng (r) (Hình 1). Với cách biểu diễn Sự xuất hiện của các mô hình học máy biến đổinhư mô tả ở Hình 1, đồ thị tri thức cho phép con người (Transformers Model) [11] trong những năm gần đâyvà máy tính dễ dàng xử lý thông tin ngữ nghĩa đồng thời mang lại các kết quả với độ chính xác cao trong nhiềumô tả được bối cảnh tương quan của từng thực thể trong lĩnh vực nghiên cứu của xử lý ngôn ngữ tự nhiên nóiđồ thị [2]. chung và trích xuất thông tin ngữ nghĩa nói riêng. Đặc Với tính ưu việt trong việc quản lý và truy xuất dữ biệt, mô hình học trước BERT [12] đã mang lại kết quảliệu, đồ thị tri thức được nghiên cứu và ứng dụng trong đạt hiệu suất tiên tiến trong nhiều tác vụ của xử lý ngônrất nhiều lĩnh vực khác nhau như y sinh, phim ảnh, văn ngữ tự nhiên. BERT cùng với các biến thể của mình chohọc, xây dựng [2-5]. Đặc biệt trong lĩnh vực thương mại phép người dù ...
Nội dung trích xuất từ tài liệu:
Xây dựng đồ thị tri thức thương mại điện tử tiếng Việt dựa trên trích xuất thông tin ngữ nghĩa với BERT Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Xây dựng Đồ thị tri thức Thương mại điện tử Tiếng Việt dựa trên Trích xuất thông tin ngữ nghĩa với BERT Đinh Bảo Minh1, Đặng Anh Việt1 và Nguyễn Thế Lộc2 1 Khoa Điện tử - Viễn thông, Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội 2 Khoa Công nghệ thông tin, Trường Đại học Mỏ - Địa chất Email: minhdinh@vnu.edu.vn, vietda@vnu.edu.vn, nguyentheloc@humg.edu.vnAbstract— Đồ thị tri thức (KG) lưu trữ thông tin dưới nhằm xây dựng đồ thị tri thức giúp xử lý hiệu quả lượngdạng các nút và cạnh mô tả quan hệ ngữ nghĩa giữa cácnút. Cách lưu trữ này giúp đồ thị tri thức dễ dàng quản lý T12lượng dữ liệu khổng lồ và đa dạng trong lĩnh vực thương T11 (H21)mại điện tử. Đồ thị tri thức được xây dựng trên cơ sở tríchxuất thông tin ngữ nghĩa. Tác vụ nhận diện thực thể(NER) giúp trích xuất thông tin cần lưu trữ tại các nút củađồ thị. Trong khi đó, tác vụ trích xuất tương quan thực H11thể (RE) giúp trích xuất thông tin lưu trữ tại các cạnh củađồ thị. Bài báo trình bày một quy trình đầu cuối xây dựngđồ thị tri thức trong lĩnh vực thương mại điện tử tiếngViệt. Cụ thể, bài báo xây dựng bộ dữ liệu tiếng Việt trong T21lĩnh vực thương mại điện tử cho các tác vụ NER và RE.Tiếp đó ứng dụng biến thể của mô hình BERT trong việcxác định thông tin các nút và cạnh của đồ thị. Thông tin Hình. 1. Ví dụ về đồ thị tri thứctrích xuất được sau đó được biểu diễn trực quan hóa với dữ liệu khổng lồ và đa dạng về hàng hóa, nhà cung cấp,Neo4j. Kết quả thực nghiệm đạt 0.70 với điểm F1-Score sự kiện cùng với mối liên hệ giữa các trường thông tincho tác vụ nhận diện thực thể và 0.80 với điểm F1-Score đó. Tuy nhiên, các nghiên cứu nêu trên đều tập trung chocho tác vụ trích xuất tương quan thực thể. các doanh nghiệp nước ngoài với ngôn ngữ chủ yếu là Keywords- Đồ thị tri thức, Trích xuất thông tin ngữ tiếng Anh và tiếng Trung. Theo hiểu biết của tác giả, cácnghĩa, NER, RE, Neo4j, BERT. nghiên cứu cho thương mại điện tử tiếng Việt hiện còn chưa có hoặc hạn chế. I. GIỚI THIỆU Đồ thị tri thức được xây dựng trên cơ sở ứng dụng Trong những năm gần đây, đồ thị tri thức trích xuất thông tin ngữ nghĩa cho việc xác định thông(Knowledge Graph – KG) đã nổi lên và thu hút rất nhiều tin lưu trữ trên các nút và cạnh của đồ thị. Hai tác vụsự quan tâm với các nhà nghiên cứu về Trí tuệ nhân tạo chính của quy trình này gồm nhận diện thực thể (NER)(AI) [1]. Dữ liệu của đồ thị tri thức là sự biểu diễn của [9] và trích xuất tương quan thực thể (RE) [10]. Trongcác bộ ba (h, r, t) gồm thực thể đầu (h), thực thể đuôi (t) đó, thông tin về thực thể được lưu trữ tại các nút đượcvà mỗi liên hệ giữa hai thực thể (r). Các bộ ba (h, r, t) trích xuất bởi NER và thông tin lưu trữ tại các cạnh sẽđược biểu thị trực quan dưới dạng các nút đầu (h) cuối được trích xuất bởi RE.(t) và mũi tên có hướng (r) (Hình 1). Với cách biểu diễn Sự xuất hiện của các mô hình học máy biến đổinhư mô tả ở Hình 1, đồ thị tri thức cho phép con người (Transformers Model) [11] trong những năm gần đâyvà máy tính dễ dàng xử lý thông tin ngữ nghĩa đồng thời mang lại các kết quả với độ chính xác cao trong nhiềumô tả được bối cảnh tương quan của từng thực thể trong lĩnh vực nghiên cứu của xử lý ngôn ngữ tự nhiên nóiđồ thị [2]. chung và trích xuất thông tin ngữ nghĩa nói riêng. Đặc Với tính ưu việt trong việc quản lý và truy xuất dữ biệt, mô hình học trước BERT [12] đã mang lại kết quảliệu, đồ thị tri thức được nghiên cứu và ứng dụng trong đạt hiệu suất tiên tiến trong nhiều tác vụ của xử lý ngônrất nhiều lĩnh vực khác nhau như y sinh, phim ảnh, văn ngữ tự nhiên. BERT cùng với các biến thể của mình chohọc, xây dựng [2-5]. Đặc biệt trong lĩnh vực thương mại phép người dù ...
Tìm kiếm theo từ khóa liên quan:
Kỷ yếu Hội nghị Quốc gia Kỷ yếu Hội nghị REV-ECIT2023 Đồ thị tri thức Thương mại điện tử Thông tin ngữ nghĩa Mô hình học máy biến đổiGợi ý tài liệu liên quan:
-
6 trang 825 0 0
-
Nghiên cứu sự hài lòng của sinh viên Hutech khi sử dụng ví điện tử Momo
6 trang 557 10 0 -
Bài giảng Quản trị tác nghiệp thương mại điện tử - PGS.TS Nguyễn Văn Minh
249 trang 529 9 0 -
Nghiên cứu sự hài lòng của sinh viên Hutech khi mua sắm tại cửa hàng GS25 tại Ung Văn Khiêm Campus
6 trang 500 9 0 -
6 trang 473 7 0
-
Giáo trình Thương mại điện tử: Phần 1 - TS. Ao Thu Hoài
102 trang 410 7 0 -
Giáo trình Thương mại điện tử căn bản: Phần 1 - PGS.TS. Nguyễn Văn Minh (Chủ biên)
188 trang 364 4 0 -
5 trang 359 1 0
-
7 trang 355 2 0
-
Giáo trình Thương mại điện tử căn bản: Phần 1 - TS. Trần Văn Hòe
181 trang 319 6 0