Danh mục

Xây dựng đồ thị tri thức thương mại điện tử tiếng Việt dựa trên trích xuất thông tin ngữ nghĩa với BERT

Số trang: 6      Loại file: pdf      Dung lượng: 3.76 MB      Lượt xem: 21      Lượt tải: 0    
tailieu_vip

Phí tải xuống: 1,000 VND Tải xuống file đầy đủ (6 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết "Xây dựng đồ thị tri thức thương mại điện tử tiếng Việt dựa trên trích xuất thông tin ngữ nghĩa với BERT" trình bày một quy trình đầu cuối xây dựng đồ thị tri thức trong lĩnh vực thương mại điện tử tiếng Việt. Cụ thể, bài báo xây dựng bộ dữ liệu tiếng Việt trong lĩnh vực thương mại điện tử cho các tác vụ NER và RE. Tiếp đó ứng dụng biến thể của mô hình BERT trong việc xác định thông tin các nút và cạnh của đồ thị. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Xây dựng đồ thị tri thức thương mại điện tử tiếng Việt dựa trên trích xuất thông tin ngữ nghĩa với BERT Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Xây dựng Đồ thị tri thức Thương mại điện tử Tiếng Việt dựa trên Trích xuất thông tin ngữ nghĩa với BERT Đinh Bảo Minh1, Đặng Anh Việt1 và Nguyễn Thế Lộc2 1 Khoa Điện tử - Viễn thông, Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội 2 Khoa Công nghệ thông tin, Trường Đại học Mỏ - Địa chất Email: minhdinh@vnu.edu.vn, vietda@vnu.edu.vn, nguyentheloc@humg.edu.vnAbstract— Đồ thị tri thức (KG) lưu trữ thông tin dưới nhằm xây dựng đồ thị tri thức giúp xử lý hiệu quả lượngdạng các nút và cạnh mô tả quan hệ ngữ nghĩa giữa cácnút. Cách lưu trữ này giúp đồ thị tri thức dễ dàng quản lý T12lượng dữ liệu khổng lồ và đa dạng trong lĩnh vực thương T11 (H21)mại điện tử. Đồ thị tri thức được xây dựng trên cơ sở tríchxuất thông tin ngữ nghĩa. Tác vụ nhận diện thực thể(NER) giúp trích xuất thông tin cần lưu trữ tại các nút củađồ thị. Trong khi đó, tác vụ trích xuất tương quan thực H11thể (RE) giúp trích xuất thông tin lưu trữ tại các cạnh củađồ thị. Bài báo trình bày một quy trình đầu cuối xây dựngđồ thị tri thức trong lĩnh vực thương mại điện tử tiếngViệt. Cụ thể, bài báo xây dựng bộ dữ liệu tiếng Việt trong T21lĩnh vực thương mại điện tử cho các tác vụ NER và RE.Tiếp đó ứng dụng biến thể của mô hình BERT trong việcxác định thông tin các nút và cạnh của đồ thị. Thông tin Hình. 1. Ví dụ về đồ thị tri thứctrích xuất được sau đó được biểu diễn trực quan hóa với dữ liệu khổng lồ và đa dạng về hàng hóa, nhà cung cấp,Neo4j. Kết quả thực nghiệm đạt 0.70 với điểm F1-Score sự kiện cùng với mối liên hệ giữa các trường thông tincho tác vụ nhận diện thực thể và 0.80 với điểm F1-Score đó. Tuy nhiên, các nghiên cứu nêu trên đều tập trung chocho tác vụ trích xuất tương quan thực thể. các doanh nghiệp nước ngoài với ngôn ngữ chủ yếu là Keywords- Đồ thị tri thức, Trích xuất thông tin ngữ tiếng Anh và tiếng Trung. Theo hiểu biết của tác giả, cácnghĩa, NER, RE, Neo4j, BERT. nghiên cứu cho thương mại điện tử tiếng Việt hiện còn chưa có hoặc hạn chế. I. GIỚI THIỆU Đồ thị tri thức được xây dựng trên cơ sở ứng dụng Trong những năm gần đây, đồ thị tri thức trích xuất thông tin ngữ nghĩa cho việc xác định thông(Knowledge Graph – KG) đã nổi lên và thu hút rất nhiều tin lưu trữ trên các nút và cạnh của đồ thị. Hai tác vụsự quan tâm với các nhà nghiên cứu về Trí tuệ nhân tạo chính của quy trình này gồm nhận diện thực thể (NER)(AI) [1]. Dữ liệu của đồ thị tri thức là sự biểu diễn của [9] và trích xuất tương quan thực thể (RE) [10]. Trongcác bộ ba (h, r, t) gồm thực thể đầu (h), thực thể đuôi (t) đó, thông tin về thực thể được lưu trữ tại các nút đượcvà mỗi liên hệ giữa hai thực thể (r). Các bộ ba (h, r, t) trích xuất bởi NER và thông tin lưu trữ tại các cạnh sẽđược biểu thị trực quan dưới dạng các nút đầu (h) cuối được trích xuất bởi RE.(t) và mũi tên có hướng (r) (Hình 1). Với cách biểu diễn Sự xuất hiện của các mô hình học máy biến đổinhư mô tả ở Hình 1, đồ thị tri thức cho phép con người (Transformers Model) [11] trong những năm gần đâyvà máy tính dễ dàng xử lý thông tin ngữ nghĩa đồng thời mang lại các kết quả với độ chính xác cao trong nhiềumô tả được bối cảnh tương quan của từng thực thể trong lĩnh vực nghiên cứu của xử lý ngôn ngữ tự nhiên nóiđồ thị [2]. chung và trích xuất thông tin ngữ nghĩa nói riêng. Đặc Với tính ưu việt trong việc quản lý và truy xuất dữ biệt, mô hình học trước BERT [12] đã mang lại kết quảliệu, đồ thị tri thức được nghiên cứu và ứng dụng trong đạt hiệu suất tiên tiến trong nhiều tác vụ của xử lý ngônrất nhiều lĩnh vực khác nhau như y sinh, phim ảnh, văn ngữ tự nhiên. BERT cùng với các biến thể của mình chohọc, xây dựng [2-5]. Đặc biệt trong lĩnh vực thương mại phép người dù ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: