Danh mục

Xây dựng ontology thuộc lĩnh vực khoa học máy tính dựa vào cơ sở tri thức wikipedia và dbpedia

Số trang: 7      Loại file: pdf      Dung lượng: 892.90 KB      Lượt xem: 38      Lượt tải: 0    
tailieu_vip

Xem trước 1 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong bài báo này, chúng tôi tập trung vào quy trình xây dựng ontology chứa thông tin thuộc một lĩnh vực cụ thể (là khoa học máy tính - KHMT) theo ngôn ngữ tiếng Anh dựa vào thư viện bách khoa toàn thư Wikipedia1 và cơ sở tri thức DBpedia2 . Bài toán xây dựng ontology là một trong những bước quan trọng để tạo nguồn cơ sở tri thức cho các nghiên cứu trong rút trích thông tin, chú thích ngữ nghĩa và đặc biệt là xử lý ngôn ngữ tự nhiên. Hiện nay có nhiều phương pháp xây dựng ontology.
Nội dung trích xuất từ tài liệu:
Xây dựng ontology thuộc lĩnh vực khoa học máy tính dựa vào cơ sở tri thức wikipedia và dbpedia Kỷ yếu kỷ niệm 35 năm thành lập Trường ĐH<br /> <br /> ng nghiệp Th c ph m T<br /> <br /> h<br /> <br /> inh<br /> <br /> -2017)<br /> <br /> XÂY DỰNG ONTOLOGY THUỘC LĨNH VỰC KHOA HỌC MÁY TÍNH<br /> DỰA VÀO CƠ SỞ TRI THỨC WIKIPEDIA VÀ DBPEDIA<br /> Ngu n Th B ch Ngân<br /> Trường Đại học<br /> <br /> ng nghiệp Th c ph m Thành phố<br /> <br /> h<br /> <br /> inh<br /> <br /> Email: nganntb@cntp.edu.vn<br /> Ngày nhận bài: 20/08/2017; Ngày chấp nhận đăng: 30/08/2017<br /> TÓM TẮT<br /> Trong bài báo này, chúng tôi tập trung vào quy trình xây dựng ontology chứa thông tin thuộc một<br /> lĩnh vực cụ thể (là khoa học máy tính - KHMT) theo ngôn ngữ tiếng Anh dựa vào thư viện bách khoa<br /> toàn thư Wikipedia1 và cơ sở tri thức DBpedia2. Bài toán xây dựng ontology là một trong những bước<br /> quan trọng để tạo nguồn cơ sở tri thức cho các nghiên cứu trong rút trích thông tin, chú thích ngữ nghĩa<br /> và đặc biệt là xử lý ngôn ngữ tự nhiên. Hiện nay có nhiều phương pháp xây dựng ontology. Tuy nhiên<br /> phần lớn gặp khó khăn trong việc xử lý dữ liệu quá lớn từ Wikipedia dẫn đến thời gian thực thi kết quả rất<br /> lâu, ngược lại nếu dữ liệu không trích xuất từ Wikipedia thì mức độ bao phủ thông tin không đảm bảo.<br /> Trong phương pháp của chúng tôi, chúng tôi đề xuất cách thức lọc dữ liệu theo các đặc trưng thông tin<br /> ban đầu của lĩnh vực KHMT để giảm bớt thời gian xử lý các thông tin không liên quan, nhưng vẫn đảm<br /> bảo độ đầy đủ thông tin vì các đặc trưng ban đầu cũng được chọn từ danh sách phân loại của Wikipedia.<br /> Sau đó tiến hành xây dựng cây ontology chứa nội dung tối ưu nhất có thể, đồng thời chúng ta có thể tiếp<br /> tục làm giàu thông tin cho ontology khi có thêm dữ liệu mới cập nhật. Ngoài ra phương pháp chúng tôi đề<br /> xuất có thể vận dụng để xây dựng ontology cho bất kỳ lĩnh vực nào mà có dữ liệu trong Wikipedia.<br /> Từ khóa: ontology, bách khoa toàn thư Wikipedia, cơ sở tri thức DBpedia, Khoa học máy tính, tạo<br /> ontology.<br /> 1. GIỚI THIỆU<br /> Những năm gần đây, các hướng nghiên cứu về xử lý ngôn ngữ tự nhiên hay web ngữ nghĩa đã và<br /> đang là một trong những mảng nghiên cứu có sự phát triển mạnh mẽ. Trong đó, bài toán xây dựng quy<br /> trình tạo cơ sở tri thức ontology có đầy đủ thông tin để tra cứu, truy xuất thông tin thực thể và quan hệ các<br /> thực thể là một bài toán quan trọng. Hiện nay đã có những nghiên cứu đề xuất một số cách thức xây dựng<br /> ontology tùy theo những mục tiêu, yêu cầu khác nhau.<br /> Trong nghiên cứu của Nora I. Al- Rajebah [1], hay Zareen S. Syed và các công sự [2], các nhóm tác<br /> giả tạo ontology có dữ liệu truy xuất từ Wikipedia, quá trình này thực hiện tốn nhiều công sức vì phải xử<br /> lý dữ liệu cực lớn từ Wikipedia. Một nghiên cứu khác của nhóm tác giả Daniil Mirylenka và các cộng sự<br /> [3], họ đề xuất phương pháp xây dựng ontology thuộc một lĩnh vực (domain) bằng cách đưa ra danh sách<br /> các khái niệm quan tâm ban đầu trong lĩnh vực đó, truy xuất các thuộc tính và quan hệ giữa các khái niệm<br /> quan tâm trong Wikipedia để thu được bộ dữ liệu cần thiết tiến hành xây dựng ontology. Phương pháp<br /> này đã giảm tải được dữ liệu thừa khi truy xuất dữ liệu trong Wikipedia. Tuy nhiên vì truy xuất trực tiếp<br /> bộ dữ liệu cực lớn của Wikipedia nên tốn thời gian thực hiện, đồng thời tính đầy đủ của bộ dữ liệu thu<br /> được sẽ phụ thuộc hoàn toàn vào danh sách các khái niệm quan tâm ban đầu. Ngoài ra cũng có cách thực<br /> hiện khá thủ công, người dùng tự tạo ontology bằng cách dùng các phần mềm có sẵn, phổ biến là<br /> 1<br /> 2<br /> <br /> https://www.wikipedia.org/<br /> http://wiki.dbpedia.org/<br /> <br /> 210<br /> <br /> Xây d ng ontology thuộc lĩnh v c khoa học máy t nh d a vào cơ sở tri thức wikipedia và dbpedia<br /> Protégé [4].<br /> Trong bài báo này, chúng tôi đề xuất quá trình xây dựng ontology thuộc lĩnh vực KHMT có dữ liệu<br /> dựa vào Wikipedia thông qua DBpedia. Wikipedia là một nguồn cơ sở tri thức bách khoa toàn thư chứa<br /> hầu hết các khái niệm thực thể trong tất cả các lĩnh vực của nhân loại, bao gồm 299 ngôn ngữ3 với hơn<br /> 171.010.892 bài báo4 (dữ liệu được cập nhật vào ngày 05/08/2017). DBpedia là một cơ sở dữ liệu công<br /> cộng, đa ngôn ngữ và là một đồ thị tri thức về ngữ nghĩa. Đây là một hệ thống do nổ lực của cộng đồng<br /> đóng góp tạo nên để lấy thông tin có cấu trúc từ Wikipedia, tạo thành các bộ tập hợp dữ liệu (data set)<br /> hoặc các bộ tập tin chứa dữ liệu dạng bộ ba (tripple). Ngoài ra, DBpedia cho phép người dùng truy vấn<br /> ngược lại thông tin trên Wikipedia, đồng thời liên kết các bộ dữ liệu khác nhau trên dữ liệu Web với<br /> Wikipedia [5].<br /> Hiển nhiên, Wikipedia là nguồn tri thức tin cậy cho các bài toán nghiên cứu khoa học [8], tuy nhiên<br /> việc xử lý dữ liệu cực lớn từ nó cũng phát sinh nhiều thử thách, dựa theo phân tích trong nghiên cứu của<br /> nhóm tác giả Lu Xiao và Nicole Askin [6]. Vì vậy, trong đề xuất của chúng tôi, chúng tôi không lấy dữ<br /> liệu trực tiếp từ Wikipedia mà thông qua DBpedia, dữ liệu từ Wikipedia đã tổ chức lại thành các tập tin<br /> (file) dạng bộ ba (tripble)5 thể hiện thuộc tính, quan hệ giữa các thực thể. Tiếp theo chúng tôi rút trích<br /> danh sách các khái niệm quan tâm đã được phân loại trong Wikipedia, làm điều kiện lọc cho các dữ liệu<br /> từ DBpedia. Sau đó tiến hành xây dựng ontology ...

Tài liệu được xem nhiều:

Tài liệu cùng danh mục:

Tài liệu mới: