Danh mục

Sử dụng mô hình LDA-NWF cho việc tự động dò tìm báo cáo lỗi trùng nhau

Số trang: 9      Loại file: pdf      Dung lượng: 1.04 MB      Lượt xem: 7      Lượt tải: 0    
Thư Viện Số

Hỗ trợ phí lưu trữ khi tải xuống: 5,000 VND Tải xuống file đầy đủ (9 trang) 0

Báo xấu

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết giới thiệu một phương pháp tự động dò tìm những báo cáo lỗi trùng nhau bằng cách sử dụng mô hình LDA-NWF (Latent Dirichlet Allocation-new weight feature). Mô hình này là sự kết hợp giữa mô hình LDA với đặc điểm trọng số mới.
Nội dung trích xuất từ tài liệu:
Sử dụng mô hình LDA-NWF cho việc tự động dò tìm báo cáo lỗi trùng nhauKỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020DOI: 10.15625/vap.2020.00210 SỬ DỤNG MÔ HÌNH LDA-NWF CHO VIỆC TỰ ĐỘNG DÒ TÌM BÁO CÁO LỖI TRÙNG NHAU Nhan Minh Phúc 1, Nguyễn Thừa Phát Tài1, Nguyễn Hoàng Duy Thiện1, Nguyễn Bá Nhiệm1 1 Khoa Kỹ thuật và Công nghệ, Trường Đại học Trà Vinh nhanminhphuc@tvu.edu.vn, phattai@tvu.edu.vn, nhdthien@tvu.edu.vn TÓM TẮT: Những báo cáo lỗi được gửi bởi người dùng thường được lưu trữ và quản lý bởi các hệ thống quản lý lỗi trongnhững dự án phần mềm mã nguồn mở như Open Office, Mozilla Firefox, Eclipse... Những lập trình viên sẽ dựa vào những báo cáolỗi này để xử lý lỗi. Tuy nhiên do có quá nhiều báo cáo lỗi gửi đến hệ thống, khi đó sẽ có những báo cáo lỗi trùng nhau, hay nóicách khác báo cáo lỗi trùng nhau là báo cáo lỗi đã được người dùng gửi trước đó rồi. Do đó việc phải xác định báo cáo lỗi vừađược gửi đến có bị trùng hay không sẽ làm mất nhiều thời gian và công sức của người được phân công xử lý lỗi. Vì vậy việc tự độngdò tìm báo cáo lỗi trùng nhau gần đây nhận được nhiều sự quan tâm của các nhà nghiên cứu. Ngoài ra việc báo cáo lỗi thường làtập tin văn bản, do đó sẽ có những trường hợp những báo cáo lỗi bị trùng nhau nhưng được diễn tả bằng những từ ngữ khác nhau ởnhững người dùng khác nhau, điều này sẽ là một thách thức cho các nhà nghiên cứu. Trong bài báo này, chúng tôi giới thiệu mộtphương pháp tự động dò tìm những báo cáo lỗi trùng nhau bằng cách sử dụng mô hình LDA-NWF (Latent Dirichlet Allocation-newweight feature). Mô hình này là sự kết hợp giữa mô hình LDA với đặc điểm trọng số mới. Kết quả thực nghiệm trên ba hệ thống dữliệu thật Open Offie, Eclipse và Mozilla cho thấy phương pháp được giới thiệu đạt tỉ lệ chính xác cao hơn các phương pháp trướcđó từ khoảng 4-9 % khi so sánh trên cả ba hệ thống. Từ khóa: Báo cáo lỗi, mô hình LDA, mô hình trọng số, lỗi trùng nhau, kho báo cáo lỗi. I. GIỚI THIỆU Những dự án mã nguồn mở lớn như Bugzilla thường dùng hệ thống quản lý lỗi để lưu trữ và và quản lý nhữngbáo cáo lỗi của người dùng. Những báo cáo lỗi này được gửi bởi những người dùng trong quá trình họ sử dụng phầnmềm giúp việc bảo trì và cải thiện tính năng của hệ thống tốt hơn [1]. Theo các nghiên cứu gần đây, với việc phát triểnnhanh chóng của những hệ thống phần mềm, mỗi ngày có hàng trăm báo cáo lỗi được gửi đến. Những báo cáo lỗi trùngnhau xảy ra khi có nhiều hơn một người dùng gửi báo cáo lỗi cho cùng một lỗi giống nhau [2]. Những báo cáo lỗithường được diễn đạt bằng ngôn ngữ tự nhiên do đó cùng một lỗi có thể được được diễn tả bằng những từ ngữ khácnhau hay nhiều cách khác nhau. Bảng 1, bảng 2 là một ví dụ về hai báo cáo lỗi trùng nhau của hệ thống quản lý lỗiOpen Office. Chúng ta có thể thấy rằng hai báo cáo lỗi này cùng báo cáo một lỗi tuy nhiên lại sử dụng bằng những từngữ khác nhau. Với số lượng báo cáo lỗi rất lớn, việc dò tìm những báo cáo lỗi trùng nhau bằng thủ công là một việclàm rất mất nhiều thời gian và công sức. Vì vậy trong những năm gần đây, nhiều phương pháp về việc tự động dò tìmnhững báo cáo lỗi trùng nhau đã được nghiên cứu để giải quyết vấn đề này. Hiện tại có vài phương pháp được giớithiệu. Phương pháp thường được sử dụng trước đây là sử dụng kỹ thuật rút trích thông tin (IR) với mô hình không gianvector (Vector Space Model) [3, 4]. Một phương pháp khác cải tiến hơn là sử dụng xử lý ngôn ngữ tự nhiên kết hợpvới kỹ thuật rút trích thông tin [5, 6]. Ngoài ra còn một số phương pháp khác như sử dụng mô hình học máy [7], môhình phân loại nhị phân[8]. Tuy nhiên, giới hạn Bảng 1. Báo cáo lỗi trên Open Office có mã lỗi: 9002 Bug ID 9002của những phương pháp Product Mathnày chính là kết quả thực Component Codenghiệm thấp đối với việc Summary formatting of font attributesxác định những báo cáo Description The attributes: hat, grave, tilde, check, bar, vector, and so on are too far removed from the font.lỗi trùng nhau. Gần đây, Seems to be a problem with the font definitions used. Workaround are widevec, widehat, widebar etc. Unfortunatelly the „wide‟ version does notmột phương pháp cải tiến exist for all attributes.của kỹ thuật rút trích Also, „bold‟ in formulate is translated into some sort of arial font with poor spacing withinthông tin được nhóm tác characters. It is unfortunate that this has changed from SVv4 which used the moregiả Sun ...

Tài liệu được xem nhiều: