Danh mục

Khai phá dữ liệu sử dụng lý thuyết tập thô

Số trang: 6      Loại file: pdf      Dung lượng: 909.77 KB      Lượt xem: 12      Lượt tải: 0    
Jamona

Phí tải xuống: 3,000 VND Tải xuống file đầy đủ (6 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong bài báo này, tác giả sử dụng ma trận phân biệt mở rộng trong mô hình tập thô dung sai để xây dựng thuật toán cho bài toán rút gọn thuộc tính trong hệ thông tin đa trị và minh họa kết quả thuật toán qua thực nghiệm.
Nội dung trích xuất từ tài liệu:
Khai phá dữ liệu sử dụng lý thuyết tập thôNinh Văn ThọTạp chí KHOA HỌC & CÔNG NGHỆ135(05): 19 - 24KHAI PHÁ DỮ LIỆU SỬ DỤNG LÝ THUYẾT TẬP THÔNinh Văn Thọ*Trường Đại học Kỹ thuật Công nghiệp – ĐH Thái NguyênTÓM TẮTLý thuyết tập thô đã được sử dụng hiệu quả trong các bước của quá trình khai phá dữ liệu và khámphá tri thức. Trong đó bài toán rút gọn thuộc tính theo tiếp cận lý thuyết tập thô là bài toán quantrọng trong khai thác dữ liệu nói chung và trong rút gọn các thuộc tính nói riêng. Trong thực tế dữliệu thường đa dạng, phong phú nhưng nhiều khi có thể dư thừa hoặc không đầy đủ, điều này ảnhhưởng đến việc khám phá tri thức từ dữ liệu. Trong bài báo này, tác giả sử dụng ma trận phân biệtmở rộng trong mô hình tập thô dung sai để xây dựng thuật toán cho bài toán rút gọn thuộc tínhtrong hệ thông tin đa trị và minh họa kết quả thuật toán qua thực nghiệm.Từ khóa: Tập thô dung sai, tập thô, hệ quyết định đa trị, rút gọn thuộc tính, tập rút gọnMỞ ĐẦU*Rút gọn thuộc tính trong hệ quyết định đa trịlà tìm ra tập thuộc tính nhỏ nhất có thể đượcđể biểu diễn dữ liệu nhưng vẫn giữ được mốiquan hệ ngữ nghĩa giữa các tập thuộc tính.Rút gọn thuộc tính vừa làm giảm khối lượngtính toán do quá trình xử lý dữ liệu chỉ thaotác trên một dung lượng dữ liệu nhỏ hơn, làmcho kết quả thu được từ quá trình xử lý trởnên cô đọng và dễ hiểu hơn. Trên hệ thông tinđa trị, Yan Yong Guan và cộng sự [2] đã mởrộng quan hệ tương tương trong lý thuyết tậpthô truyền thống thành quan hệ dung sai vàxây dựng mô hình tập thô dung sai bằng cáchmở rộng các định nghĩa xấp xỉ trên, xấp xỉdưới, miền dương...dựa trên quan hệ dung sai.Theo hướng tiếp cận mô hình tập thô dungsai, một số công trình nghiên cứu đáng chú ývề rút gọn thuộc tính trên hệ quyết định đa trịvà hệ quyết định đa trị xếp thứ tự có thể kểđến [1, 6, 9]. Trong công trình [11], sử dụngphương pháp ma trận các tác giả đã nghiêncứu sự thay đổi của các tập xấp xỉ khi bổ sungvà loại bỏ tập thuộc tính. Tuy nhiên, các kết quảnghiên cứu về rút gọn thuộc tính trong trườnghợp hệ quyết định đa trị vẫn còn hạn chế và đòihỏi nhiều nỗ lực nghiên cứu hơn nữa.Dựa trên ý tưởng ma trận phân biệt và hàmphân biệt trong lý thuyết tập thô truyền thốngdo Skowron đề xuất [8], trong bài báo này tác*Tel: 0914 770072, Email: Thodtu.nd@gmail.comgiả xây dựng ma trận phân biệt mở rộng vàhàm phân biệt mở rộng. Sử dụng hàm phânbiệt mở rộng, tác giả xây dựng phương pháprút gọn thuộc tính trong trường hợp hệ quyếtđịnh đa trị không thay đổi.Cấu trúc bài báo như sau. Phần 2 trình bàymột số khái niệm về hệ quyết định đa trị vàcác khái niệm tập rút gọn. Phần 3 trình bàyphương pháp rút gọn thuộc tính sử dụng hàmphân biệt mở rộng. Phần 4 là kết luận và địnhhướng nghiên cứu tiếp theo.CÁC KHÁI NIỆM CƠ BẢNTrong phần này, bài báo sẽ đưa ra một số kháiniệm cơ bản về hệ thông tin đa trị được thamkhảo trong [2].Định nghĩa 1 [2]. Hệ thông tin đa trị là mộtbộ bốn IS  U , A,V , f  trong đó U là tậphữu hạn, khác rỗng được gọi là tập vũ trụhoặc tập các đối tượng; A là tập là hữu hạnkhác rỗng các thuộc tính; f là hàm thông tin,f : U  A  2V là ánh xạ tập giá trị.Ví dụ 1. Bảng 1 [6] minh họa một hệ thôngtin đa trị (bỏ qua cột thuộc tính dec) với mườiđối tượngU  u1 , u2 , u3 , u4 , u5 , u6 , u7 , u8 , u9 , u10  , bốnthuộc tính giá trị tậpA  {Audition, Spoken Language, Reading, Writing}và tập giá trị V  {E , F , G}.19Nitro PDF Software100 Portable Document LaneWonderlandNinh Văn ThọTạp chí KHOA HỌC & CÔNG NGHỆ AT (u )  d  v  v  TAT ( u) được gọi làBảng 1. Hệ thông tin đa trịAudition Spoken Reading Writing(A)Language(R)(W)(S)UDechàm quyết định suy rộng của đối tượng u trêntập thuộc tính AT.{F , G} {F , G} No{F , G} {E , F , G} No{E , G}{E , F }{F , G} {F , G} NoNo{E , F }{E , G}{F , G} {F}No{F , G}{F}{F , G}{F , G}{F }{F }{E , F } {E , F } Yes{E , F , G} {E , F , G} {E , G} {E , F , G} Yes{E , F }{F , G} {E , F , G} {E , G} Yes{F , G}{G}{F , G} {F , G} Yes{E , F }{E , G}{F , G} {E , F } YesNếu |  AT (u) | 1 với mọi u U thì DS lànhất quán, trái lại DS là không nhất quán.Tương tự hệ quyết định không đầy đủ [3], tậprút gọn của hệ quyết định đa trị được địnhnghĩa như sau:Định nghĩa 4. Cho hệ quyết định đa trịDS  U , AT  d  . Nếu R  AT thỏau1 {E}{E}u2 {E , F , G} {E , F , G}u3u4u5u6u7u8u9u10135(05): 19 - 24mãn:(1)  R  u    AT  u  với mọi u U(2) với mọi R  R , tồn tại u UĐịnh nghĩa 2. (Quan hệ dung sai trong hệthông tin đa trị)sao cho  R  u    AT  u Cho hệ thông tin đa trị IS  U , A,V , f  .Với mỗi tập con thuộc tính B  A , quan hệthì R được gọi là một tập rút gọn của DS dựatrên hàm quyết định suy rộng.TB   u , v   U  U b  B, u (b)  v  b    RÚT GỌN THUỘC TÍNH TRONG HỆQUYẾT ĐỊNH ĐA TRỊ SỬ DỤNG HÀMlà một quan hệ dung sai và được gọi là quanPHÂN BIỆT MỞ RỘNGhệ dungsai tương ứng với B.u T  v U | (u, v)  TB Đặtu TthìBđược gọi là một lớp dung sai tương ứngBvới quan hệ TB.Ký hiệu U / TB  u T | u UB biểu diễn tậptất cả các lớp dung sai tương ứng với quan hệTB, khi đó U / TB hình thành một phủ của U vìcác lớp dung sai trong U / TB có thể giao nhauRút gọn thuộc tính trong hệ quyết định là quátrình lựa chọn tập con nhỏ nhất của tập thuộctính điều kiện mà bảo toàn thông tin phân lớpcủa bảng quyết định. Trong lý thuyết tập thôtruyền thống, Skowron [8] đã đưa ra khái niệmma trận phân biệt và hàm phân biệt để tìm tậprút gọn. Dựa trên cách tiếp cận này, tác giảđưa ra khái niệm ma trận phân biệt mở rộng vàhàm phân biệt mở rộng để tìm tập rút gọn củahệ quyết định đa trị.Định nghĩa 5. Cho hệ quyết định đa trịvà  [u]TB =U.DS  U , AT  d  với A  AT và U  n .Rõ ràng là nếu C  B thì [u ]TB  [u ]TC vớiMa trận phân biệt mở rộng của DS trên tậpuUmọi u  U .Định nghĩa 3 . Bảng quyết định đ ...

Tài liệu được xem nhiều: