Danh mục

Bài giảng Khai phá dữ liệu - Chương 5: Phân lớp dữ liệu

Số trang: 34      Loại file: pptx      Dung lượng: 1.90 MB      Lượt xem: 10      Lượt tải: 0    
thaipvcb

Phí tải xuống: 9,000 VND Tải xuống file đầy đủ (34 trang) 0
Xem trước 4 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng cung cấp cho người học các kiến thức: Phân lớp dữ liệu. Hi vọng đây sẽ là một tài liệu hữu ích dành cho các bạn sinh viên đang theo học môn dùng làm tài liệu học tập và nghiên cứu.
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu - Chương 5: Phân lớp dữ liệu TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TINBÀI GIẢNG MÔN HỌCKHAI PHÁ DỮ LIỆU CH ƯƠN G5 :P HÂ N LƠP ́ D ỮLIỆU Gi ản g v iê n :Th S . N g u y ễn V ươn g Th ịn h B ộm ô n : H ệt h ốn g t h ô n g t in H ảiP h ò n g , Th ô n g t in v ềg i ản g v iê n Họ và tên Nguyễn Vương Thịnh Đơn vị công tác Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin Học vị Thạc sỹ Chuyên ngành Hệ thống thông tin Cơ sở đào tạo Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội Năm tốt nghiệp 2012 Điện thoại 0983283791 Email thinhnv@vimaru.edu.vn Website cá nhân http://scholar.vimaru.edu.vn/thinhnv2 Th ô n g t in v ềh ọc p h ần Tên học phần Khai phá dữ liệu Tên tiếng Anh Data Mining Mã học phần 17409 Số tín chỉ 03 tín chỉ Số tiết lý thuyết 39 tiết (13 tuần x 03 tiết/tuần) Số tiết thực hành 10 tiết (05 tuần x 02 tiết/tuần) Bộ môn phụ trách Hệ thống thông tin P H ƯƠN GP HÁP H ỌCTẬP, N GHIÊN CỨU v N g h e g i ản g , t h ảo lu ận , t ra o đ ổiv ớig i ản g v iê n t rê n l ớp . P H ƯƠTNựGP n g HÁP h iê nĐ c ứ ÁNu tHGIÁ à ili ệu v à là m b à it ập ởn h à . v v S Vp h ảit h a m d ự ít n h ất 7 5 %t h ờig ia n . v Có 0 2 b à i k i ểm t ra v i ết g i ữa h ọc p h ần ( X = X2 = ( L1 + L2 ) /2 ) .3 v Th i k ết t h ú c h ọc p h ần b ằn g h ìn h t h ức t r ắc n g h i ệm k h á c h q u a n t rê n m á y t ín h ( Z= 0 . 5 X+ 0 . 5 Y) . Tàiliệuthamkhảo1. Jiawei Han and Micheline Kamber, D a t a Min in g Co n c e p t s a n d Te c h n iq u e s , Elsevier Inc, 2006.2. Ian H. Witten, Eibe Frank, D a t a Min in g – P ra c t ic a l Ma c h in e Le a rn in g To o ls a n d Te c h n iq u e s ( t h e s e c o n d e d it io n ) , Elsevier Inc, 2005 (sửdụngkèmvớicôngcụWeka).3. Elmasri, Navathe, Somayajulu, Gupta, Fundamentals of Database Systems (the4thEdition), Pearson Education Inc, 2004.4. Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình Khai phá dữ liệu Web, NXB Giáo dục, 2009 45 CôngcụphầnmềmhỗtrợPhầnmềmWekađượcpháttriểnbởinhómnghiêncứucủatrườngĐạih ọc Wa ik a t o ( N e w Ze a la n d ) t ừ n ă m 1 9 9 9 . Có t h ểd o w n lo a d v ề t ại đ ịa c h ỉ: h t t p ://w w w . c s . w a ik a t o . a c . n z /m l/w e k a /d o w n lo a d in g . h t m l6 CHƯƠNG 5: PHÂN LỚP DỮ LIỆU 5.1. KHÁI NIỆM VỀ PHÂN LỚP DỮ LIỆU 5.2. PHÂN LỚP DỰA TRÊN XÁC SUẤT CÓ ĐIỀU KIỆN (Phân lớp Bayes – Naive Bayesian Classification) 5.3. PHÂN LỚP DỰA TRÊN CÂY QUYẾT ĐỊNH 5.4. XÂY DỰNG MÔ HÌNH PHÂN LỚP VỚI WEKA7 5.1.KHÁINIỆMVỀPHÂNLỚPDỮLIỆUCho tập các lớp C = {C1, C2,…, Cm} và tập dữ liệu D = {X1, X2 ,…,Xn}Phân lớp dữ liệu là sự phân chia các đối tượng dữ liệu vào các lớp.Về bản chất đây quá trình ánh xạ mỗi đối tượng Xj ∈ D tương ứngvới một lớp Ci ∈ C. X C1 1 X C2 2 X C 3 . . 3 . . . . Xn C 1 Xn m D C8 f:D→ Chayc=f(X)(vớiX∈ Dvàc∈  Mỗi ánh xạ được gọi là một mô hình phân lớp (Classification Model). ⟹Làm sao để xây dựng mô hình phân lớp? Thông qua quá trình huấn luyện dựa trên tập dữ liệu học (học có giám sát – supervised learning)9XâydựngmôhìnhB1:Chọnmộttậpvídụmẫu(gồmcácđốitượngđãđượcphânlớp):Dexam=D1∪ D2∪…∪DmtrongđóDi={X|(X∈ D)∧ (X⟶Ci)}i=1,..,mB2:TáchDexamthành02tập:v TậpdữliệuhọcDtrainv TậpdữliệukiểmtraDtest 2HiểnnhiênDexam=Dtrain ∪ Dtestvàth1ườngthìngườitatáchsaocho: Dtrain = Dexam Dtest = Dexam 3 3B3:DùngDtrainđểxâydựngmôhình(xácđịnhthamsố).Cónhiềuloạimôhìnhphânlớpnhư:Bayes,câyquyếtđịnh,luậtphânlớp,…B4:DùngDtestđểkiểmtra,đánhgiámôhìnhxâydựngđược.B5:Chọnmôhìnhcóchấtlượngnhất.SửdụngmôhìnhChoX∈ D(làtậpdữliệuchưaphânlớp)⟹XácđịnhlớpcủaX10 5 . 2 . P HÂN LỚP D ỰATRÊN XÁCS U ẤTCÓ Đ IỀUKIỆN (NaiveBayesClassifier)5.2.1.XácsuấtcóđiềukiệnvàcôngthứcBayes GọiXlàmộtbộdữliệu(datatuple).Theongônngữxácsuất,Xđượcxemlà mộtbiếncố(evidence). GọiHlàmộtgiảthuyết(hypothesis):bộXthuộcvềlớpCi.⟹ C ...

Tài liệu được xem nhiều: