Bài giảng Khai phá dữ liệu - Chương 5: Phân lớp dữ liệu
Số trang: 34
Loại file: pptx
Dung lượng: 1.90 MB
Lượt xem: 10
Lượt tải: 0
Xem trước 4 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài giảng cung cấp cho người học các kiến thức: Phân lớp dữ liệu. Hi vọng đây sẽ là một tài liệu hữu ích dành cho các bạn sinh viên đang theo học môn dùng làm tài liệu học tập và nghiên cứu.
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu - Chương 5: Phân lớp dữ liệu TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TINBÀI GIẢNG MÔN HỌCKHAI PHÁ DỮ LIỆU CH ƯƠN G5 :P HÂ N LƠP ́ D ỮLIỆU Gi ản g v iê n :Th S . N g u y ễn V ươn g Th ịn h B ộm ô n : H ệt h ốn g t h ô n g t in H ảiP h ò n g , Th ô n g t in v ềg i ản g v iê n Họ và tên Nguyễn Vương Thịnh Đơn vị công tác Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin Học vị Thạc sỹ Chuyên ngành Hệ thống thông tin Cơ sở đào tạo Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội Năm tốt nghiệp 2012 Điện thoại 0983283791 Email thinhnv@vimaru.edu.vn Website cá nhân http://scholar.vimaru.edu.vn/thinhnv2 Th ô n g t in v ềh ọc p h ần Tên học phần Khai phá dữ liệu Tên tiếng Anh Data Mining Mã học phần 17409 Số tín chỉ 03 tín chỉ Số tiết lý thuyết 39 tiết (13 tuần x 03 tiết/tuần) Số tiết thực hành 10 tiết (05 tuần x 02 tiết/tuần) Bộ môn phụ trách Hệ thống thông tin P H ƯƠN GP HÁP H ỌCTẬP, N GHIÊN CỨU v N g h e g i ản g , t h ảo lu ận , t ra o đ ổiv ớig i ản g v iê n t rê n l ớp . P H ƯƠTNựGP n g HÁP h iê nĐ c ứ ÁNu tHGIÁ à ili ệu v à là m b à it ập ởn h à . v v S Vp h ảit h a m d ự ít n h ất 7 5 %t h ờig ia n . v Có 0 2 b à i k i ểm t ra v i ết g i ữa h ọc p h ần ( X = X2 = ( L1 + L2 ) /2 ) .3 v Th i k ết t h ú c h ọc p h ần b ằn g h ìn h t h ức t r ắc n g h i ệm k h á c h q u a n t rê n m á y t ín h ( Z= 0 . 5 X+ 0 . 5 Y) . Tàiliệuthamkhảo1. Jiawei Han and Micheline Kamber, D a t a Min in g Co n c e p t s a n d Te c h n iq u e s , Elsevier Inc, 2006.2. Ian H. Witten, Eibe Frank, D a t a Min in g – P ra c t ic a l Ma c h in e Le a rn in g To o ls a n d Te c h n iq u e s ( t h e s e c o n d e d it io n ) , Elsevier Inc, 2005 (sửdụngkèmvớicôngcụWeka).3. Elmasri, Navathe, Somayajulu, Gupta, Fundamentals of Database Systems (the4thEdition), Pearson Education Inc, 2004.4. Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình Khai phá dữ liệu Web, NXB Giáo dục, 2009 45 CôngcụphầnmềmhỗtrợPhầnmềmWekađượcpháttriểnbởinhómnghiêncứucủatrườngĐạih ọc Wa ik a t o ( N e w Ze a la n d ) t ừ n ă m 1 9 9 9 . Có t h ểd o w n lo a d v ề t ại đ ịa c h ỉ: h t t p ://w w w . c s . w a ik a t o . a c . n z /m l/w e k a /d o w n lo a d in g . h t m l6 CHƯƠNG 5: PHÂN LỚP DỮ LIỆU 5.1. KHÁI NIỆM VỀ PHÂN LỚP DỮ LIỆU 5.2. PHÂN LỚP DỰA TRÊN XÁC SUẤT CÓ ĐIỀU KIỆN (Phân lớp Bayes – Naive Bayesian Classification) 5.3. PHÂN LỚP DỰA TRÊN CÂY QUYẾT ĐỊNH 5.4. XÂY DỰNG MÔ HÌNH PHÂN LỚP VỚI WEKA7 5.1.KHÁINIỆMVỀPHÂNLỚPDỮLIỆUCho tập các lớp C = {C1, C2,…, Cm} và tập dữ liệu D = {X1, X2 ,…,Xn}Phân lớp dữ liệu là sự phân chia các đối tượng dữ liệu vào các lớp.Về bản chất đây quá trình ánh xạ mỗi đối tượng Xj ∈ D tương ứngvới một lớp Ci ∈ C. X C1 1 X C2 2 X C 3 . . 3 . . . . Xn C 1 Xn m D C8 f:D→ Chayc=f(X)(vớiX∈ Dvàc∈ Mỗi ánh xạ được gọi là một mô hình phân lớp (Classification Model). ⟹Làm sao để xây dựng mô hình phân lớp? Thông qua quá trình huấn luyện dựa trên tập dữ liệu học (học có giám sát – supervised learning)9XâydựngmôhìnhB1:Chọnmộttậpvídụmẫu(gồmcácđốitượngđãđượcphânlớp):Dexam=D1∪ D2∪…∪DmtrongđóDi={X|(X∈ D)∧ (X⟶Ci)}i=1,..,mB2:TáchDexamthành02tập:v TậpdữliệuhọcDtrainv TậpdữliệukiểmtraDtest 2HiểnnhiênDexam=Dtrain ∪ Dtestvàth1ườngthìngườitatáchsaocho: Dtrain = Dexam Dtest = Dexam 3 3B3:DùngDtrainđểxâydựngmôhình(xácđịnhthamsố).Cónhiềuloạimôhìnhphânlớpnhư:Bayes,câyquyếtđịnh,luậtphânlớp,…B4:DùngDtestđểkiểmtra,đánhgiámôhìnhxâydựngđược.B5:Chọnmôhìnhcóchấtlượngnhất.SửdụngmôhìnhChoX∈ D(làtậpdữliệuchưaphânlớp)⟹XácđịnhlớpcủaX10 5 . 2 . P HÂN LỚP D ỰATRÊN XÁCS U ẤTCÓ Đ IỀUKIỆN (NaiveBayesClassifier)5.2.1.XácsuấtcóđiềukiệnvàcôngthứcBayes GọiXlàmộtbộdữliệu(datatuple).Theongônngữxácsuất,Xđượcxemlà mộtbiếncố(evidence). GọiHlàmộtgiảthuyết(hypothesis):bộXthuộcvềlớpCi.⟹ C ...
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu - Chương 5: Phân lớp dữ liệu TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TINBÀI GIẢNG MÔN HỌCKHAI PHÁ DỮ LIỆU CH ƯƠN G5 :P HÂ N LƠP ́ D ỮLIỆU Gi ản g v iê n :Th S . N g u y ễn V ươn g Th ịn h B ộm ô n : H ệt h ốn g t h ô n g t in H ảiP h ò n g , Th ô n g t in v ềg i ản g v iê n Họ và tên Nguyễn Vương Thịnh Đơn vị công tác Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin Học vị Thạc sỹ Chuyên ngành Hệ thống thông tin Cơ sở đào tạo Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội Năm tốt nghiệp 2012 Điện thoại 0983283791 Email thinhnv@vimaru.edu.vn Website cá nhân http://scholar.vimaru.edu.vn/thinhnv2 Th ô n g t in v ềh ọc p h ần Tên học phần Khai phá dữ liệu Tên tiếng Anh Data Mining Mã học phần 17409 Số tín chỉ 03 tín chỉ Số tiết lý thuyết 39 tiết (13 tuần x 03 tiết/tuần) Số tiết thực hành 10 tiết (05 tuần x 02 tiết/tuần) Bộ môn phụ trách Hệ thống thông tin P H ƯƠN GP HÁP H ỌCTẬP, N GHIÊN CỨU v N g h e g i ản g , t h ảo lu ận , t ra o đ ổiv ớig i ản g v iê n t rê n l ớp . P H ƯƠTNựGP n g HÁP h iê nĐ c ứ ÁNu tHGIÁ à ili ệu v à là m b à it ập ởn h à . v v S Vp h ảit h a m d ự ít n h ất 7 5 %t h ờig ia n . v Có 0 2 b à i k i ểm t ra v i ết g i ữa h ọc p h ần ( X = X2 = ( L1 + L2 ) /2 ) .3 v Th i k ết t h ú c h ọc p h ần b ằn g h ìn h t h ức t r ắc n g h i ệm k h á c h q u a n t rê n m á y t ín h ( Z= 0 . 5 X+ 0 . 5 Y) . Tàiliệuthamkhảo1. Jiawei Han and Micheline Kamber, D a t a Min in g Co n c e p t s a n d Te c h n iq u e s , Elsevier Inc, 2006.2. Ian H. Witten, Eibe Frank, D a t a Min in g – P ra c t ic a l Ma c h in e Le a rn in g To o ls a n d Te c h n iq u e s ( t h e s e c o n d e d it io n ) , Elsevier Inc, 2005 (sửdụngkèmvớicôngcụWeka).3. Elmasri, Navathe, Somayajulu, Gupta, Fundamentals of Database Systems (the4thEdition), Pearson Education Inc, 2004.4. Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình Khai phá dữ liệu Web, NXB Giáo dục, 2009 45 CôngcụphầnmềmhỗtrợPhầnmềmWekađượcpháttriểnbởinhómnghiêncứucủatrườngĐạih ọc Wa ik a t o ( N e w Ze a la n d ) t ừ n ă m 1 9 9 9 . Có t h ểd o w n lo a d v ề t ại đ ịa c h ỉ: h t t p ://w w w . c s . w a ik a t o . a c . n z /m l/w e k a /d o w n lo a d in g . h t m l6 CHƯƠNG 5: PHÂN LỚP DỮ LIỆU 5.1. KHÁI NIỆM VỀ PHÂN LỚP DỮ LIỆU 5.2. PHÂN LỚP DỰA TRÊN XÁC SUẤT CÓ ĐIỀU KIỆN (Phân lớp Bayes – Naive Bayesian Classification) 5.3. PHÂN LỚP DỰA TRÊN CÂY QUYẾT ĐỊNH 5.4. XÂY DỰNG MÔ HÌNH PHÂN LỚP VỚI WEKA7 5.1.KHÁINIỆMVỀPHÂNLỚPDỮLIỆUCho tập các lớp C = {C1, C2,…, Cm} và tập dữ liệu D = {X1, X2 ,…,Xn}Phân lớp dữ liệu là sự phân chia các đối tượng dữ liệu vào các lớp.Về bản chất đây quá trình ánh xạ mỗi đối tượng Xj ∈ D tương ứngvới một lớp Ci ∈ C. X C1 1 X C2 2 X C 3 . . 3 . . . . Xn C 1 Xn m D C8 f:D→ Chayc=f(X)(vớiX∈ Dvàc∈ Mỗi ánh xạ được gọi là một mô hình phân lớp (Classification Model). ⟹Làm sao để xây dựng mô hình phân lớp? Thông qua quá trình huấn luyện dựa trên tập dữ liệu học (học có giám sát – supervised learning)9XâydựngmôhìnhB1:Chọnmộttậpvídụmẫu(gồmcácđốitượngđãđượcphânlớp):Dexam=D1∪ D2∪…∪DmtrongđóDi={X|(X∈ D)∧ (X⟶Ci)}i=1,..,mB2:TáchDexamthành02tập:v TậpdữliệuhọcDtrainv TậpdữliệukiểmtraDtest 2HiểnnhiênDexam=Dtrain ∪ Dtestvàth1ườngthìngườitatáchsaocho: Dtrain = Dexam Dtest = Dexam 3 3B3:DùngDtrainđểxâydựngmôhình(xácđịnhthamsố).Cónhiềuloạimôhìnhphânlớpnhư:Bayes,câyquyếtđịnh,luậtphânlớp,…B4:DùngDtestđểkiểmtra,đánhgiámôhìnhxâydựngđược.B5:Chọnmôhìnhcóchấtlượngnhất.SửdụngmôhìnhChoX∈ D(làtậpdữliệuchưaphânlớp)⟹XácđịnhlớpcủaX10 5 . 2 . P HÂN LỚP D ỰATRÊN XÁCS U ẤTCÓ Đ IỀUKIỆN (NaiveBayesClassifier)5.2.1.XácsuấtcóđiềukiệnvàcôngthứcBayes GọiXlàmộtbộdữliệu(datatuple).Theongônngữxácsuất,Xđượcxemlà mộtbiếncố(evidence). GọiHlàmộtgiảthuyết(hypothesis):bộXthuộcvềlớpCi.⟹ C ...
Tìm kiếm theo từ khóa liên quan:
Bài giảng Khai phá dữ liệu Khai phá dữ liệu ThS. Nguyễn Vương Thịnh Hệ thống thông tin Phân lớp dữ liệuGợi ý tài liệu liên quan:
-
Bài tập lớn môn Khai phá dữ liệu: Phân lớp dữ liệu số bằng giải thuật K-NN
22 trang 351 1 0 -
Bài tập thực hành môn Phân tích thiết kế hệ thống thông tin
6 trang 321 0 0 -
Bài thuyết trình Hệ thống thông tin trong bệnh viện
44 trang 251 0 0 -
Bài giảng HỆ THỐNG THÔNG TIN KẾ TOÁN - Chương 2
31 trang 234 0 0 -
Ứng dụng khai phá dữ liệu nâng cao dịch vụ thư viện số
16 trang 230 0 0 -
23 trang 223 0 0
-
Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện
11 trang 222 0 0 -
Phương pháp và và ứng dụng Phân tích thiết kế hệ thống thông tin: Phần 1 - TS. Nguyễn Hồng Phương
124 trang 217 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng quản lý kho hàng trên nền Web
61 trang 215 0 0 -
62 trang 209 2 0