Dự đoán kết quả thi hết môn của học sinh sử dụng một số kỹ thuật khai phá dữ liệu
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Dự đoán kết quả thi hết môn của học sinh sử dụng một số kỹ thuật khai phá dữ liệu Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 DỰ ĐOÁN KẾT QUẢ THI HẾT MÔN CỦA HỌC SINH SỬ DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU Vũ Thị Hạnh Trường Đại học Thuỷ lợi, email: hanhvt@tlu.edu.vn 1. GIỚI THIỆU CHUNG định bộ dữ liệu đầu vào tối ưu từ bộ dữ liệu thô. Bộ dữ liệu kết quả học tập được tuyển Nguồn dữ liệu thu được hiện nay là khổng chọn từ hai trường trung học cơ sở ở Bồ lồ và chứa đựng một kho tàng tri thức cần được khám phá. Lưu ý đến sự gia tăng về Đào Nha trong một năm học. Tổng số 32 tính khả dụng của dữ liệu học tập được gán thuộc tính được thu thập trên mỗi học sinh nhãn, khai thác dữ liệu được giám sát đã đạt bao gồm điểm thành phần, các thông tin được những giá trị nhất định trong việc hiểu nhân khẩu học, xã hội, các thông tin liên rõ và tối ưu hoá quá trình học tập và môi quan đến trường học (như sex, famsize, trường học tập mà nó đang diễn ra (Huang và traveltime, studytime, failures, activities, các cộng sự, 2021). internet, freetime, health,...). Mỗi bộ thông Dự đoán kết quả thi hết môn học được coi tin được dán nhãn thành hai lớp là “qua là quan trọng vì lợi ích của việc xác định môn” hoặc “trượt môn”. Kiểu dữ liệu của được khả năng cá nhân hoặc nhóm học sinh các thuộc tính là kiểu số, kiểu nhị phân và có nguy cơ cao không đạt kỳ thi cuối kỳ giúp kiểu định tính. Những thuộc tính có kiểu sinh viên có thể nhận thức và điều chỉnh hành định tính sẽ được ánh xạ sang các giá trị số, vi, thói quen, kế hoạch của bản thân để ngăn những thuộc tính có giá trị nhị phân được việc dự đoán đó xảy ra (Nikola và các cộng ánh xạ sang 0 và 1. Những thuộc tính kiểu sự, 2020). Đồng thời, nó cũng có thể cung số giá trị không thay đổi. Việc chuẩn hoá cấp các thông tin liên quan cho các nhà giáo giá trị cho bộ dữ liệu giúp cải thiện tốc độ dục để có thể lên kế hoạch can thiệp để hỗ trợ trong giai đoạn học tập. cá nhân hoặc một nhóm học sinh kịp thời, Bộ dữ liệu kết quả học tập của học sinh hoặc xác định các khoá học và chương trình được tách ra thành hai phần: 70% dữ liệu giảng dạy cần cải tiến, đặc biệt trong bối được sử dụng như một tập huấn luyện, 30% cảnh học online đang kéo dài như hiện nay. dữ liệu được sử dụng như tập kiểm thử. Tập Bài viết này sử dụng một số kỹ thuật khai huấn luyện được sử dụng để điều chỉnh hoặc phá dữ liệu để dự đoán kết quả kỳ thi của học huấn luyện một mô hình dự đoán, phân loại sinh vào hai lớp là “qua môn” hay “trượt các giá trị đã biết trong tập huấn luyện. Tập môn”, từ đó xem xét mối quan hệ giữa một kiểm thử được sử dụng để kiểm tra mô hình số yếu tố đầu vào chính ảnh hưởng đến thành được đào tạo. tích học tập của học sinh. Câu hỏi nghiên cứu 2.2. Phương pháp nghiên cứu đặt ra là: Những nhân tố nào tác động mạnh đến thành tích học tập của học sinh? Bài viết này sử dụng ba kỹ thuật của khai phá dữ liệu là Decision Tree (DT), Support 2. PHƯƠNG PHÁP NGHIÊN CỨU Vector Machine (SVM) và K-Nearest 2.1. Tiền xử lý dữ liệu Neighbours (KNN) để dự đoán kết quả thi Trước khi lựa chọn phương pháp tiếp cận hết môn của học sinh vào hai lớp dự đoán là dự đoán kết quả kỳ thi, trước tiên là phải xác qua môn hay trượt môn (P,F). 95 Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 2.3. Decision Tree kỳ thi cuối kỳ. Đồng thời, các thuộc tính liên Cây quyết định là một cách tiếp cận mô quan đến gia đình như nghề nghiệp của mẹ, hình sử dụng biểu đồ cây hoặc mô hình về mối quan hệ trong gia đình cũng đóng một các quyết định có thể xảy ra và các hệ quả vai trò quan trọng trọng đến kết quả học tập tương ứng của chúng như kết quả của các sự của học sinh. Một số thuộc tính như giới tính, kiện ngẫu nhiên. Nó là một cấu trúc luồng địa chỉ, quy mô gia đình và một số thuộc tính trong đó mỗi nút bên trong đại diện cho một khác dường như ít hoặc không ảnh hưởng đến phép thử trên thuộc tính, mỗi nhánh đại diện thành tích của học sinh. Bảng 1 dưới đây liệt cho kết quả thử nghiệm và mỗi lá đại diện kê một số thuộc tính đóng vai trò quan trọng cho một nhãn lớp. Quyết định được đưa ra ảnh hưởng đến kết quả cuối kỳ của học sinh. sau khi đếm tất cả các thuộc tính. Cây đồ thị Bảng 1. Các thuộc tính có ảnh hưởng cao được trực quan hoá dưới dạng biểu đồ cây đến kết quả học tập của học sinh giúp người dùng có thể dễ dàng liên kết các giả thuyết được đặt ra. Phạm vi giá trị TT Thuộc tính thuộc tính 2.4. Support Vector Machine (SVM) 1 Điểm số đợt 1 (G1) [0 -20] Mô hình SVM biểu diễn các vectơ đặc trưng dưới dạng các điểm trong không gian đa 2 Điểm số đợt 2 (G2) [0 -20] chiều, được ánh xạ sao cho các vectơ thuộc 3 Thời gian học hàng (1) < 2h, (2) 2-5h, các loại khác nhau được phân chia bởi một tuần (Studytime) (3) 5-10h, (4) >10h siêu phẳng. SVM có thể phân loại phi tuyến 4 Số lần trượt môn [1-3] hoặc (4) > =4 tính một cách hiệu quả bằng cách ...
Tìm kiếm theo từ khóa liên quan:
Kỹ thuật của khai phá dữ liệu Mô hình Support Vector Machine Thuật toán K-Nearest Neighbours Cây quyết định Bộ dữ liệu kết quả học tậpGợi ý tài liệu liên quan:
-
Nâng cao hiệu quả tra cứu ảnh nhãn hiệu sử dụng cây quyết định và phản hồi liên quan
10 trang 173 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 7 - Nguyễn Nhật Quang
37 trang 92 0 0 -
Bài giảng Khai phá web - Bài 2: Học máy (Phần 1)
53 trang 50 0 0 -
Một tiếp cận nhanh và hiệu quả cho nhận dạng số hiệu container
7 trang 34 0 0 -
7 trang 34 0 0
-
Phân tích cấu trúc dữ liệu: Phần 2
226 trang 32 0 0 -
4 trang 31 0 0
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 8: Cây quyết định và rừng ngẫu nhiên
43 trang 29 0 0 -
9 trang 27 0 0
-
Kiến thức cơ bản về cấu trúc dữ liệu và giải thuật: Phần 1
144 trang 27 0 0 -
Bài giảng Nhập môn trí tuệ nhân tạo: Chương 7 - TS. Ngô Hữu Phúc
91 trang 27 0 0 -
Bài giảng Chương 4: Phân loại dữ liệu
56 trang 26 0 0 -
So sánh thuật toán tăng cường độ dốc (XGBoost) với một số thuật toán học máy khác
7 trang 23 0 0 -
Cấu trúc dữ liệu và giải thuật: Phần 1
144 trang 22 0 0 -
Định giá đất hàng loạt ứng dụng mô hình cây quyết định: Trường hợp nghiên cứu thành phố Vũng Tàu
11 trang 22 0 0 -
Bài giảng Khai phá dữ liệu - Chương 4: Phân lớp và dự báo
47 trang 22 0 0 -
Bài giảng Khai phá dữ liệu: Bài 4 - Văn Thế Thành
14 trang 22 0 0 -
Bài giảng môn quản trị rủi ro - Ts. Nguyễn Minh Duệ _ Trường ĐH Bách Khoa Hà Nội - Chương 3
13 trang 22 0 0 -
Bài giảng Khai phá dữ liệu (Data mining): Chương 4 - Lê Tiến
51 trang 22 0 0 -
Bài giảng Trí tuệ nhân tạo: Bài 12 - Trương Xuân Nam
44 trang 22 0 0