Danh mục

TÌM KIẾM CHUYÊN GIA VỚI GIẢI THUẬT MÁY HỌC C4.4-kNN

Số trang: 9      Loại file: pdf      Dung lượng: 4.65 MB      Lượt xem: 8      Lượt tải: 0    
Jamona

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong bài viết này chúng tôi đưa ra hướng tiếp cận học xếp hạng cho vấn đề tìm kiếmchuyên gia. Cơ sở dữ liệu chuyên gia được tạo ra từ các tóm tắt bài báo của các chuyêngia trong những năm gần đây. Sau khi tiền xử lý và biểu diễn theo mô hình túi từ. Chúngtôi đã đề xuất tiếp cận học xếp hạng C4.4-kNN dựa trên cây quyết định C4.4 kết hợp vớithuật toán k láng giềng kNN có sử dụng phản hồi kết quả của người dùng. Kết quả thựcnghiệm từ 87 chuyên gia của hội đồng...
Nội dung trích xuất từ tài liệu:
TÌM KIẾM CHUYÊN GIA VỚI GIẢI THUẬT MÁY HỌC C4.4-kNNTạp chí Khoa học 2011:19b 39-47 Trường Đại học Cần Thơ TÌM KIẾM CHUYÊN GIA VỚI GIẢI THUẬT MÁY HỌC C4.4-kNN Văn Thị Xuân Hồng1 và Đỗ Thanh Nghị2 ABSTRACTIn this paper, we investigate a learning to rank model called C4.4-kNN for searchingexperts. This model is based on the bag of words model and also uses the C4.4 algorithm(well-known as a good ranking algorithm) and the k nearest neighbors algorithm(considered as the simplest instance-based learning). In addition, the model also takesinto account user-relevance-feedback to improve ranking tasks. The numerical test resultson the French speaking data mining conference (EGC) showed that our C4.4-kNN isbetter than kNN for the assignment task. C4.4-kNN proposes appropriate programcommittee members for a given paper abstract after a few of clickthrough experts.Keywords: Experts search, Learning to rank, Bag of words, k nearest neighbors, C4.4machine learning algorithmTitle: Searching Experts with C4.4-kNN Machine Learning Algorithm TÓM TẮTTrong bài viết này chúng tôi đưa ra hướng tiếp cận học xếp hạng cho vấn đề tìm kiếmchuyên gia. Cơ sở dữ liệu chuyên gia được tạo ra từ các tóm tắt bài báo của các chuyêngia trong những năm gần đây. Sau khi tiền xử lý và biểu diễn theo mô hình túi từ. Chúngtôi đã đề xuất tiếp cận học xếp hạng C4.4-kNN dựa trên cây quyết định C4.4 kết hợp vớithuật toán k láng giềng kNN có sử dụng phản hồi kết quả của người dùng. Kết quả thựcnghiệm từ 87 chuyên gia của hội đồng xét duyệt bài báo của hội thảo khai mỏ dữ liệu chothấy cách tiếp cận của chúng tôi C4.4-kNN tìm được các chuyên gia để xét duyệt bài báophù hợp hơn so với chỉ sử dụng giải thuật kNN. Chúng tôi cũng thử nghiệm trên mô hìnhRF-C4.4-kNN dựa trên rừng cây quyết định C4.4 và kNN cho kết quả tốt hơn so với chỉsử dụng một cây quyết định như C4.4-kNN.Từ khóa: Tìm kiếm chuyên gia, học để xếp hạng, mô hình túi từ, k láng giềng, máy họccây quyết định C4.41 GIỚI THIỆUTrong thực tiễn, vấn đề thường đặt ra với nhiều cộng đồng khoa học, các hội thảo,các ban chương trình hay nhóm chuyên gia của một lĩnh vực nào đó, là làm sao đểtìm kiếm một hay những chuyên gia liên quan đến chuyên ngành hẹp để có thểđánh giá một đề tài, một dự án, một bài báo một cách có hiệu quả. Ví dụ như ở mộthội thảo chuyên ngành khai mỏ dữ liệu, chúng ta đã có các thành viên trong banchương trình (được gọi là các chuyên gia của nhiều chuyên ngành hẹp của hội thảovề máy học, phân tích dữ liệu, …). Khi có một bài báo gửi đến hội thảo, làm saoban tổ chức hội thảo có thể chuyển bài báo này đến chuyên gia nào trong banchương trình để có thể nhận được đánh giá chuẩn xác về bài báo. Hay một sở khoahọc công nghệ nhận được một dự án đề xuất, làm sao để gửi dự án đó đến chuyêngia có thể thẩm định tốt về đề xuất. Vấn đề này có thể được giải quyết theo tìm1 Trung tâm Công nghệ Phần mềm, Khoa CNTT&TT, Trường Đại học Cần Thơ2 Bộ môn Khoa Học Máy Tính, Khoa CNTT&TT, Trường Đại học Cần Thơ 39Tạp chí Khoa học 2011:19b 39-47 Trường Đại học Cần Thơkiếm thông tin (Manning et al., 2009). Một nghiên cứu liên quan đến vấn đề tìmkiếm chuyên gia dựa trên phương pháp hiển thị trực quan cũng được tìm thấytrong (Fortuna et al., 2005). Thời gian gần đây, các nghiên cứu được đề cập trong(Agarwal et al., 2005), (Radlinski & Joachims, 2007), (Liu, 2009) đưa ra nhiều môhình máy học xếp hạng có sử dụng phản hồi từ người sử dụng nhằm cải thiện đượcđộ chính xác cho tìm kiếm thông tin.Để giải quyết cho bài toán tìm kiếm chuyên gia, chúng tôi đề xuất mô hình theohướng tiếp cận học để xếp hạng. Trước tiên, một cơ sở dữ liệu chuyên gia được tạothành từ mô tả về chuyên ngành, chuyên môn, các lý lịch khoa học, tóm tắt bài báokhoa học của các chuyên gia. Chúng tôi sử dụng mô hình túi từ để biểu diễn cơ sởdữ liệu chuyên gia thuận lợi cho quá trình tìm kiếm. Sau đó, khi có một tóm tắt bàibáo, hay dự án được yêu cầu, hệ thống trước hết sẽ sử dụng phương pháp tìm kiếmk láng giềng (kNN (Fix & Hodges, 1952)) để đưa ra các chuyên gia gần với yêucầu. Sau đó người sử dụng có thể xác định những câu trả lời nào là gần giống vớiyêu cầu nhất từ các kết quả trả về. Hệ thống sẽ bắt đầu quá trình học có giám sátcủa cây quyết định cho xếp hạng C4.4 (Provost & Domingos, 2003) với lớp dương(+1) là các kết quả vừa được người sử dụng xác nhận và lớp âm (-1) là các dữ liệucòn lại. Tiến trình cứ lặp lại cho đến khi nào người sử dụng thấy kết quả tìm kiếmphù hợp với yêu cầu. Kết quả thực nghiệm từ 87 chuyên gia của hội đồng xétduyệt bài báo của hội thảo khai mỏ dữ liệu EGC của khối pháp ngữ cho thấy cáchtiếp cận của chú ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: