Tóm tắt Luận văn Thạc sĩ Hệ thống thông tin: Ứng dụng các mô hình chủ đề ẩn vào mô hình phân hạng lại dòng cập nhật trên mạng xã hội Twitter
Số trang: 24
Loại file: pdf
Dung lượng: 975.21 KB
Lượt xem: 6
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Đề tài được làm rõ ở Luận văn này nhằm đề xuất phương pháp cải thiện mô hình tính hạng mà tác giả đã đề xuất trong thành mô hình với cốt lõi là phương pháp học tính hạng, xây dựng đặc trưng nội dung dựa trên mô hình LDA, và xây dựng đặc trưng người dùng dựa trên luật kết hợp. Nội dung của luận văn chia thành 4 chương, để nắm rõ nội dung chi tiết mời các bạn cùng tham khảo toàn văn của tài liệu.
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận văn Thạc sĩ Hệ thống thông tin: Ứng dụng các mô hình chủ đề ẩn vào mô hình phân hạng lại dòng cập nhật trên mạng xã hội TwitterĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆNGUYỄN THỊ TƯƠIỨNG DỤNG CÁC MÔ HÌNH CHỦ ĐỀ ẨNVÀO MÔ HÌNH PHÂN HẠNG LẠI DÒNG CẬP NHẬTTRÊN MẠNG XÃ HỘI TWITTERNgành: Hệ thống thông tinChuyên ngành: Hệ thống thông tinMã số: 60480104TÓM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TINNGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. HÀ QUANG THỤYHà Nội - 2016MỞ ĐẦUNgày nay, mạng xã hội phát triển mạnh mẽ mang những nhận xét,đánh giá, những thông tin phản ánh xã hội thực tới mỗi người, và ngàycàng đi sâu vào cuộc sống của mỗi chúng ta. Chúng cung cấp nhiều thôngtin cập nhật có tính thời gian thực có được từ kết nối trực tuyến của mọingười. Dòng các tin mới đến trang cá nhân của mỗi người dùng được gọilà dòng cập nhật của người dùng đó. Mặc dù dòng cập nhật đưa đến nhữngthông tin mới, nhưng tồn tại một hạn chế là không ít người dùng đã phảidành khá nhiều thời gian với dòng cập nhật, vì có không ít tin mới trongdòng cập nhật mang lại thông tin không cần thiết cho họ. Nhiều ngườidùng rơi vào tình cảnh bị ngập trong dòng cập nhật mà không thể xử lýchúng một cách đầy đủ. Với mục đích giải quyết vấn đề này, giải phápđược quan tâm là sắp xếp các tin trong dòng cập nhật sao cho hợp lý nhấtvới mỗi người dùng. Liangjie Hong và cộng sự (2012) nêu bật vấn đề xếphạng dòng cập nhật (gọi tắt là Xếp hạng dòng).Bài toán xếp hạng dòng trong mạng xã hội được đặt ra để giải quyếtvấn đề cập nhật tin cho mỗi người dùng, đưa ra danh sách các tin trongdòng cập nhật theo một thứ tự (theo hạng) quan tâm của người dùng,như là một hình thức tư vấn cho người dùng đó. Với bài toán này, việcxếp hạng các tin trong dòng cập nhật cần căn cứ vào lịch sử hành vi củangười dùng để tìm ra mối quan hệ giữa cá nhân người dùng đó với đốitượng xếp hạng, thậm chí cả quan hệ với người dùng khác.Tương tự như các mạng xã hội khác, người dùng trên Twitter cũngđối mặt với lượng lớn các dòng cập nhật liên tục từ những người bạn củamình. Trong phạm vi luận văn, chúng tôi tập trung vào bài toán xếp hạngdòng trên mạng xã hội Twitter, và tiếp tục đề cập tới mô hình hệ thốngxếp hạng dòng của mình [1]. Phương pháp phương pháp học tính hạngCRR [2] (Combined Regression and Ranking) được sử dụng.Mô hình xếp hạng dòng sử dụng thuật toán học tính hạng – thuật toándựa trên nền tảng học máy, nên việc xây dựng các tập dữ liệu huấn luyệnlà cần thiết. Chúng tôi đi tìm các yếu tố đặc trưng của tweet. Như đã phátbiểu trong [1], yếu tố nội dung của tweet - một yếu tố cơ sở tất yếu choquá trình học, được tìm ra dựa vào phương pháp phân cụm không giámsát, đó là mô hình chủ đề ẩn [3, 4]. Yếu tố nội dung được biểu diễn dưới1hình thức một tập các phân phối tweet theo chủ đề. Trong mô hình xếphạng dòng, mô hình chủ đề ẩn LDA được sử dụng. Ngoài yếu tố nội dung,độ ảnh hưởng người dùng được nhận diện là một yếu tố quan trọng. Cáccập nhật của người dùng có độ ảnh hưởng lớn thường được nhiều ngườitheo dõi hơn [5, 6]. Dựa trên quan điểm này, chúng tôi nhận thấy các dòngcập nhật từ những người bạn có ảnh hưởng tới người dùng đang xét nênđược tư vấn cho người dùng đó. Hay nói cách khác, độ ảnh hưởng ngườidùng (user influence) nên được tham gia vào quá trình học tính hạng. Dovậy, chúng tôi quyết định cải thiện mô hình tính hạng [1] với sự tham giacủa đặc trưng độ ảnh hưởng người dùng. Trong [7], Fredik và cộng sự đãthực hiện tìm các người dùng có độ ảnh hưởng lớn trên mạng xã hội dựavào khai phá luật kết hợp. Học theo phương pháp này, chúng tôi côngthức hóa độ ảnh hưởng của người dùng qua số lượng luật kết hợp tìmđược trên tập các tweet. Thuật toán khai phá luật kết hợp được sử dụng làthuật toán Apriori [8].Khái quát lại, luận văn đề xuất phương pháp cải thiện mô hình tínhhạng mà chúng tôi đã đề xuất trong [1] thành mô hình với cốt lõi làphương pháp học tính hạng, xây dựng đặc trưng nội dung dựa trên môhình LDA, và xây dựng đặc trưng người dùng dựa trên luật kết hợp. Nộidung của luận văn chia thành các chương như sau:Chương 1: Luận văn trình bày về các dòng cập nhật của mỗi ngườidùng trên mạng xã hội Twitter và phát biểu bài toán xếp hạng các dòngcập nhật đó. Đồng thời nêu lên hướng giải quyết và ý nghĩa của bài toánnày.Chương 2: Luận văn trình bày về các phương pháp mà mô hình đềxuất sẽ sử dụng: phương pháp học tính hạng, mô hình chủ đề ẩn và luậtkết hợp.Chương 3: Luận văn trình bày mô hình xếp hạng dòng và cách hoạtđộng của mô hình đó.Chương 4: Luận văn trình bày thực nghiệm cho việc áp dụng mô hìnhxếp hạng trong chương 3 vào việc tính hạng tập các tweet của người dùngtrên Twitter.2DÒNG CẬP NHẬT TRÊN MẠNG XÃ HỘITWITTER VÀ BÀI TOÁN XẾP HẠNG DÒNGChương 1.Mạng xã hội Twitter và dòng cập nhật trên TwitterTwitter là dịch vụ mạng xã hội ra đời năm 2006, một trang microblog được phát triển bởi Twitter Inc, cung cấp một dịch vụ mạng miễnphí cho phép n ...
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận văn Thạc sĩ Hệ thống thông tin: Ứng dụng các mô hình chủ đề ẩn vào mô hình phân hạng lại dòng cập nhật trên mạng xã hội TwitterĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆNGUYỄN THỊ TƯƠIỨNG DỤNG CÁC MÔ HÌNH CHỦ ĐỀ ẨNVÀO MÔ HÌNH PHÂN HẠNG LẠI DÒNG CẬP NHẬTTRÊN MẠNG XÃ HỘI TWITTERNgành: Hệ thống thông tinChuyên ngành: Hệ thống thông tinMã số: 60480104TÓM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TINNGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. HÀ QUANG THỤYHà Nội - 2016MỞ ĐẦUNgày nay, mạng xã hội phát triển mạnh mẽ mang những nhận xét,đánh giá, những thông tin phản ánh xã hội thực tới mỗi người, và ngàycàng đi sâu vào cuộc sống của mỗi chúng ta. Chúng cung cấp nhiều thôngtin cập nhật có tính thời gian thực có được từ kết nối trực tuyến của mọingười. Dòng các tin mới đến trang cá nhân của mỗi người dùng được gọilà dòng cập nhật của người dùng đó. Mặc dù dòng cập nhật đưa đến nhữngthông tin mới, nhưng tồn tại một hạn chế là không ít người dùng đã phảidành khá nhiều thời gian với dòng cập nhật, vì có không ít tin mới trongdòng cập nhật mang lại thông tin không cần thiết cho họ. Nhiều ngườidùng rơi vào tình cảnh bị ngập trong dòng cập nhật mà không thể xử lýchúng một cách đầy đủ. Với mục đích giải quyết vấn đề này, giải phápđược quan tâm là sắp xếp các tin trong dòng cập nhật sao cho hợp lý nhấtvới mỗi người dùng. Liangjie Hong và cộng sự (2012) nêu bật vấn đề xếphạng dòng cập nhật (gọi tắt là Xếp hạng dòng).Bài toán xếp hạng dòng trong mạng xã hội được đặt ra để giải quyếtvấn đề cập nhật tin cho mỗi người dùng, đưa ra danh sách các tin trongdòng cập nhật theo một thứ tự (theo hạng) quan tâm của người dùng,như là một hình thức tư vấn cho người dùng đó. Với bài toán này, việcxếp hạng các tin trong dòng cập nhật cần căn cứ vào lịch sử hành vi củangười dùng để tìm ra mối quan hệ giữa cá nhân người dùng đó với đốitượng xếp hạng, thậm chí cả quan hệ với người dùng khác.Tương tự như các mạng xã hội khác, người dùng trên Twitter cũngđối mặt với lượng lớn các dòng cập nhật liên tục từ những người bạn củamình. Trong phạm vi luận văn, chúng tôi tập trung vào bài toán xếp hạngdòng trên mạng xã hội Twitter, và tiếp tục đề cập tới mô hình hệ thốngxếp hạng dòng của mình [1]. Phương pháp phương pháp học tính hạngCRR [2] (Combined Regression and Ranking) được sử dụng.Mô hình xếp hạng dòng sử dụng thuật toán học tính hạng – thuật toándựa trên nền tảng học máy, nên việc xây dựng các tập dữ liệu huấn luyệnlà cần thiết. Chúng tôi đi tìm các yếu tố đặc trưng của tweet. Như đã phátbiểu trong [1], yếu tố nội dung của tweet - một yếu tố cơ sở tất yếu choquá trình học, được tìm ra dựa vào phương pháp phân cụm không giámsát, đó là mô hình chủ đề ẩn [3, 4]. Yếu tố nội dung được biểu diễn dưới1hình thức một tập các phân phối tweet theo chủ đề. Trong mô hình xếphạng dòng, mô hình chủ đề ẩn LDA được sử dụng. Ngoài yếu tố nội dung,độ ảnh hưởng người dùng được nhận diện là một yếu tố quan trọng. Cáccập nhật của người dùng có độ ảnh hưởng lớn thường được nhiều ngườitheo dõi hơn [5, 6]. Dựa trên quan điểm này, chúng tôi nhận thấy các dòngcập nhật từ những người bạn có ảnh hưởng tới người dùng đang xét nênđược tư vấn cho người dùng đó. Hay nói cách khác, độ ảnh hưởng ngườidùng (user influence) nên được tham gia vào quá trình học tính hạng. Dovậy, chúng tôi quyết định cải thiện mô hình tính hạng [1] với sự tham giacủa đặc trưng độ ảnh hưởng người dùng. Trong [7], Fredik và cộng sự đãthực hiện tìm các người dùng có độ ảnh hưởng lớn trên mạng xã hội dựavào khai phá luật kết hợp. Học theo phương pháp này, chúng tôi côngthức hóa độ ảnh hưởng của người dùng qua số lượng luật kết hợp tìmđược trên tập các tweet. Thuật toán khai phá luật kết hợp được sử dụng làthuật toán Apriori [8].Khái quát lại, luận văn đề xuất phương pháp cải thiện mô hình tínhhạng mà chúng tôi đã đề xuất trong [1] thành mô hình với cốt lõi làphương pháp học tính hạng, xây dựng đặc trưng nội dung dựa trên môhình LDA, và xây dựng đặc trưng người dùng dựa trên luật kết hợp. Nộidung của luận văn chia thành các chương như sau:Chương 1: Luận văn trình bày về các dòng cập nhật của mỗi ngườidùng trên mạng xã hội Twitter và phát biểu bài toán xếp hạng các dòngcập nhật đó. Đồng thời nêu lên hướng giải quyết và ý nghĩa của bài toánnày.Chương 2: Luận văn trình bày về các phương pháp mà mô hình đềxuất sẽ sử dụng: phương pháp học tính hạng, mô hình chủ đề ẩn và luậtkết hợp.Chương 3: Luận văn trình bày mô hình xếp hạng dòng và cách hoạtđộng của mô hình đó.Chương 4: Luận văn trình bày thực nghiệm cho việc áp dụng mô hìnhxếp hạng trong chương 3 vào việc tính hạng tập các tweet của người dùngtrên Twitter.2DÒNG CẬP NHẬT TRÊN MẠNG XÃ HỘITWITTER VÀ BÀI TOÁN XẾP HẠNG DÒNGChương 1.Mạng xã hội Twitter và dòng cập nhật trên TwitterTwitter là dịch vụ mạng xã hội ra đời năm 2006, một trang microblog được phát triển bởi Twitter Inc, cung cấp một dịch vụ mạng miễnphí cho phép n ...
Tìm kiếm theo từ khóa liên quan:
Luận văn Thạc sĩ Công nghệ thông tin Mô hình đề xuất Mô hình LDA Cải thiện mô hình tính hạng Phương pháp học tính hạngGợi ý tài liệu liên quan:
-
52 trang 430 1 0
-
Luận văn Thạc sĩ Kinh tế: Quản trị chất lượng dịch vụ khách sạn Mường Thanh Xa La
136 trang 364 5 0 -
97 trang 327 0 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 313 0 0 -
97 trang 306 0 0
-
Luận văn Thạc sĩ Khoa học máy tính: Tìm hiểu xây dựng thuật toán giấu tin mật và ứng dụng
76 trang 300 0 0 -
74 trang 296 0 0
-
96 trang 292 0 0
-
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 289 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng di động android quản lý khách hàng cắt tóc
81 trang 279 0 0