Danh mục

Ứng dụng thuật toán K-mean trên Spark để phân khúc khách hàng

Số trang: 8      Loại file: pdf      Dung lượng: 301.88 KB      Lượt xem: 8      Lượt tải: 0    
Thu Hiền

Phí tải xuống: 1,000 VND Tải xuống file đầy đủ (8 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong nghiên cứu này, quy trình phân khúc khách hàng được thực hiện bằng cách khám phá dữ liệu lịch sử giao dịch của khách hàng tại công ty bán lẻ trực tuyến, triển khai thuật toán phân cụm K-Means trên Spark cùng với việc áp dụng RFM (Recency: Lần truy cập gần đây, Frequency: Tần suất, Money: Tiền tệ). Để xác định số cụm tối ưu đã sử dụng phương pháp Elbow Method.
Nội dung trích xuất từ tài liệu:
Ứng dụng thuật toán K-mean trên Spark để phân khúc khách hàng ỨNG DỤNG THUẬT TOÁN K-MEANS TRÊN SPARK ĐỂ PHÂN KHÚC KHÁCH HÀNG Nguyễn Văn Trọng 1 1. Lớp CH22HT01, Trường Đại học Thủ Dầu Một.TÓM TẮT Công ty bán lẻ trực tuyến nhưng chiến lược tiếp thị đến khách hàng chưa được tối ưuhóa nên chưa thể tăng lượng giao dịch mua hàng. Vì vậy cần có chiến lược tiếp thị lấy kháchhàng làm trung tâm bằng cách triển khai quản lý quan hệ khách hàng. Một trong nhữngphương pháp có thể áp dụng là phân khúc khách hàng. Việc phân khúc khách hàng có thểđược thực hiện bằng cách triển khai quy trình khai thác dữ liệu được thực hiện bằng thuậttoán phân cụm K-mean trên Spark và dựa trên mô hình RFM (Recency: Lần truy cập gần đây,Frequency: Tần suất, Money: Tiền tệ). Xác định số cụm trong quá trình phân cụm bằngphương pháp khuỷu tay. Kết quả phân tích cụm dựa trên giá trị khách hàng sử dụng phươngpháp kết hợp RFM tạo ra 4 loại đặc điểm khách hàng là khách hàng mới, khách hàng bìnhdân, khách hàng tiềm năng cao và khách hàng mất đi. Từ khóa: K-means, Phân cụm, Phân khúc khách hàng, Spark, RFM.1. GIỚI THIỆU Sự phát triển nhanh chóng của thông tin và công nghệ có tác động đến việc lưu trữ dữliệu ngày càng lớn như kho dữ liệu. Hàng năm công ty bán lẻ trực tuyến tạo ra một khối lượnglớn dữ liệu, tuy nhiên dữ liệu này sẽ chỉ chiếm bộ nhớ lưu trữ nếu không được xử lý cho mụcđích tiếp thị hoặc ra quyết định. Việc tận dụng kho dữ liệu chưa được khai thác tối đa nên dữliệu dùng để phân tích chỉ là tổng giá trị của các giao dịch thu được. Để đảm bảo doanh số bán hàng cần có cách tiếp cận phân khúc dựa trên xu hướng thayđổi của người tiêu dùng như hiểu sâu hơn về sở thích, thói quen của khách hàng để công ty tạora nhiều ưu đãi và chiến dịch có mục tiêu hơn đáp ứng được nhu cầu của người tiêu dùng. Sựhiểu biết về khách hàng trong quản lý quan hệ khách hàng, là một chiến lược toàn diện trongquá trình thu hút, giữ chân và hợp tác với khách hàng. Vì vậy, một cách hiệu quả là phân khúckhách hàng dựa trên dữ liệu giao dịch bán hàng của công ty bán lẻ trực tuyến, bộ dữ liệu “OnlineRetail” [11]. Bộ dữ liệu này đã được giới thiệu từ kho lưu trữ máy học của Đại học California.Bộ dữ liệu chứa hơn 540 nghìn mẫu lịch sử mua hàng trực tuyến của hơn 4,3 nghìn khách hàng. Trong nghiên cứu này, quy trình phân khúc khách hàng được thực hiện bằng cách khám phádữ liệu lịch sử giao dịch của khách hàng tại công ty bán lẻ trực tuyến, triển khai thuật toán phâncụm K-Means trên Spark cùng với việc áp dụng RFM (Recency: Lần truy cập gần đây, Frequency:Tần suất, Money: Tiền tệ). Để xác định số cụm tối ưu đã sử dụng phương pháp Elbow Method.2. NGHIÊN CỨU LIÊN QUAN Nghiên cứu của Wei và cộng sự vào năm 2016 [1] đã thực hiện nghiên cứu triển khai môhình RFM để phân tích giá trị khách hàng tại một bệnh viện thú y ở Đài Loan. Mục đích của 801nghiên cứu này là xác định những khách hàng có giá trị dựa trên mô hình phân tích RFM vàphát triển chiến lược tiếp thị với các nghiên cứu điển hình về khách hàng sở hữu chó. Nghiêncứu này áp dụng phương pháp bản đồ tự tổ chức (SOM) và K-means cùng với việc áp dụngRFM (recency, frequency, monetary). Kết quả từ việc triển khai phân cụm cùng với việc áp dụng RFM, có 12 cụm được chiathành 2 nhãn là Best Customer và Uncertain Customer. Best Customer bao gồm các cụm 1, 3,5, 7, 8, 10 và 12; Những Uncertain Customer bao gồm các cụm 2, 4, 6, 9 và 11. Nghiên cứu của Dursun và Caber vào năm 2016 [2] đã thực hiện nghiên cứu điều tra hồsơ khách hàng ưa thích tại các khách sạn nằm ở Antalya, Thổ Nhĩ Kỳ. Mục đích của nghiêncứu này là xác định mô hình phân tích RFM dựa trên khách hàng phù hợp với quy trình phânkhúc liên quan đến các đặc điểm nhân khẩu học của khách hàng. Nghiên cứu này áp dụngphương pháp bản đồ tự tổ chức (SOM) và K-mean cùng với việc áp dụng RFM (recency,frequency, monetary). Kết quả triển khai mô hình phân tích RFM dựa trên phân cụm khách hàng với quy trìnhphân đoạn liên quan đến đặc điểm nhân khẩu học của khách hàng, có 8 cụm được chia thành 8nhãn là Loyal Customers, Loyal Summer Season Customers, Collective Buying Customers,Winter Season Customers, Lost Customers, High Potential Customers, New Customers, vàWinter Season High Potential Customers. Nghiên cứu Tavakoli và cộng sự vào năm 2018 [3] đã thực hiện một nghiên cứu về việctriển khai phân khúc khách hàng bằng cách sử dụng việc phát triển mô hình RFM có tên làR+FM. Mục đích của nghiên cứu này là phân loại khách hàng thành nhiều nhóm dựa trên hànhvi mua hàng, thông tin nhân khẩu học và địa lý của họ cũng như nghiên cứu điển hình về thuộctính tâm lý tại công ty Digikala hoạt động trong lĩnh vực bán lẻ trực tuyến. Kết quả từ việc triển khai phân cụm R+FM dựa trên khách hàng, có 2 phân đoạn, phânđoạn thứ nhất theo lần truy cập gần đây và thứ hai, phân đoạn theo giá trị khách hàng bao gồmfrequency, monetary and weight frequency và monetary. Phân khúc gần đây tạo ra 3 đặc điểmkhách hàng là active, lapsing, và lapsed trong khi phân khúc giá trị khách hàng tạo ra 4 cụm làHigh Value, Medium with High Monetary, Medium with High Frequency, và Low Value. Kếtquả kết hợp các phân đoạn dựa trên mô hình R+FM, có 11 phân đoạn nhãn là Active HighValue, Active Medium with High Monetary, Active Medium with High Frequency, Active LowValue, Lapsing High Value, Lapsing Medium Value, Lapsing Low Value, Lapsed High Value,Lapsed Medium Value, Lapsed Low Value, và Lapsed Low Value. Nghiên cứu của Peker và cộng sự vào năm 2017 [4] đã thực hiện một nghiên cứu về việctriển khai phân khúc khách hàng bằng mô hình RFM sửa đổi có tên là “the LRFMP model casestudy in the wholesale retail industry in Antalya, Turkey”. Mục đích của nghiên cứu này là phânloại khách hàng thành nhiều n ...

Tài liệu được xem nhiều: