Phân lớp dữ liệu mất cân bằng trong bài báo dự đoán thuê bao rời bỏ nhà mạng dựa vào giải thuật Rừng Ngẫu Nhiên cải tiến

Bài viết thử áp dụng giải thuật Rừng ngẫu nhiên có điều chỉnh hàm chi phí (cost-sensitive weighted random forest - CSWRF), vốn đã thành công trong bài toán phát hiện gian lận thẻ tín dụng (credit card fraud detection) để giải quyết vấn đề dữ liệu mất cân bằng trong bài toán dự đoán thuê bao rời bỏ nhà mạng. Ngoài ra, tác giả so sánh hiệu quả của giải thuật CSWRF với cách tiếp cận lấy mẫu dữ liệu: kết hợp giải thuật Rừng ngẫu nhiên với kỹ thuật lấy mẫu tăng SMOTE (Synthetic Minority Oversampling Technique).