Trần Thùy Linh đã đăng lúc 10:07 - 01.04.2025
Mục tiêu của TechTalk 25.03 là giới thiệu các kỹ thuật sampling trong bài toán classification, đặc biệt là trong trường hợp mất cân bằng dữ liệu. Việc áp dụng các phương pháp như undersampling, oversampling, và SMOTE giúp cải thiện hiệu suất mô hình phân loại, từ đó nâng cao độ chính xác và tính ổn định của mô hình trong thực tế. Những phương pháp này đã được speaker đến từ Trung tâm Phân tích Dữ liệu – anh Trần Mạnh Cường nêu rõ và demo thực tế tại buổi chia sẻ.
Cụ thể, TechTalk #25.03 tập trung vào vấn đề mất cân bằng dữ liệu trong bài toán classification và các chiến lược khắc phục bằng sampling. Các phương pháp được thảo luận bao gồm undersampling (giảm số lượng mẫu của lớp chiếm đa số), oversampling (tăng số lượng mẫu của lớp thiểu số), và các phương pháp tiên tiến như SMOTE để tạo dữ liệu tổng hợp. Ngoài ra, buổi chia sẻ cũng đề cập đến cách ứng dụng sampling vào quá trình training khi áp dụng vào các bài toán thực tế tại VDS. Speaker và người tham gia đã cùng nhau phân tích các bài toán thực tế khi ứng dụng kỹ thuật, tìm ra điểm mấu chốt cũng như ưu điểm của phương pháp này.
Kết thúc TechTalk, VDS-ers nắm được sự khác biệt giữa undersampling và oversampling, hiểu ưu nhược điểm từng phương pháp để cải thiện hiệu suất mô hình phân loại. Đồng thời, CBNV cũng có cái nhìn rõ hơn về cách kỹ thuật sampling có thể giúp tối ưu hóa việc training model.
Trong thời gian tới, các phương pháp sampling tiên tiến sẽ tiếp tục được Trung tâm Phân tích Dữ liệu thử nghiệm trên nhiều bài toán đang triển khai tại VDS. Mục tiêu ưu tiên chính của việc này là tăng lợi nhuận từ các model credit, fraud.
VDS-ers có thể tham khảo lại nội dung của buổi chia sẻ tại Confluence My VDS, chuyên mục TechTalk 2025. Tài liệu TechTalk sẽ liên tục được cập nhật tại nền tảng.