Oversampling là gì?

2023-07-30 01:23:39 1558 Lượt xem 33 Lượt thích

Noun AI

Hiểu thuật ngữ tập dữ liệu không cân bằng (imbalanced dataset) trước khi xem thuật ngữ này. Oversampling trong học máy (machine learning) là một kỹ thuật để thay đổi các lớp (class) của dữ liệu không bằng nhau để tạo ra các tập dữ liệu cân bằng (balanced dataset). Kỹ thuật này cố gắng tăng kích thước của các mẫu (sample) hiếm để tạo ra sự cân bằng khi dữ liệu không đủ.

Ví dụ: với bài toán phân loại (classification) với hai lớp và 100 nghìn điểm dữ liệu (data point). 20 nghìn điểm dữ liệu cho lớp positive (positive class), 80 nghìn cho lớp negative (negative class). Lớp positive là lớp chiếm thiểu số và sẽ cần oversampling.

Để làm điều này, chúng tôi lấy 20 nghìn điểm dữ liệu và sao chép chúng bốn lần để tạo ra 80 nghìn. Điều này mang lại số lượng mẫu (example) bằng nhau cho cả lớp positive và lớp negative. Do đó, kích thước của tập dữ liệu sẽ tăng lên 160K.