Undersampling là gì?

Noun AI

Hiểu thuật ngữ tập dữ liệu không cân bằng (imbalanced dataset) trước khi xem thuật ngữ này. Undersampling trong học máy (machine learning) nhằm mục đích giảm kích thước của lớp (class) chiếm đa số để cân bằng tập dữ liệu (dataset).

Ví dụ với bài toán phân loại có hai lớp (class) và 100 nghìn điểm dữ liệu (data point). 20 nghìn điểm dữ liệu cho lớp positive (positive class), 80 nghìn cho lớp negative (negative class). Chúng ta sẽ cần undersampling lớp chiếm đa số.

Điều này sẽ liên quan đến việc chọn ngẫu nhiên 20 nghìn điểm dữ liệu từ 80 nghìn điểm dữ liệu có sẵn. Sau đó, chúng ta có 20 nghìn điểm dữ liệu cho lớp positive và 20 nghìn điểm dữ liệu cho lớp negative, nâng tổng kích thước tập dữ liệu lên 40 nghìn điểm dữ liệu.

Learning English Everyday