Unbalanced data là gì?

Noun AI
imbalanced dataset
Dữ liệu không cân bằng, dữ liệu mất cân bằng

Dữ liệu không cân bằng (unbalanced data ) đề cập đến các bài toán phân loại (classification problem) trong đó chúng ta có số lượng các mẫu dữ liệu (example) không bằng nhau cho các lớp (class) khác nhau. Có dữ liệu không cân bằng thực sự rất phổ biến nói chung, nhưng nó đặc biệt phổ biến khi làm việc với dữ liệu bệnh tật, chúng ta thường có nhiều mẫu dữ liệu thuộc lớp khỏe mạnh hơn các mẫu dữ liệu thuộc lớp bệnh. Thậm chí, sự mất cân bằng nghiêm trọng hơn được thấy với việc phát hiện gian lận (fraud detection), trong đó hầu hết các trường hợp sử dụng thẻ tín dụng đều ổn và chỉ có rất ít trường hợp gian lận.

Learning English Everyday