Imbalanced dataset là gì?

Noun AI
class-imbalanced dataset class-imbalanced data set
Tập dữ liệu mất cân bằng

Tập dữ liệu mất cân bằng (imbalanced dataset) là tập dữ liệu (dataset) mà có sự khác biệt lớn trong việc phân phối (distribution) các lớp (class) trong tập dữ liệu. Điều này có nghĩa là một tập dữ liệu thiên về một lớp trong tập dữ liệu. Nếu tập dữ liệu thiên về một lớp, một thuật toán được huấn luyện trên cùng một dữ liệu sẽ thiên về cùng một lớp.

Một ví dụ điển hình về tập dữ liệu mất cân bằng (imbalanced dataset) là phân loại e-mail. Số lượng email spam thấp hơn rất nhiều so với số lượng email không phải spam.

Learning English Everyday