Dummy variable là gì?

Noun AI
indicator variable design variable contrast binary basis variable
Biến giả

Để hiểu thuật ngữ này hãy hiểu thuật ngữ one hot encoding trước. Một biến giả (dummy variable) trong học máy (machine learning) là một biến (variable) nhận các giá trị 0 và 1, trong đó các giá trị cho biết sự hiện diện hoặc không có của một thứ gì đó (ví dụ: số 0 có thể chỉ ra giả dược và 1 có thể chỉ ra một loại thuốc). Khi một biến phân loại (categorical variable) có nhiều hơn hai lớp (category), nó có thể được biểu diễn bằng một tập hợp các biến giả (dummy variable), với một biến cho mỗi lớp.

Bảng dưới đây cho thấy một biến phân loại nhận ba giá trị duy nhất: A, B và C. Ba biến giả (dummy variable) đại diện cho biến này được hiển thị ở bên phải, trong đó mỗi biến nhận giá trị 0 khi lớp của nó không có mặt, và giá trị 1 khi lớp của nó có mặt.

Categorical Variable Dummy A Dummy B Dummy C
A 1 0 0
A 1 0 0
B 0 1 0
A 1 0 0
B 0 1 0
C 0 0 1
A 1 0 0
Learning English Everyday