Dummy variable trap là gì?

Noun AI

Dummy variable trap là một tình huống trong đó có các thuộc tính (attribute) có tương quan cao (đa cộng tuyến - multicollinearity) và một biến (variable) dự đoán giá trị của các biến khác. Khi chúng ta sử dụng one-hot encoding để xử lý dữ liệu phân loại (categorical data), thì một biến giả (dummy variable) có thể được dự đoán với sự trợ giúp của các biến giả khác. Do đó, một biến giả có tương quan cao với các biến giả khác. Việc sử dụng tất cả các biến giả cho mô hình hồi quy (regression model) dẫn đến một dummy variable trap. Vì vậy, các mô hình hồi quy nên được thiết kế để loại trừ một biến giả.

Ví dụ hãy xem xét trường hợp giới tính có hai giá trị nam (0 hoặc 1) và nữ (1 hoặc 0). Việc bao gồm cả hai biến giả có thể gây dư thừa vì nếu một người không phải là nam trong trường hợp đó thì người đó là nữ, do đó, chúng ta không cần sử dụng cả hai biến trong mô hình hồi quy. Điều này sẽ bảo vệ chúng ta khỏi dummy variable trap.

Learning English Everyday