Feature scaling là gì?

Noun AI
scaling data normalization normalization

Feature scaling là một phương pháp thường được sử dụng trong feature engineering để điều chỉnh phạm vi giá trị (range) của đặc trưng (feature) để phù hợp với phạm vi giá trị của các đặc trưng khác trong tập dữ liệu (dataset). Ví dụ: giả sử rằng bạn muốn tất cả các đặc trưng trong tập dữ liệu có phạm vi giá trị từ 0 đến 1. Với phạm vi từ 0 đến 500 của một đặc trưng cụ thể, bạn có thể scale đặc trưng đó bằng cách chia mỗi giá trị cho 500 ta được phạm vi giá trị từ 0 đến 1. Trong xử lý dữ liệu (data processing), nó còn được gọi là chuẩn hóa dữ liệu (data normalization).

Nói chung, feature scaling được sử dụng khi các đặc trưng (feature) không có cùng phạm vi giá trị. Để giải thích điều này, chúng ta hãy lấy một ví dụ về giá nhà ở. Trong ví dụ này, có thể có nhiều đặc trưng cần xem xét, nhưng chúng ta hãy lấy hai trong số chúng cho đơn giản.

Bây giờ, phạm vi giá trị của x1 có thể từ 2 đến 5 và phạm vi giá trị của x2 có thể từ 2500 đến 5000. Bây giờ khi chúng ta nhìn vào các phạm vi giá trị, chúng ta có thể thấy rằng có một sự khác biệt rất lớn. Sự khác biệt này có thể làm chậm quá trình học của một mô hình (model).

Learning English Everyday