Data reduction là gì?

Noun Data mining
Giảm thiểu dữ liệu

Kỹ thuật giảm thiểu dữ liệu (data reduction) trong khai phá dữ liệu (data mining) đảm bảo tính toàn vẹn (integrity) của dữ liệu trong khi giảm dữ liệu. Giảm thiểu dữ liệu (data reduction) là một quá trình làm giảm lượng (volume) dữ liệu gốc và đại diện nó ở một lượng nhỏ hơn nhiều. Các kỹ thuật giảm thiểu dữ liệu (data reduction) được sử dụng để thu được tập dữ liệu có dung lượng nhỏ hơn nhiều bằng cách duy trì tính toàn vẹn của dữ liệu gốc. Bằng cách giảm thiểu dữ liệu, hiệu quả của quá trình khai phá dữ liệu (data mining) được cải thiện, tạo ra kết quả phân tích giống nhau.

Việc giảm thiểu dữ liệu (data reduction) không ảnh hưởng đến kết quả thu được từ khai phá dữ liệu. Điều đó có nghĩa là kết quả thu được từ khai phá dữ liệu trước và sau khi giảm dữ liệu là giống nhau hoặc gần như nhau. Khi kích thước dữ liệu nhỏ hơn, việc áp dụng các thuật toán phức tạp và mang tính tính toán cao sẽ đơn giản hơn. Việc giảm dữ liệu có thể là về số lượng hàng (bản ghi) hoặc về số lượng cột.

Learning English Everyday