Noisy data là gì?
- ★
- ★
- ★
- ★
- ★
Dữ liệu nhiễu (noisy data) là dữ liệu vô nghĩa. Thuật ngữ này thường được sử dụng như một từ đồng nghĩa với dữ liệu bị hỏng (corrupt data). Tuy nhiên, ý nghĩa của nó đã mở rộng để bao gồm bất kỳ dữ liệu nào mà máy móc không thể hiểu và diễn giải một cách chính xác, chẳng hạn như văn bản phi cấu trúc (unstructured text). Bất kỳ dữ liệu nào đã được nhận, lưu trữ hoặc thay đổi theo cách mà nó không thể được đọc hoặc sử dụng bởi chương trình đã tạo ra nó ban đầu có thể được mô tả là nhiễu (noisy).
Dữ liệu nhiễu (noisy data) làm tăng dung lượng lưu trữ cần thiết một cách không cần thiết và cũng có thể ảnh hưởng xấu đến kết quả của bất kỳ phân tích khai phá dữ liệu (data mining) nào.
Dữ liệu nhiễu (noisy data) có thể do lỗi phần cứng, lỗi lập trình, lỗi nhập dữ liệu và đầu vào vô nghĩa từ các chương trình nhận dạng ký tự bằng giọng nói hoặc quang học (OCR). Lỗi chính tả, chữ viết tắt của ngành và tiếng lóng (slang) cũng có thể cản trở việc đọc của máy.
Learning English Everyday