Data cleaning là gì?
Noun
AI
- ★
- ★
- ★
- ★
- ★
data cleansing data scrubbing
Làm sạch dữ liệu
Làm sạch dữ liệu (data cleaning) là quá trình sửa chữa hoặc xóa dữ liệu không chính xác, bị hỏng, định dạng không chính xác, trùng lặp hoặc dữ liệu khuyết (missing data). Khi kết hợp nhiều nguồn dữ liệu, có nhiều cơ hội để dữ liệu bị trùng lặp hoặc gắn nhãn (label) sai. Nếu dữ liệu không chính xác, kết quả đầu ra (outcome) và thuật toán (algorithm) không đáng tin cậy, mặc dù chúng có thể đúng. Không có một cách tuyệt đối nào để quy định các bước chính xác trong quy trình làm sạch dữ liệu (data cleaning) bởi vì các quy trình sẽ khác nhau giữa các tập dữ liệu (dataset). Nhưng điều quan trọng là phải thiết lập một khuôn mẫu cho quy trình làm sạch dữ liệu của bạn để bạn biết rằng mình đang làm đúng cách mọi lúc
Learning English Everyday