Outlier detection là gì?

Noun AI
Phát hiện điểm dị biệt

Phát hiện điểm dị biệt (outlier detection) là quá trình phát hiện và sau đó loại trừ các điểm dị biệt (outlier) khỏi một tập dữ liệu nhất định.

Điểm dị biệt có thể được định nghĩa là một phần dữ liệu hoặc quan sát (observation) sai lệch đáng kể so với mức trung bình đã cho của tập dữ liệu. Một điểm dị biệt có thể chỉ do ngẫu nhiên gây ra, nhưng nó cũng có thể chỉ ra lỗi đo lường hoặc tập dữ liệu đã cho có heavy-tailed distribution.

Ví dụ một quy trình đo lường luôn tạo ra các chỉ số từ 1 đến 10, nhưng trong một số trường hợp hiếm hoi, chúng ta nhận được các số đo lớn hơn 20. Các số lớn hơn 20 là điểm dị biệt.

Có một số phương pháp để xác định các giá trị dị biệt và một phương pháp phổ biến là thông qua phân tích z-score. Z-score là một giá trị đại diện cho số độ lệch chuẩn (standard deviation) mà một điểm dữ liệu khác xa giá trị trung bình. Z-score bằng 1 có nghĩa là điểm dữ liệu (data point) cách giá trị trung bình của nó 1 độ lệch chuẩn. Thông thường, các giá trị Z-score lớn hơn hoặc nhỏ hơn + 3 hoặc - 3 tương ứng được coi là các giá trị dị biệt.

Learning English Everyday