Distance metric là gì?

Noun AI
Chỉ số khoảng cách

Chỉ số khoảng cách (distance metric) được sử dụng trong cả học có giám sát (supervised learning) và không giám sát (unsupervised learning), nói chung để tính toán mức độ tượng tự / giống nhau (similarity) giữa các điểm dữ liệu (data point).

Giả sử chúng ta muốn tạo các cụm (cluster) bằng cách sử dụng thuật toán K-Means Clustering hoặc k-Nearest Neighbor để giải quyết bài toán phân loại (classification) hoặc hồi quy (regression). Làm thế nào bạn sẽ xác định mức độ tương tự giữa các quan sát khác nhau ở đây? Làm thế nào chúng ta có thể nói rằng hai điểm dữ liệu là tương tự như nhau? Do đó để xác định mức độ tương tự giữa hai điểm dữ liệu, chúng ta có thể tính toán khoảng cách giữa các điểm dữ liệu và sau đó xác định mức độ tương tự giữa chúng. Vậy làm cách nào để chúng ta tính toán khoảng cách này và các chỉ số khoảng cách (distance metric) khác nhau trong học máy (machine learning) là gì?

Có một số chỉ số khoảng cách distance metric) trong học máy như khoảng cách Euclide (Euclidean distance), khoảng cách Manhattan (Manhattan distance), khoảng cách Minkowski (Minkowski distance), khoảng cách hamming (Hamming distance).

Learning English Everyday