Similarity measure là gì?

Noun AI
Đo lường sự tương tự

Đo lường sự tương tự (similarity measure) là một cách đo lường cách các mẫu (sample) dữ liệu có liên quan với nhau. Mặt khác, đo lường sự tương tự (similarity measure) lcho biết mức độ khác biệt của các đối tượng dữ liệu (data object). Hơn nữa, các thuật ngữ này thường được sử dụng trong phân cụm (clustering) khi các mẫu dữ liệu tương tự được nhóm thành một cụm (cluster).

Đo lường sự tương tự (similarity measure) thường được biểu thị dưới dạng giá trị số: Giá trị này càng cao khi các mẫu dữ liệu càng giống nhau. Nó thường được biểu thị bằng một số từ 0 đến 1, 0 có nghĩa là độ tương tự thấp (các đối tượng dữ liệu không giống nhau). 1 có nghĩa là độ tương tự cao (các đối tượng dữ liệu rất giống nhau).

Hãy lấy một ví dụ trong đó mỗi điểm dữ liệu (data point) chỉ chứa một đặc trưng đầu vào (input feature). Đây có thể coi là ví dụ đơn giản nhất cho thấy sự không giống nhau giữa ba điểm dữ liệu A, B, C. Mỗi mẫu dữ liệu có thể có một giá trị duy nhất trên một trục (vì chúng ta chỉ có một đặc trưng đầu vào), hãy biểu thị đó là trục x. Chúng ta hãy lấy hai điểm, A (0,5), B (1) và C (30). Như bạn thấy A và B gần nhau. Do đó, mức độ tương tự giữa A và B cao hơn A và C hoặc B và C. Nói cách khác, A và B có mối tương quan chặt chẽ. Do đó, khoảng cách càng nhỏ thì độ tương tự càng lớn.

Learning English Everyday