Clustering là gì?

Noun AI Machine learning
Phân cụm

Phân cụm (clustering) trong học máy (machine learning) là quá trình phân chia một tập dữ liệu (data set) không được gắn nhãn (label) thành các cụm (cluster) có chứa các thể hiện (instance) tương tự.

Noun Algorithm
Phân cụm

Phân cụm (clustering) là xu hướng / mức độ để các mục (entry) trong bảng băm (hash table) sử dụng băm địa chỉ mở (open addressing) được lưu trữ cùng nhau / được nhóm lại với nhau, ngay cả khi bảng băm có nhiều không gian (space) trống để trải rộng chúng ra và thường bị ảnh hưởng bởi cả hàm băm (hash function) được sử dụng và tập dữ liệu được chèn vào.

Bạn muốn tránh mức độ phân cụm cao (high clustering), vì điều đó có xu hướng làm tăng xác suất xung đột băm (hash collision) theo thời gian.

Một sự tương tự trong thế giới thực: Nếu con đường bạn đang đi bị ướt đẫm nước mưa, bạn muốn nước mưa đọng lại thành nhiều vũng nước nhỏ riêng biệt (phân cụm thấp (low clustering)) để bạn có thể dễ dàng bước qua chúng.

Nếu nước mưa có xu hướng đọng lại thành một vài vũng rất lớn (phân cụm cao), thì bạn khó bước qua (xung đột băm) cho dù bạn có cố gắng thế nào đi nữa.

Learning English Everyday