Discretization là gì?

Noun AI
data discretization

Discretization trong học máy (machinel learning) thường được sử dụng như một bước tiền xử lý (pre-processing) cho các thuật toán học máy (machine learning algorithm) chỉ xử lý dữ liệu rời rạc (discrete data). Discretization là quá trình biến biến (varaible) có giá trị liên tục thành biến rời rạc bằng cách tạo một tập hợp các khoảng liền kề (hoặc tương đương với một tập hợp các điểm cắt) kéo dài phạm vi giá trị của biến. Phương pháp discretization được chia thành hai loại riêng biệt: Phương pháp không giám sát (unsupervised) không sử dụng bất kỳ thông tin nào trong biến mục tiêu (target variable) và phương pháp có giám sát (supervised) có sử dụng thông tin về biến mục tiêu.

Bây giờ, chúng ta có thể hiểu khái niệm này với sự trợ giúp của một ví dụ giả sử chúng ta có một thuộc tính Age với các giá trị đã cho.

Age 1,5,9,4,7,11,14,17,13,18, 19,31,33,36,42,44,46,70,74,78,77

Bảng trước khi discretization

Attribute Age Age Age Age
1,5,4,9,7 11,14,17,13,18,19 31,33,36,42,44,46 70,74,77,78
After Discretization Child Young Mature Old

Một ví dụ khác là dữ liệu của khách truy cập website. Như được thấy trong hình bên dưới, dữ liệu được phân bổ theo các quốc gia.

Tất cả các địa chỉ IP của một quốc gia cụ thể đều được phân chia theo các quốc gia đó. Ví dụ: tất cả khách truy cập vào trang web có địa chỉ IP của Hoa Kỳ được hiển thị dưới nhãn quốc gia.

Learning English Everyday