Feature extraction là gì?

Noun AI
feature encoding vectorization
Trích xuất đặc trưng

Trích xuất đặc trưng (feature extraction) đề cập đến quá trình chuyển đổi dữ liệu thô (raw data) thành các đặc trưng số (numerical feature) có thể được xử lý trong khi vẫn bảo toàn thông tin trong tập dữ liệu (data set) gốc. Nó mang lại kết quả tốt hơn so với việc áp dụng máy học (machine learning) trực tiếp vào dữ liệu thô.

Lý do của trích xuất đặc trưng (feature extraction) là do các thuật toán học máy (machine learning algorithm) không thể làm việc trực tiếp với văn bản thô nên văn bản phải được chuyển đổi thành số.

Ví dụ: một phương pháp phổ biến và đơn giản để trích xuất đặc trưng (feature extraction) với dữ liệu văn bản được gọi là mô hình túi từ (bag-of-words) của văn bản.

Learning English Everyday