Document classification là gì?

Noun AI
document categorization
Phân loại tài liệu

Phân loại tài liệu (document classification) là một bài toán trong khoa học thư viện (library science), khoa học thông tin (information science) và khoa học máy tính (computer science). Nhiệm vụ là gán một tài liệu (document) cho một hoặc nhiều lớp (class) hoặc danh mục (category). Điều này có thể được thực hiện thủ công hoặc theo thuật toán (algorithmic). Việc phân loại tài liệu (document classification) theo thủ công chủ yếu thuộc về khoa học thư viện, trong khi phân loại tài liệu theo thuật toán chủ yếu thuộc về khoa học thông tin và khoa học máy tính. Tài liệu cần phân loại có thể là văn bản, hình ảnh, âm nhạc, ... Tài liệu có thể được phân loại theo chủ đề (subject) hoặc theo các thuộc tính khác (như loại tài liệu, tác giả, năm in, v.v.). Có hai triết lý chính của việc phân loại tài liệu theo chủ đề: phân loại dựa trên nội dung (content-based classification) và phân loại hướng yêu cầu (request-oriented classification).

Learning English Everyday