Term frequency là gì?

Noun AI

Term frequency (TF) có nghĩa là tần suất một term xuất hiện trong một tài liệu (document). Trong ngữ cảnh của ngôn ngữ tự nhiên (natural language), các term tương ứng với các từ (word) hoặc cụm từ (phrase). Nhưng các term cũng có thể đại diện cho bất kỳ mã token nào trong văn bản (text). Tất cả là về cách bạn xác định nó. Term frequency thường được sử dụng trong các tác vụ khai thác văn bản (text mining), học máy (machine learning) và truy xuất thông tin (information retrieval).

Vì các tài liệu có thể có độ dài khác nhau, nên có thể một term sẽ xuất hiện thường xuyên hơn trong các tài liệu dài hơn so với các tài liệu ngắn hơn. Bởi vì điều này, có vẻ như một term quan trọng hơn đối với một tài liệu dài hơn là một tài liệu ngắn hơn. Để giảm bớt ảnh hưởng này, term frequency thường được chia cho tổng số term trong tài liệu như một cách chuẩn hóa (normalization).

TF(t) = (Number of times term t appears in a document) / (Total number of terms in the document).

Có những cách khác để chuẩn hóa term frequency bao gồm sử dụng maximum term frequency trong tài liệu cũng như average term frequency. Sẽ mất một số thử nghiệm để quyết định sử dụng kỹ thuật chuẩn hóa nào.

Learning English Everyday