Word tokenization là gì?

Noun AI NLP
word-based tokenization

Word tokenization trong NLP là một loại của tokenization, là quá trình chia nhỏ một mẫu văn bản lớn thành các từ (word). Đây là một yêu cầu trong các nhiệm vụ của xử lý ngôn ngữ tự nhiên (natural language processing).

Hãy xem xét câu sau / văn bản thô: "Let us learn tokenization."

Word tokenization sẽ chia câu thành các từ. Phổ biến nhất là chia nhỏ dựa trên khoảng trắng (space).


["Let", "us", "learn", "tokenization."]

Learning English Everyday