Tokenization là gì?

Noun None

Tokenization là hành động chia nhỏ một chuỗi các chuỗi (string) thành nhiều phần như từ (word), từ khóa (keyword), cụm từ (phrase), ký hiệu (symbol) và các thành phần khác được gọi là token. Token có thể là các từ, cụm từ riêng lẻ hoặc thậm chí cả câu. Trong quá trình tokenization, một số ký tự như dấu chấm câu (punctuation mark) sẽ bị loại bỏ. Các token trở thành đầu vào cho một quá trình khác như phân tích cú pháp (parsing) và khai phá văn bản (text mining). Tokenization được sử dụng trong khoa học máy tính, đóng một vai trò quan trọng trong quá trình phân tích từ vựng (lexical analysis).

Noun AI NLP

Tokenization trong NLP là một cách tách một cụm từ, câu, đoạn văn, một hoặc nhiều tài liệu văn bản thành các đơn vị nhỏ hơn được gọi là token. Ở đây, token có thể là từ (word), ký tự (character) hoặc từ con (subword). Do đó, tokenization có thể được phân loại rộng rãi thành 3 loại: word tokenization, character tokenization, subword tokenization. Cách phổ biến nhất để hình thành token là dựa trên khoảng trắng.

Learning English Everyday