Character tokenization là gì?
Noun
AI
- ★
- ★
- ★
- ★
- ★
character-based tokenization
Character tokenization trong NLP là một loại của tokenization, nó phân tách từng phần văn bản thành một tập hợp các ký tự (character).
Hãy xem xét câu sau / văn bản thô: "Let us learn tokenization."
Một character tokenization sẽ chia câu thành các ký tự.
[“L”, “e”, “t”, “u”, “s”, “l”, “e”, “a”, “r”, “n”, “t”, “o”, “k”, “e”, “n”, “i”, “z”, “a”, “t”, “i”, “o”, “n”, “.”]
Learning English Everyday