Subword tokenization là gì?
Noun
AI
- ★
- ★
- ★
- ★
- ★
subword-based tokenization n-gram character tokenization
Subword tokenization trong NLP là một loại của tokenization, nó chia đoạn văn bản thành các từ con (subword). Ví dụ: các từ như lower có thể được phân đoạn thành low-er, smartest là smart-est, v.v.
Hãy xem xét câu sau / văn bản thô: "Let us learn tokenization."
Subword tokenization sẽ chia câu thành các từ con (subword).
[“Let”, “us”, “learn”, “token”, “ization.”]
Learning English Everyday