Subword tokenization là gì?

Noun AI
subword-based tokenization n-gram character tokenization

Subword tokenization trong NLP là một loại của tokenization, nó chia đoạn văn bản thành các từ con (subword). Ví dụ: các từ như lower có thể được phân đoạn thành low-er, smartest là smart-est, v.v.

Hãy xem xét câu sau / văn bản thô: "Let us learn tokenization."

Subword tokenization sẽ chia câu thành các từ con (subword).


[“Let”, “us”, “learn”, “token”, “ization.”]

Learning English Everyday