Tokenizer là gì?

Noun AI NLP

Tokenizer là một thuật toán có nhiệm vụ tách từ, cụm từ trong văn bản và là 1 nhánh con trong xử lý ngôn ngữ tự nhiên (NLP).

Trong ngôn ngữ từ có thể được coi là các yếu tố nhỏ nhất trong ngôn ngữ tự nhiên. Tokenizer là một thuật toán có nhiệm vụ tách từ, cụm từ trong văn bản. Ví dụ: Phiên điều trần luận tội → Phiên/điều trần/luận tội. Có 2 loại tokenizer thường dùng là POS và NER. Có thể nói tokenizer chính là vấn đề rất quan trọng trong xử lý ngôn ngữ tự nhiên, giải quyết được bài toán này rất quan trọng và ứng dụng rất nhiều trong các bài toán phức tạp hơn như phân loại (classification), hồi quy (regression).

Learning English Everyday