Token là gì?

Noun Programming
lexical unit lexical element

Trong lập trình, token là một phần tử duy nhất của ngôn ngữ lập trình. Có năm loại token: 1) hằng số (constant), 2) định danh (identifier), 3) toán tử (operator), 4) dấu phân cách (separator) và 5) từ dành riêng (reserved word). Ví dụ: các từ dành riêng "new" và "function" là token của ngôn ngữ JavaScript. Các toán tử, chẳng hạn như +, -, * và /, cũng là token của gần như tất cả các ngôn ngữ lập trình.

Noun Network

Trong mạng, token là một chuỗi các bit lưu thông trên mạng token ring (token-ring network). Khi một trong các hệ thống trên mạng có "token" nó có thể gửi thông tin đến các máy tính khác. Vì chỉ có một token cho mỗi mạng token ring nên chỉ có một máy tính có thể gửi dữ liệu tại một thời điểm.

Noun Programming

Trong biểu thức chính quy (regular expression), token là một phần tử trong biểu thức chính quy. Ví dụ với biểu thức chính "^4$" thì "^", "4" và "$" là các token.

Noun Complier
terminal

Khi nói về trình biên dịch (complier), token là một cặp bao gồm hai thành phần dưới dạng <token-name, attribute-value> trong đó token-name là tên của token và attribute-value là giá trị thuộc tính . Tên của token là một ký hiệu trừu tượng đại diện cho một loại đơn vị từ vựng (lexical unit) ví dụ: một từ khóa (keyword) cụ thể hoặc chuỗi các ký tự đầu vào biểu thị một identifier. Giá trị thuộc tính nếu có trỏ đến một mục (entry) trong symbol table chứa thông tin bổ sung về cho token này. Ví dụ với câu lệnh gán như bên dưới:


position = initial + rate * 60

position là một lexeme sẽ được ánh xạ thành một token <id, 1>. Trong đó id là một ký hiệu trừu tượng đại diện cho identifier và 1 sẽ trỏ đến một mục của symbol table cho position

Ký hiệu gán = là một lexeme được ánh xạ vào token . Vì token này không cần giá trị thuộc tính nên chúng tôi đã bỏ qua thành phần thứ hai. Chúng ta có thể đã sử dụng bất kỳ ký hiệu trừu tượng nào như assign cho tên token, nhưng để thuận tiện cho việc ghi chú, chúng ta đã chọn sử dụng chính lexeme làm tên của ký hiệu trừu tượng (tức là dấu =).

Trong câu lệnh gán trên còn năm lexeme nữa nhưng vì ví dụ nên chúng tôi chỉ giới thiệu hai lexeme là position và =.

Từ token đồng nghĩa với ký hiệu kết thúc (terminal).

Noun AI NLP

Xem thuật ngữ tokenization trong xử lý ngôn ngữ tự nhiên (NLP) để hiểu thuật ngữ token.

Learning English Everyday