Lexical analysis là gì?

Phrase None
Phân tích từ vựng

Trong khoa học máy tính, phân tích từ vựng (lexical analysis) là giai đoạn đầu tiên khi trình biên dịch quét mã nguồn, có nhiệm vụ chuyển đổi một chuỗi ký tự thành chuỗi có nghĩa; những chuỗi có ý nghĩa này được gọi là token. Một chương trình thực hiện phân tích từ vựng (lexical analysis) được gọi là lexical analyzer, lexer, hoặc tokenizer. Chương trình này thường được sử dụng cùng với một thành phần phần mềm (được gọi là parser) để chuyển đổi chuỗi (string) thành dữ liệu có cấu trúc.

Phân tích từ vựng (lexical analysis) và lexical parsing được sử dụng bởi các chương trình như trình biên dịch (compiler) sử dụng dữ liệu được phân tích cú pháp từ code của lập trình viên để tạo file thực thi nhị phân đã biên dịch. Chúng cũng được trình duyệt web (web browser) sử dụng để định dạng và hiển thị một trang web bằng cách sử dụng dữ liệu được phân tích cú pháp từ HTML, CSS và JavaScript.

Các chức năng chính của giai đoạn này là:

  • Xác định các lexical unit trong mã nguồn
  • Phân loại các lexical unit thành các lớp như hằng số (constant), từ dành riêng (reserved word). Nó sẽ bỏ qua các comment trong chương trình nguồn (source program).
  • Xác định token không phải là một phần của ngôn ngữ

Ví dụ:


x = y + 10

Các token:

X identifier
= Assignment operator
Y identifier
+ Addition operator
10 Number
Learning English Everyday