Word embedding là gì?

Noun AI

Word embedding là một loại phương pháp tiếp cận để biểu diễn các từ (word) và tài liệu (document) bằng cách sử dụng biểu diễn vectơ dày (dense vector). Đây là một cải tiến hơn so với túi từ (bag-of-word) truyền thống trong đó các vectơ thưa (sparse vector) được sử dụng để đại diện cho từng từ hoặc cho score từng từ trong một vectơ để đại diện cho toàn bộ từ vựng (vocabulary). Các biểu diễn này thưa thớt bởi vì các từ vựng rất lớn và một từ hoặc tài liệu nhất định sẽ được biểu diễn bằng một vectơ lớn bao gồm hầu hết các giá trị bằng không. Thay vào đó, trong embedding, word các từ được biểu diễn bằng các vectơ dày, trong đó một vectơ biểu thị hình chiếu (projection) của từ vào một không gian vectơ (vector space) liên tục. Vị trí của một từ trong không gian vectơ được học từ văn bản và dựa trên các từ bao quanh từ đó khi nó được sử dụng. Vị trí của một từ trong không gian vectơ đã học được gọi là embedding của nó.

Hai ví dụ phổ biến về word embedding bao gồm: Word2Vec và GloVe. Ngoài các phương pháp này, word embedding có thể được học như một phần của mô hình học sâu (deep learning model).

Learning English Everyday