Stemming là gì?

Noun AI

Stemming trong xử lý ngôn ngữ tự nhiên (NLP) là quá trình loại bỏ một phần của từ, hoặc giảm một từ thành từ gốc (root word) của nó. Điều này có thể không nhất thiết có nghĩa là chúng ta đang giảm một từ xuống gốc từ điển (dictionary root) của nó. Chúng ta sử dụng một số thuật toán để quyết định cách cắt một từ. Phần lớn, điều này khác với việc bổ ngữ (lemmatization), tức là rút gọn một từ thành gốc từ điển của nó, phức tạp hơn và cần một lượng kiến ​​thức rất cao về một ngôn ngữ.

Giả sử chúng ta có một tập hợp các từ send, sent và sending. Tất cả ba từ là các thì (tense) khác nhau của cùng một từ gốc là send. Vì vậy, sau khi chúng ta rút gọn (stem) các từ, chúng ta sẽ chỉ có một từ send. Tương tự, nếu chúng ta có các từ ask, asking và asked, chúng ta có thể áp dụng các thuật toán stemming (stemming algorithm) để lấy từ gốc ask.

Learning English Everyday