Stop word là gì?

Noun AI
Từ dừng

Từ dừng (stop word) là một từ thường được sử dụng phổ biến trong ngôn ngữ (chẳng hạn như "the", "a", "an", "in"). Từ dừng là những từ trong bất kỳ ngôn ngữ nào không bổ sung nhiều ý nghĩa cho một câu. Chúng có thể được bỏ qua một cách an toàn mà không làm mất đi ý nghĩa của câu.

Các từ dừng (stop word) thường được xóa khỏi văn bản trước khi huấn luyện (training) mô hình học sâu (deep learning model) và học máy (machine learning model) vì các từ dừng (stop word) xuất hiện rất nhiều, do đó cung cấp ít hoặc không có thông tin duy nhất có thể được sử dụng để phân loại (classification) hoặc phân cụm (clustering). Khi loại bỏ các từ dừng (stop word) , kích thước tập dữ liệu (dataset) giảm và thời gian huấn luyện mô hình cũng giảm mà không ảnh hưởng lớn đến độ chính xác (accuracy) của mô hình.

Nếu chúng ta có nhiệm vụ phân loại văn bản (text classification) hoặc phân tích quan điểm (sentiment analysis) thì chúng ta nên xóa các từ dừng (stop word) vì chúng không cung cấp bất kỳ thông tin nào cho mô hình (model) của chúng ta, tức là loại bỏ các từ không mong muốn ra khỏi kho ngữ liệu (corpus) của chúng ta, nhưng nếu chúng ta có nhiệm vụ dịch ngôn ngữ (language translation) thì các từ dừng (stop word) sẽ hữu ích, vì chúng phải được dịch cùng với các từ khác.

Learning English Everyday