Text corpus là gì?

Noun AI NLP
Ngữ liệu văn bản

Trong ngữ cảnh của xử lý ngôn ngữ tự nhiên (NLP), ngữ liệu văn bản (text corpus) đề cập đến tập hợp các văn bản được sử dụng cho tác vụ. Ví dụ: nếu chúng ta đang xây dựng một mô hình (model) để phân tích các bài báo, kho ngữ liệu văn bản (text corpus) của chúng ta sẽ là toàn bộ các bài báo hoặc bài báo mà chúng ta sử dụng để huấn luyện (train) và đánh giá (evaluate) mô hình.

Learning English Everyday