Data extraction là gì?
- ★
- ★
- ★
- ★
- ★
Trích xuất dữ liệu (data extraction) là hành động hoặc quá trình truy xuất dữ liệu từ các nguồn dữ liệu (thường là phi cấu trúc hoặc có cấu trúc kém) để xử lý dữ liệu thêm hoặc lưu trữ dữ liệu (data migration).
Thông thường, thuật ngữ trích xuất dữ liệu (data extraction) được áp dụng khi dữ liệu lần đầu tiên được nhập (import) vào máy tính từ các nguồn chính, như thiết bị đo (measuring device) hoặc thiết bị ghi (recording device). Các thiết bị điện tử ngày nay thường có mối nối điện (electrical connector) ví dụ như USB, qua đó dữ liệu thô (raw data) có thể được truyền vào máy tính cá nhân.
Các nguồn dữ liệu phi cấu trúc điển hình bao gồm các trang web, email, tài liệu (document), PDF, tập tin lưu trữ tạm (spool file), v.v. được sử dụng nhiều hơn cho việc bán hàng hoặc tiếp thị. Việc trích xuất dữ liệu từ các nguồn phi cấu trúc này đã trở thành một thách thức kỹ thuật đáng kể, trong đó việc trích xuất dữ liệu (data extraction) trong lịch sử phải đối phó với những thay đổi trong định dạng phần cứng vật lý, phần lớn việc trích xuất dữ liệu (data extraction) hiện tại liên quan đến việc trích xuất dữ liệu từ các nguồn dữ liệu phi cấu trúc này và từ các định dạng phần mềm khác nhau . Quá trình trích xuất dữ liệu (data extraction) ngày càng tăng này từ web được gọi là web data extraction hoặc web scraping.
Learning English Everyday