Web scraping là gì?

Noun Web
web data extraction screen scraping web harvesting

Web scraping là data scraping được sử dụng để trích xuất dữ liệu từ các website. Phần mềm web scraping có thể truy cập trực tiếp vào World Wide Web bằng giao thức HTTP hoặc trình duyệt web. Mặc dù người dùng phần mềm có thể thực hiện web scraping theo cách thủ công, nhưng thuật ngữ này thường đề cập đến các quy trình tự động được thực hiện bằng cách sử dụng bot hoặc web crawler. Đây là một hình thức sao chép trong đó dữ liệu cụ thể được thu thập và sao chép từ web, thường vào cơ sở dữ liệu cục bộ trung tâm hoặc bảng tính (spreadsheet) để truy xuất hoặc phân tích sau này.

Web scraping một trang web bao gồm việc tìm nạp (fetching) và trích xuất (extracting) từ ​​nó. Tìm nạp là tải xuống một trang (trình duyệt thực hiện khi người dùng xem một trang). Do đó, web crawling là một thành phần chính của quá trình tìm kiếm trang web, để tìm nạp các trang cho quá trình xử lý sau này. Sau khi tìm nạp, quá trình trích xuất có thể diễn ra. Nội dung của một trang có thể được phân tích cú pháp, tìm kiếm, định dạng lại, dữ liệu của nó được sao chép vào bảng tính hoặc được tải vào cơ sở dữ liệu. Những người làm web scraping (web scraper) thường lấy một thứ gì đó ra khỏi một trang, để sử dụng nó cho một mục đích khác ở một nơi khác. Một ví dụ sẽ là tìm và sao chép tên và số điện thoại, hoặc các công ty và URL của họ, hoặc địa chỉ e-mail vào một danh sách (contact scraping).

Learning English Everyday