Fault tolerance là gì?
- ★
- ★
- ★
- ★
- ★
Khả năng chịu lỗi (fault tolerance) đề cập đến khả năng của một hệ thống (máy tính, mạng, cluster, v.v.) tiếp tục hoạt động mà không bị gián đoạn khi một hoặc nhiều thành phần (component) của nó bị lỗi.
Mục tiêu của việc tạo ra một hệ thống có khả năng chịu lỗi là để ngăn chặn sự gián đoạn phát sinh từ một điểm lỗi duy nhất (single point of failure), đảm bảo tính khả dụng cao (high availability) và tính liên tục kinh doanh (business continuity) của các ứng dụng hoặc hệ thống quan trọng.
Hệ thống chịu lỗi sử dụng các thành phần dự phòng tự động thay thế các thành phần bị lỗi, đảm bảo không mất dịch vụ. Bao gồm:
- Hệ thống phần cứng (hardware system) được sao lưu bởi các hệ thống giống hệt nhau hoặc tương đương. Ví dụ, một máy chủ (server ) có thể được thực hiện khả năng chịu lỗi (fault tolerant) bằng cách sử dụng một máy chủ giống hệt chạy song song, với tất cả các hoạt động được sao chép với máy chủ dự phòng.
- Hệ thống phần mềm (software system) được sao lưu bởi các phiên bản phần mềm khác. Ví dụ, một cơ sở dữ liệu (database) với thông tin khách hàng có thể được sao chép liên tục sang một máy khác. Nếu cơ sở dữ liệu chính gặp sự cố, các hoạt động có thể được tự động chuyển hướng đến cơ sở dữ liệu thứ hai.
- Các nguồn điện (power source) có khả năng chịu lỗi (fault tolerant) bằng cách sử dụng các nguồn điện thay thế. Ví dụ, nhiều tổ chức có máy phát điện có thể thay thế trong trường hợp đường dây chính bị sự cố.
Theo cách tương tự, bất kỳ hệ thống hoặc thành phần nào là một điểm lỗi duy nhất đều có thể được thực hiện khả năng chịu lỗi bằng cách sử dụng dự phòng. Khả năng chịu lỗi (fault tolerance) có thể đóng một vai trò trong chiến lược khắc phục hậu quả thiên tai. Ví dụ: các hệ thống có khả năng chịu lỗi với các thành phần dự phòng trên cloud có thể nhanh chóng khôi phục các hệ thống quan trọng, ngay cả khi thảm họa tự nhiên hoặc do con người gây ra phá hủy cơ sở hạ tầng CNTT on-premise.
Learning English Everyday