Gini index là gì?

Noun AI
gini impurity
Chỉ số gini

Khi cài đặt (implement) cây quyết định (decision tree), vấn đề chính nảy sinh là làm thế nào để chọn thuộc tính (attribute) tốt nhất cho nút gốc (root node) và cho các nút con (subnode). Vì vậy, để giải quyết những vấn đề như vậy, có một kỹ thuật được gọi là attribute selection measure hoặc ASM cho phép chúng ta có thể dễ dàng chọn thuộc tính tốt nhất cho các nút của cây (tree). Có hai kỹ thuật phổ biến cho ASM, đó là: độ lợi thông tin (information gain) và chỉ số gini (gini index), trong bài viết này chúng ta chỉ quan tâm chỉ số gini (gini index).

  • Chỉ số gini là thước đo impurit hoặc purity được sử dụng trong khi tạo cây quyết định (decision tree) trong thuật toán CART (Classification and Regression Tree).
  • Thuộc tính (attribute) có chỉ số gini thấp nên được ưu tiên hơn so với chỉ số gini cao.
  • Nó chỉ tạo ra các phân tách nhị phân (binary split) và thuật toán CART sử dụng chỉ số gini để tạo phân tách nhị phân.
  • Chỉ số gini có thể được tính bằng công thức dưới đây:
Gini Index= 1- ∑jPj2
Learning English Everyday