Information gain là gì?
Noun
AI
- ★
- ★
- ★
- ★
- ★
Độ lợi thông tin
Khi cài đặt (implement) cây quyết định (decision tree), vấn đề chính nảy sinh là làm thế nào để chọn thuộc tính (attribute) tốt nhất cho nút gốc (root node) và cho các nút con (subnode). Vì vậy, để giải quyết những vấn đề như vậy, có một kỹ thuật được gọi là attribute selection measure hoặc ASM cho phép chúng ta có thể dễ dàng chọn thuộc tính tốt nhất cho các nút của cây (tree). Có hai kỹ thuật phổ biến cho ASM, đó là: độ lợi thông tin (information gain) và chỉ số gini (gini index), trong bài viết này chúng ta chỉ quan tâm độ lợi thông tin
- Độ lợi thông tin (information gain) là phép đo (measurement) những thay đổi trong entropy sau khi phân đoạn tập (segmentation) tập dữ liệu (dataset) dựa trên một thuộc tính (attribute).
- Nó tính toán lượng thông tin mà một đặc trưng (feature) cung cấp cho chúng ta về một lớp (class).
- Theo giá trị của độ lợi thông tin (information gain), chúng ta chia nút (node) và xây dựng cây quyết định (decision tree).
- Thuật toán cây quyết định luôn cố gắng tối đa hóa giá trị của độ lợi thông tin (information gain) và một nút / thuộc tính có độ lợi thông tin cao nhất được tách ra trước. Nó có thể được tính bằng công thức dưới đây:
Information Gain= Entropy(S)- [(Weighted Avg) *Entropy(each feature)
Entropy là một chỉ số (metric) để đo impurity trong một thuộc tính (attribute) nhất định. Nó chỉ định tính ngẫu nhiên trong dữ liệu. Entropy có thể được tính như sau:
Entropy(s)= -P(yes)log2 P(yes)- P(no) log2 P(no)
Trong đó:
- S = Tổng số mẫu dữ liệu (sample)
- P (có) = xác suất của yes
- P (không) = xác suất của no
Learning English Everyday