High dimensional data là gì?

Noun AI
Dữ liệu chiều cao

Dữ liệu chiều cao (high dimensional data) đề cập đến một tập dữ liệu (dataset) trong đó số lượng đặc trưng (feature) p lớn hơn số lượng quan sát (observation) N, thường được viết là p >> N.

Ví dụ: một tập dữ liệu có p = 6 đặc trưng và chỉ N = 3 quan sát sẽ được coi là dữ liệu chiều cao (high dimensional data) vì số lượng đặc trưng lớn hơn số lượng quan sát.

Một sai lầm phổ biến mà mọi người mắc phải là giả định rằng dữ liệu chiều cao (high dimensional data) chỉ đơn giản là một tập dữ liệu có rất nhiều đặc trưng. Tuy nhiên, điều đó không chính xác. Một tập dữ liệu có thể có 10.000 đặc trưng, nhưng nếu nó có 100.000 quan sát thì nó không phải là dữ liệu chiều cao (high dimensional data).

Learning English Everyday