Предварительная обработка данных
Версия от 17:50, 29 июня 2022; Kirill112002 (обсуждение | вклад) (Kirill112002 переименовал страницу Предобработка данных в Предварительная обработка данных)
Базовые методы нормализации данных
Применяются независимо к столбцу X
Важно в sklearn.preprocessing есть метод normalize, но это не то, что нам нужно, он рассматривает нормализацию с геометрической точки зрения (представляет объект в виде вектора), а не по столбцам
Минмакс, [0;1] масштабирование
После нормализации: и
Стандартизация, Z-масштабирование
После нормализации: и
Декорреляция
1. Есть матрица X.
2. Матрицу центрировали ().
3. Ковариация вычисляется по следующей формуле:
4. Если же матрица нормализована так, что , то из произведения мы получим не ковариационную, а корреляционную матрицу
5. Декорреляция вычисляется по формуле:
где находится из разложения Холецкого
| Утверждение: |
После декорреляции: |
|
. |