Линейная регрессия — различия между версиями
(→Сингулярное разложение) |
|||
| Строка 86: | Строка 86: | ||
=== Сингулярное разложение === | === Сингулярное разложение === | ||
| + | |||
| + | Воспользуемся понятием [https://ru.wikipedia.org/wiki/%D0%A1%D0%B8%D0%BD%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%BD%D0%BE%D0%B5_%D1%80%D0%B0%D0%B7%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5/ сингулярного разложения ], которое позволяет произвольную прямоугольную матрицу представить в виде произведения трех матриц: | ||
| + | |||
| + | <tex> F = V D U^T </tex>. | ||
| + | |||
| + | Основные свойства сингулярного разложения: | ||
| + | |||
| + | * <tex> l \times n </tex>-матрица <tex> V = (v_1, \dots, v_n) </tex> ортогональна, <tex> V^T V = I_n </tex>, <br> столбцы <tex> v_j </tex> — собственные векторы матрицы <tex> F F^T </tex>; | ||
| + | * <tex> n \times n </tex>-матрица <tex> U = (u_1, \dots, u_n) </tex> ортогональна, <tex> U^T U = I_n </tex>, <br> столбцы <tex> u_j </tex> — собственные векторы матриц <tex> F^T F </tex>; | ||
| + | * <tex> n \times n </tex>-матрица <tex> D </tex> диагональна, <tex> D = diag(\sqrt{\lambda_1}, \dots, \sqrt{\lambda_n}) </tex>, <br> <tex> \lambda_j \geq 0 </tex> — собственные значения матриц <tex> F^T F </tex> и <tex> F F^T </tex>, <br> <tex> \sqrt{ \lambda_j } </tex> — сингулярные числа матрицы <tex> F </tex>. | ||
| + | |||
| + | === Решение МНК через сингулярное разложение === | ||
Версия 18:11, 11 марта 2019
Линейная регрессия (англ. linear regression) — метод восстановления зависимости одной (объясняемой, зависимой) переменной от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) с линейной функцией зависимости. Данный метод позволяет предсказывать значения зависимой переменной по значениям независимой переменной .
Содержание
Задача
Дано
- - числовые признаки
- модель многомерной линейной регрессии:
где
- обучающая выборка: множество из пар
- - объекты из множества
- - объекты из множества
Матричные обозначения
Перейдем к матричным обозначениям:
, где
- - матрица объектов-признаков, где строки соответствуют объектам а столбцы - признакам
- - вектор ответов, или целевой вектор
- - вектор коэффициентов
Постановка задачи
В этих трех векторно-матричных обозначениях очень удобно расписать постановку задачи наименьших квадратов:
Необходимо найти вектор при известной матрице и известном вектор-столбце .
Решение
Нормальная система уравнений
Запишем необходимые условия минимума в матричном виде.
Отсюда следует нормальная система задачи МНК:
,
где матрица
Мы получили систему уравнений, откуда можем выразить искомый вектор .
Решение системы
.
Значение функционала: ,
где - проекционная матрица
Проблемы
В случае мультиколлинеарности (столбцы матрицы линейно-зависимы) нам не удастся найти обратную матрицу к (она будет вырождена).
Если же столбцы матрицы почти линейно-зависимы, то у нас возникнет масса вычислительных проблем с обращением этой матрицы.
Сингулярное разложение
Воспользуемся понятием сингулярного разложения , которое позволяет произвольную прямоугольную матрицу представить в виде произведения трех матриц:
.
Основные свойства сингулярного разложения:
- -матрица ортогональна, ,
столбцы — собственные векторы матрицы ; - -матрица ортогональна, ,
столбцы — собственные векторы матриц ; - -матрица диагональна, ,
— собственные значения матриц и ,
— сингулярные числа матрицы .