Регрессионная модель
Определение
экономико-статистическая модель, основанная на уравнении регрессии, или системе регрессионных уравнений, связывающих величины экзогенных (входных, “объясняющих”) и эндогенных (выходных) переменных
Виды моделей
Планы Множественной регрессии используются для анализа непрерывных предикторов, так же как, планы Дисперсионного анализа главных эффектов предназначены для категориальных предикторов. Множественная регрессия является простой регрессией для 2 или большего числа непрерывных предикторов.
Например, уравнение регрессии для эффектов первого порядка 3 непрерывных предикторов P, Q и R будет выглядеть следующим образом
Y = b0 + b1P + b2Q + b3R
Простая регрессия
В планах простой регрессии используется только один непрерывный предиктор.
Предположим, что у нас есть три наблюдения непрерывного предиктора P: 7, 4, и 9, и есть план анализа для эффекта первого порядка P. Тогда матрица X будет выглядеть следующим образом:
уравнения регрессии с использованием P для X1 будет выглядеть следующим образом:
Y = b0 + b1P
Если план простой регрессии использует эффекты более высокого порядка P, например, квадратичный эффект то, значения столбца X1 матрицы плана будут возведены во 2ую степень:
уравнения регрессии с использованием P2 для X1 будет выглядеть следующим образом:
Y = b0 + b1P2
В регрессионных планах, значения непрерывного предиктора возводятся в необходимую степень и затем используются в качестве X переменных. Как вы видите, при описании регрессионного плана, намного проще использовать регрессионное уравнение в отличие от матрицы плана X.
Факторная регрессия является аналогом факторного Дисперсионного анализа, планы регрессии содержат различные комбинации уровней факторов. Однако, в факторной регрессии, возможное число сочетаний уровней непрерывного предиктора может быть намного больше числа наблюдений. Не вдаваясь в подробности, полный факторный регрессионный план определяется как, план в котором представлены все возможные наблюдения непрерывных предикторов.
Например, полный факторный регрессионный план для двух непрерывных предикторов P и Q будет содержать главные эффекты (т.е., эффекты первого порядка) P и Q и эффект их 2-го P на Q взаимодействия, который является произведением значений P и Q, для каждого наблюдения. Уравнение регрессии будет выглядеть следующим образом:
Y = b0 + b1P + b2Q + b3P*Q
Факторный регрессионный план может быть также и дробным, при этом эффекты более высокого порядка можно убрать из плана. Например, дробный факторный регрессионный план 2 степени для 3 непрерывных предикторов P, Q и R будет содержать главные эффекты и все 2-ые взаимодействия предикторов:
Y = b0 + b1P + b2Q + b3R + b4P*Q + b5P*R + b6Q*R
Полиномиальная регрессия
Планы полиномиальной регрессии содержат как главные эффекты, так и эффекты более высоких порядков непрерывных переменных, но при этом не включают в себя взаимодействия предикторов.
Например, план полиномиальной регрессии 2 порядка для трех непрерывных предикторов P, Q и R будет содержать главные эффекты (т.е., эффекты первого порядка) переменных P, Q, R и их квадратические (т.е., второго порядка) эффекты но, при этом в план не будут включены 2-ые взаимодействия и эффект тройного взаимодействия P на Q на R.
Y = b0 + b1P + b2P2 + b3Q + b4Q2 + b5R + b6R2
Максимальная степень эффектов полиномиальной регрессии может быть разной для разных предикторов. Например, для одного предиктора заданы все эффекты до третьего порядка, а для другого - до четвертого порядка.
Классификация переменных
Экзогенные и эндогенные
Значения экзогенных задаются извне, это независимые переменные, которые "объясняют" значение результата. Эндогенной называют переменную, которая находится в результате расчета по построенной модели при заданных экзогенных переменных.
Лаговые переменные
Это переменные, при анализе текущего периода значения которых должны быть взяты не за текущий, а за отстоящий от него на определенное расстояние (количество периодов, лаг) предыдущий период. Хорошим примером может стать выработка работника и его заработная плата: сначала работник производит продукцию, и лишь спустя определенное время ему выплачивают заработную плату.
Предопределенные переменные
Это экзогенные переменные вместе с их лаговыми значениями и лаговые значения эндогенных переменных в предыдущие моменты времени, которые служат для нахождения значений эндогенных переменных в данный момент времени.Предопределенные переменные. Это экзогенные переменные вместе с их лаговыми значениями и лаговые значения эндогенных переменных в предыдущие моменты времени, которые служат для нахождения значений эндогенных переменных в данный момент времени.
Методы оценки параметров
1 МНК
Суть метода. Минимизация суммы квадратов, ошибок, за счет линия регрессии становится ближе всего по всем точкам одновременно.
Формула
ОМНК
Обобщённый метод наименьших квадратов — метод оценки параметров регрессионных моделей, являющийся обобщением классического метода наименьших квадратов. Обычно обобщённым методом наименьших квадратов называют частный случай, когда в качестве весовой матрицы используется матрица, обратная ковариационной матрице случайных ошибок модели.
Формула
Когда нарушены условия Гаусса – Маркова, касающиеся характера случайных остатков, а именно:
– гомоскедастичность (постоянство дисперсии) случайных остатков;
– некоррелированность остатков между собой.
Нарушение этих условий означает, что ковариационная матрица остатков Ω не является скалярной. Она будет иметь вид
Формула для расчета вектора-столбца неизвестных параметров с помощью обычного МНК в матричной форме имеет вид
ВМНК
Если ковариационная матрица ошибок диагональная (имеется гетероскедастичность ошибок, но нет автокорреляции), то обобщённая сумма квадратов является фактически взвешенной суммой квадратов, где веса обратно пропорциональны дисперсиям ошибок. В этом случае говорят о взвешенном МНК (ВМНК). Преобразование P в данном случае заключается в делении данных на среднеквадратическое отклонение случайных ошибок. К взвешенным таким образом данным применяется обычный МНК.
Как и в общем случае, дисперсии ошибок неизвестны и их необходимо оценить из тех же данных. Поэтому делают некоторые упрощающие предположения о структуре гетероскедастичности.
Применяем взвешенный МНК, минимизируя сумму
Методы оценки качества регрессионной модели
Статистика Фишера (F-тест, F-статистика) используется для оценки значимости модели в целом.
Выдвигается гипотеза H0 о незначимости всех коэффициентов модели (коэффициенты при всех регрессорах равны нулю).
Для проверки этой гипотезы F-статистика следующего вида:
Если , то при заданном уровне значимости α принимается гипотеза о значимости модели в целом.
Если , то при заданном уровне значимости α гипотеза о значимости модели в целом отвергается.
T-статистика (t-критерий Стьюдента) используется для проверки значимости каждого фактора регрессионной модели. Выдвигается гипотеза о равенстве коэффициента нулю.
Значение t-статистики сравнивается с критическим, имеющим распределение Стьюдента с (n-k-1) степенями свободы.
Если , то при заданном уровне значимости α принимается гипотеза о значимости коэффициента, неравному 0.
Если , то при заданном уровне значимости α принимается гипотеза о незначимости коэффициента, равному 0.