Оценка значимости коэффициентов регрессии осуществляется на основе. Оценка значимости уравнения регрессии и его параметров


Оценка статистической значимости параметров и уравнения в целом – это обязательная процедура, которая позволяет сделать ввод о возможности использования построенного уравнения связи для принятия управленческих решений и прогнозирования.

Оценка статистической значимости уравнения регрессии осуществляется с использованием F-критерия Фишера, который представляет собой отношение факторной и остаточных дисперсий, рассчитанных на одну степень свободы.

Факторная дисперсия – объясненная часть вариации признака-результата, то есть обусловленная вариацией тех факторов, которые включены в анализ (в уравнение):

где k – число факторов в уравнении регрессии (число степеней свободы факторной дисперсии); - среднее значение зависимой переменной; - теоретическое (рассчитанное по уравнению регрессии) значение зависимой переменной у i – й единицы совокупности.

Остаточная дисперсия – необъясненная часть вариации признака-результата, то есть обусловленная вариацией прочих факторов, не включенных в анализ.

= , (71)

где - фактическое значение зависимой переменной у i – й единицы совокупности; n-k-1 – число степеней свободы остаточной дисперсии; n – объем совокупности.

Сумма факторной и остаточной дисперсий, как отмечалось выше, есть общая дисперсия признака-результата.

F-критерия Фишера рассчитывается по следующей формуле:

F-критерий Фишера – величина, отражающая соотношение объясненной и необъясненной дисперсий, позволяет ответить на вопрос: объясняют ли включенные в анализ факторы статистическую значимую часть вариации признака-результата. F-критерий Фишера табулирован (входом в таблицу является число степеней свободы факторной и остаточной дисперсий). Если , то уравнение регрессии признается статистически значимым и, соответственно, статистически значим коэффициент детерминации. В противном случае, уравнение – статистически не значимо, т.е. не объясняет существенной части вариации признака-результата.

Оценка статистической значимости параметров уравнения осуществляется на основе t-статистики, которая рассчитывается как отношение модуля параметров уравнения регрессии к их стандартным ошибкам ():

, где ; (73)

, где . (74)

В любой статистической программе расчет параметров всегда сопровождается расчетом значений их стандартных (среднеквадратических) ошибок и t-статистики. Параметр признаются статистически значимым, если фактическое значение t-статистики больше табличного.

Оценка параметров на основе t-статистики, по существу, является проверкой нулевой гипотезы о равенстве генеральных параметров нулю (H 0: =0; H 0: =0;), то есть о не значимости параметров уравнения регрессии. Уровень значимости принятия нулевых гипотез = 1-0,95=0,05 (0,95 – уровень вероятности, как правило, устанавливаемый в экономических расчетах). Если расчетный уровень значимости меньше 0,05 , то нулевая гипотеза отвергается и принимается альтернативная - о статистической значимости параметра.

Проводя оценку статистической значимости уравнения регрессии и его параметров, мы можем получить различное сочетание результатов.

· Уравнение по F-критерию статистически значимо и все параметры уравнения по t-статистике тоже статистически значимы. Данное уравнение может быть использовано как для принятия управленческих решений (на какие факторы следует воздействовать, чтобы получить желаемый результат), так и для прогнозирования поведения признака-результата при тех или иных значениях факторов.

· По F-критерию уравнение статистически значимо, но незначимы отдельные параметры уравнения. Уравнение может быть использовано для принятия управленческих решений (касающихся тех факторов, по которым получено подтверждение статистической значимости их влияния), но уравнение не может быть использовано для прогнозирования.

· Уравнение по F-критерию статистически незначимо. Уравнение не может быть использовано. Следует продолжить поиск значимых признаков-факторов или аналитической формы связи аргументов и отклика.

Если подтверждена статистическая значимость уравнения и его параметров, то может быть реализован, так называемый, точечный прогноз, т.е. рассчитывается вероятное значение признака-результата (y) при тех или иных значениях факторов (x). Совершенно очевидно, что прогнозное значение зависимой переменной не будет совпадать с фактическим ее значением. Это связано, прежде всего, с самой сутью корреляционной зависимости. Одновременно на результат воздействует множество факторов, из которых только часть может быть учтена в уравнении связи. Кроме того, может быть неверно выбрана форма связи результата и факторов (тип уравнения регрессии). Между фактическими значениями признака-результата и его теоретическими (прогнозными) значениями всегда существует различие (). Графически эта ситуация выражается в том, что не все точки поля корреляции лежат на линии регрессии. Лишь при функциональной связи линия регрессии пройдет через все точки поля корреляции. Разность между фактическими и теоретическими значениями результативного признака называют отклонениями или ошибками, или остатками. На основе этих величин и рассчитывается остаточная дисперсия, являющаяся оценкой среднеквадратической ошибки уравнения регрессии. Величина стандартной ошибки используется для расчета доверительных интервалов прогнозного значения признака-результата (Y).

Оценка значимости уравнения множественной регрессии

Построение эмпирического уравнения регрессии является начальным этапом эконометрического анализа. Первое же построенное по выборке уравнение регрессии очень редко является удовлетворительным по тем или иным характеристикам. Поэтому следующей важнейшей задачей эконометрического анализа является проверка качества уравнения регрессии. В эконометрике принята устоявшаяся схема такой проверки.

Итак, проверка статистического качества оцененного уравнения регрессии проводится по следующим направлениям:

· проверка значимости уравнения регрессии;

· проверка статистической значимости коэффициентов уравнения регрессии;

· проверка свойств данных, выполнимость которых предполагалась при оценивании уравнения (проверка выполнимости предпосылок МНК).

Проверка значимости уравнения множественной регрессии, так же как и парной регрессии, осуществляется с помощью критерия Фишера. В данном случае (в отличие от парной регрессии) выдвигается нулевая гипотеза Н 0 о том, что все коэффициенты регрессии равны нулю (b 1 =0, b 2 =0, … , b m =0). Критерий Фишера определяется по следующей формуле:

где D факт - факторная дисперсия, объясненная регрессией, на одну степень свободы; D ост - остаточная дисперсия на одну степень свободы; R 2 - коэффициент множественной детерминации; т х в уравнении регрессии (в парной линейной регрессии т = 1); п - число наблюдений.

Полученное значение F-критерия сравнивается с табличным при определенном уровне значимости. Если его фактическое значение больше табличного, тогда гипотеза Но о незначимости уравнения регрессии отвергается, и принимается альтернативная гипотеза о его статистической значимости.

С помощью критерия Фишера можно оценить значимость не только уравнения регрессии в целом, но и значимость дополнительного включения в модель каждого фактора. Такая оценка необходима для того, чтобы не загружать модель факторами, не оказывающими существенного влияния на результат. Кроме того, поскольку модель состоит из несколько факторов, то они могут вводиться в нее в различной последовательности, а так как между факторами существует корреляция, значимость включения в модель одного и того же фактора может различаться в зависимости от последовательности введения в нее факторов.

Для оценки значимости включения дополнительного фактора в модель рассчитывается частный критерий Фишера F xi . Он построен на сравнении прироста факторной дисперсии, обусловленного включением в модель дополнительного фактора, с остаточной дисперсией на одну степень свободы по регрессии в целом. Следовательно, формула расчета частного F-критерия для фактора будет иметь следующий вид:

где R 2 yx 1 x 2… xi … xp - коэффициент множественной детерминации для модели с полным набором п факторов; R 2 yx 1 x 2… x i -1 x i +1… xp - коэффициент множественной детерминации для модели, не включающей фактор x i ; п - число наблюдений; т - число параметров при факторах x в уравнении регрессии.

Фактическое значение частного критерия Фишера сравнивается с табличным при уровне значимости 0,05 или 0,1 и соответствующих числах степеней свободы. Если фактическое значение F xi превышает F табл , то дополнительное включение фактора x i в модель статистически оправдано, и коэффициент «чистой» регрессии b i при факторе x i статистически значим. Если же F xi меньше F табл , то дополнительное включение в модель фактора существенно не увеличивает долю объясненной вариации результата у, и, следовательно, его включение в модель не имеет смысла, коэффициент регрессии при данном факторе в этом случае статистически незначим.

С помощью частного критерия Фишера можно проверить значимость всех коэффициентов регрессии в предположении, что каждый соответствующий фактор x i вводится в уравнение множественной регрессии последним, а все остальные факторы были уже включены в модель раньше.

Оценка значимости коэффициентов «чистой» регрессии b i по критерию Стьюдента t может быть проведена и без расчета частных F -критериев. В этом случае, как и при парной регрессии, для каждого фактора применяется формула

t bi = b i / m bi ,

где b i - коэффициент «чистой» регрессии при факторе x i ; m bi - стандартная ошибка коэффициента регрессии b i .

Проверить значимость параметров уравнения регрессии можно, используя t-статистику .

Задание:
По группе предприятий, выпускающих один и тот же вид продукции, рассматриваются функции издержек:
y = α + βx;
y = α x β ;
y = α β x ;
y = α + β / x;
где y – затраты на производство, тыс. д. е.
x – выпуск продукции, тыс. ед.

Требуется:
1. Построить уравнения парной регрессии y от x:

  • линейное;
  • степенное;
  • показательное;
  • равносторонней гиперболы.
2. Рассчитать линейный коэффициент парной корреляции и коэффициент детерминации . Сделать выводы.
3. Оценить статистическую значимость уравнения регрессии в целом.
4. Оценить статистическую значимость параметров регрессии и корреляции.
5. Выполнить прогноз затрат на производство при прогнозном выпуске продукции, составляющем 195 % от среднего уровня.
6. Оценить точность прогноза, рассчитать ошибку прогноза и его доверительный интервал.
7. Оценить модель через среднюю ошибку аппроксимации.

Решение :

1. Уравнение имеет вид y = α + βx
1. Параметры уравнения регрессии.
Средние значения

Дисперсия

Среднеквадратическое отклонение

Коэффициент корреляции

Связь между признаком Y фактором X сильная и прямая
Уравнение регрессии

Коэффициент детерминации
R 2 = 0.94 2 = 0.89, т.е. в 88.9774 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая

x y x 2 y 2 x ∙ y y(x) (y-y cp) 2 (y-y(x)) 2 (x-x p) 2
78 133 6084 17689 10374 142.16 115.98 83.83 1
82 148 6724 21904 12136 148.61 17.9 0.37 9
87 134 7569 17956 11658 156.68 95.44 514.26 64
79 154 6241 23716 12166 143.77 104.67 104.67 0
89 162 7921 26244 14418 159.9 332.36 4.39 100
106 195 11236 38025 20670 187.33 2624.59 58.76 729
67 139 4489 19321 9313 124.41 22.75 212.95 144
88 158 7744 24964 13904 158.29 202.51 0.08 81
73 152 5329 23104 11096 134.09 67.75 320.84 36
87 162 7569 26244 14094 156.68 332.36 28.33 64
76 159 5776 25281 12084 138.93 231.98 402.86 9
115 173 13225 29929 19895 201.86 854.44 832.66 1296
0 0 0 16.3 20669.59 265.73 6241
1027 1869 89907 294377 161808 1869 25672.31 2829.74 8774

Примечание: значения y(x) находятся из полученного уравнения регрессии:
y(1) = 4.01*1 + 99.18 = 103.19
y(2) = 4.01*2 + 99.18 = 107.2
... ... ...

2. Оценка параметров уравнения регрессии
Значимость коэффициента корреляции

По таблице Стьюдента находим Tтабл
T табл (n-m-1;α/2) = (11;0.05/2) = 1.796
Поскольку Tнабл > Tтабл, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически - значим.

Анализ точности определения оценок коэффициентов регрессии





S a = 0.1712
Доверительные интервалы для зависимой переменной

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 1
(-20.41;56.24)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика


Статистическая значимость коэффициента регрессии a подтверждается

Статистическая значимость коэффициента регрессии b не подтверждается
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(a - t S a ; a + t S a)
(1.306;1.921)
(b - t b S b ; b + t b S b)
(-9.2733;41.876)
где t = 1.796
2) F-статистики


Fkp = 4.84
Поскольку F > Fkp, то коэффициент детерминации статистически значим

100 р бонус за первый заказ

Выберите тип работы Дипломная работа Курсовая работа Реферат Магистерская диссертация Отчёт по практике Статья Доклад Рецензия Контрольная работа Монография Решение задач Бизнес-план Ответы на вопросы Творческая работа Эссе Чертёж Сочинения Перевод Презентации Набор текста Другое Повышение уникальности текста Кандидатская диссертация Лабораторная работа Помощь on-line

Узнать цену

После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров . Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации : Средняя ошибка аппроксимации не должна превышать 8–10%.

Оценка значимости уравнения регрессии в целом производится на основе F -критерия Фишера , которому предшествует дисперсионный анализ. Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений переменной y от среднего значения y раскладывается на две части – «объясненную» и «необъясненную»: где – общая сумма квадратов отклонений; – сумма квадратов отклонений, объясненная регрессией (или факторная сумма квадратов отклонений); – остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в модели факторов. Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F -критерия Фишера: Фактическое значение F -критерия Фишера сравнивается с

табличным значением F табл(a; k 1; k 2) при уровне значимости a и степенях свободы k 1 = m и k 2= n -m -1.При этом, если фактическое значение F - критерия больше табличного, то признается статистическая значимость уравнения в целом.

Для парной линейной регрессии m =1, поэтому

Величина F -критерия связана с коэффициентом детерминации R2 ее можно рассчитать по следующей формуле:

В парной линейной регрессии оценивается значимость не только уравнения в целом, но и отдельных его параметров . С этой целью по каждому из параметров определяется его стандартная ошибка: m b и m a . Стандартная ошибка коэффициента регрессии определяется по формуле:, где

Величина стандартной ошибки совместно с t –распределением Стьюдента при n -2 степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительного интервала. Для оценки существенности коэффициента регрессии его величина сравнивается с его стандартной ошибкой, т.е. определяется фактическое значение t -критерия Стьюдента: которое затем сравнивается с табличным значением при определенном уровне значимости a и числе степеней свободы (n-2). Доверительный интервал для коэффициента регрессии определяется как b ± t табл ×mb . Поскольку знак коэффициента регрессии указывает на рост результативного признака y при увеличении признака-фактора x (b >0), уменьшение результативного признака при увеличении признака-фактора (b <0) или его независимость от независимой переменной (b =0), то границы доверительного интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, -1,5 £ b £ 0,8. Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чего не может быть.

Стандартная ошибка параметра a определяется по формуле: Процедура оценивания существенности данного параметра не отличается от рассмотренной выше для коэффициента регрессии. Вычисляется t -критерий: , его величина сравнивается с табличным значением при n - 2 степенях свободы.


Оценка значимости параметров уравнения регрессии

Оценка значимости параметров уравнения линейной регрессии производится с помощью критерия Стьюдента:

если t расч. > t кр, то принимается основная гипотеза (H o ), свидетельствующая о статистической значимости параметров регрессии;

если t расч. < t кр, то принимается альтернативная гипотеза (H 1 ), свидетельствующая о статистической незначимости параметров регрессии.

где m a , m b – стандартные ошибки параметров a и b:

(2.19)

(2.20)

Критическое (табличное) значение критерия находится с помощью статистических таблиц распределения Стьюдента (приложение Б) или по таблицам Excel (раздел мастера функций «Статистические»):

t кр = СТЬЮДРАСПОБР(α=1-P; k=n-2 ), (2.21)

где k=n-2 также представляет собой число степенейсвободы.

Оценка статистической значимости может быть применена и к линейному коэффициенту корреляции

где m r – стандартная ошибка определения значений коэффициента корреляции r yx

(2.23)

Ниже представлены варианты заданий для практических и лабораторных работ по тематике второго раздела.

Вопросы для самопроверки по 2 разделу

1. Укажите основные составляющие эконометрической модели и их сущность.

2. Основное содержание этапов эконометрического исследования.

3. Сущность подходов по определению параметров линейной регрессии.

4. Сущность и особенность применения метода наименьших квадратов при определении параметров уравнения регрессии.

5. Какие показатели используются для оценки тесноты взаимосвязи исследуемых факторов?

6. Сущность линейного коэффициента корреляции.

7. Сущность коэффициента детерминации.

8. Сущность и основные особенности процедур оценки адекватности (статистической значимости) регрессионных моделей.

9. Оценка адекватности линейных регрессионных моделей по коэффициенту аппроксимации.

10. Сущность подхода оценки адекватности регрессионных моделей по критерию Фишера. Определение эмпирических и критических значений критерия.

11. Сущность понятия «дисперсионный анализ» применительно к эконометрическим исследованиям.

12. Сущность и основные особенности процедуры оценки значимости параметров линейного уравнения регрессии.

13. Особенности применения распределения Стьюдента при оценке значимости параметров линейного уравнения регрессии.

14. В чем состоит задача прогноза единичных значений исследуемого социально-экономического явления?

1. Построить поле корреляции и сформулировать предположение о форме уравнения взаимосвязи исследуемых факторов;

2. Записать основные уравнения метода наименьших квадратов, произвести необходимые преобразования, составить таблицу для промежуточных расчетов и определить параметры линейного уравнения регрессии;

3. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.

4. Провести анализ результатов, сформулировать выводы и рекомендации.

1. Расчет значения линейного коэффициента корреляции;

2. Построение таблицы дисперсионного анализа;

3. Оценка коэффициента детерминации;

4. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.

5. Провести анализ результатов, сформулировать выводы и рекомендации.

4. Провести общую оценку адекватности выбранного уравнения регрессии;

1. Оценка адекватности уравнения по значениям коэффициента аппроксимации;

2. Оценка адекватности уравнения по значениям коэффициента детерминации;

3. Оценка адекватности уравнения по критерию Фишера;

4. Провести общую оценку адекватности параметров уравнения регрессии;

5. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.

6. Провести анализ результатов, сформулировать выводы и рекомендации.

1. Использование стандартных процедур мастера функций электронных таблиц Excel (из разделов «Математические» и «Статистические»);

2. Подготовка данных и особенности применения функции «ЛИНЕЙН»;

3. Подготовка данных и особенности применения функции «ПРЕДСКАЗ».

1. Использование стандартных процедур пакета анализа данных электронных таблиц Excel;

2. Подготовка данных и особенности применения процедуры «РЕГРЕССИЯ»;

3. Интерпретация и обобщение данных таблицы регрессионного анализа;

4. Интерпретация и обобщение данных таблицы дисперсионного анализа;

5. Интерпретация и обобщение данных таблицы оценки значимости параметров уравнения регрессии;

При выполнении лабораторной работы по данным одного из вариантов необходимо выполнить следующие частные задания:

1. Осуществить выбор формы уравнения взаимосвязи исследуемых факторов;

2. Определить параметры уравнения регрессии;

3. Провести оценку тесноты взаимосвязи исследуемых факторов;

4. Провести оценку адекватности выбранного уравнения регрессии;

5. Провести оценку статистической значимости параметров уравнения регрессии.

6. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.

7. Провести анализ результатов, сформулировать выводы и рекомендации.

Задания для практических и лабораторных работ по теме «Парная линейная регрессия и корреляция в эконометрических исследованиях».

Вариант 1 Вариант 2 Вариант 3 Вариант 4 Вариант 5
x y x y x y x y x y
Вариант 6 Вариант 7 Вариант 8 Вариант 9 Вариант 10
x y x y x y x y x y