Прогноз по уравнению регрессии. Интервалы прогноза по линейному уравнению регрессии

Точечный прогноз заключается в получении прогнозного значения уp , которое определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) значения xp:

уp = a + b* xp

Интервальный прогноз заключается в построении доверительного интервала прогноза, т. е. нижней и верхней границ уpmin , уpmax интервала, содержащего точную величину для прогнозного значения yp (ypmin < yp < ypmin ) с заданной вероятностью.

При построении доверительного интервала прогноза используется стандартная ошибка прогноза :

Где

Строится доверительный интервал прогноза :

Множественный регрессионный анализ

(слайд 1) Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доминирующий фактор и необходимо учитывать влияние нескольких факторов. Например, объем выпуска продукции определяется величиной основных и оборотных средств, численностью персонала, уровнем менеджмента и т. д., уровень спроса зависит не только от цены, но и от имеющихся у населения денежных средств.

Основная цель множественной регрессии – построить модель с несколькими факторами и определить при этом влияние каждого фактора в отдельности, а также их совместное воздействие на изучаемый показатель.

Таким образом, множественная регрессия – это уравнение связи с несколькими независимыми переменными:

(слайд 2) Построение уравнения множественной регрессии

1. Постановка задачи

По имеющимся данным n наблюдений (табл. 3.1) за совместным изменением p +1 параметра y и xj и ((yi,xj,i ); j =1, 2, ..., p ; i =1, 2, ..., n ) необходимо определить аналитическую зависимость ŷ = f(x1 ,x2 ,...,xp) , наилучшим образом описывающую данные наблюдений.

Таблица 3.1

Данные наблюдений

x1 1

х1 2

х1 n

x 2 n

Каждая строка таблицы представляет собой результат одного наблюдения. Наблюдения различаются условиями их проведения.

Вопрос о том, какую зависимость следует считать наилучшей, решается на основе какого-либо критерия. В качестве такого критерия обычно используется минимум суммы квадратов отклонений расчетных значений результативного показателя ŷi от наблюдаемых значений yi:

2. Спецификация модели

(слайд 3) Спецификация модели включает в себя решение двух задач:

– отбор факторов, подлежащих включению в модель;

– выбор формы уравнения регрессии.

2.1. Отбор факторов при построении множественной регрессии

Включение в уравнение множественной регрессии того или иного набора факторов связано прежде всего с представлениями исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями.

К факторам, включаемым в модель, предъявляются следующие требования :

1. Факторы должны быть количественно измеримы. Включение фактора в модель должно приводить к существенному увеличению доли объясненной части в общей вариации зависимой переменной. Поскольку данная величина характеризуется коэффициентом детерминации , включение нового фактора в модель должно приводить к заметному изменению коэффициента. Если этого не происходит, то включаемый в анализ фактор не улучшает модель и является лишним.

Например, если для регрессии, включающей 5 факторов, коэффициент детерминации составил 0,85, и включение шестого фактора дало коэффициент детерминации 0,86, то вряд ли целесообразно дополнять модель этим фактором.

Если необходимо включить в модель качественный фактор, не имеющий количественной оценки, то нужно придать ему количественную определенность. В этом случае в модель включается соответствующая ему «фиктивная» переменная , имеющая конечное количество формально численных значений, соответствующих градациям качественного фактора (балл, ранг).

Например, если нужно учесть влияние уровня образования (на размер заработной платы), то в уравнение регрессии можно включить переменную, принимающую значения: 0 – при начальном образовании, 1 – при среднем, 2 – при высшем.

Несмотря на то, что теоретически регрессионная модель позволяет учесть любое количество факторов, на практике в этом нет необходимости, т.к. неоправданное их увеличение приводит к затруднениям в интерпретации модели и снижению достоверности результатов.

2. Факторы не должны быть взаимно коррелированы и, тем более, находиться в точной функциональной связи. Наличие высокой степени коррелированности между факторами может привести к неустойчивости и ненадежности оценок коэффициентов регрессии, а также к невозможности выделить изолированное влияние факторов на результативный показатель. В результате параметры регрессии оказываются неинтерпретируемыми.

Пример . Рассмотрим регрессию себестоимости единицы продукции (у ) от заработной платы работника (х ) и производительности труда в час (z ).

Коэффициент регрессии при переменной z показывает, что с ростом производительности труда на 1 ед-цу в час себестоимость единицы продукции снижается в среднем на 10 руб. при постоянном уровне оплаты труда.

А параметр при х нельзя интерпретировать как снижение себестоимости единицы продукции за счет роста заработной платы. Отрицательное значение коэффициента регрессии в данном случае обусловлено высокой корреляцией между х и z (0,95).

(слайд 4) Считается, что две переменные явно коллинеарны , т.е. находятся между собой в линейной зависимости, если коэффициент интеркорреляции (корреляции между двумя объясняющими переменными) ≥ 0,7. Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из уравнения. Предпочтение при этом отдается не тому фактору, который более тесно связан с результатом, а тому, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

Наряду с парной коллинеарностью может иметь место линейная зависимость между более чем двумя переменными – мультиколлинеарность , т.е. совокупное воздействие факторов друг на друга.

Наличие мультиколлинеарности факторов может означать, что некоторые факторы всегда будут действовать в унисон. В результате вариация в исходных данных перестанет быть полностью независимой, что не позволит оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью МНК.

(слайд 5) Включение в модель мультиколлинеарных факторов нежелательно по следующим причинам :

    затрудняется интерпретация параметров множественной регрессии; параметры линейной регрессии теряют экономический смысл;

    оценки параметров не надежны, имеют большие стандартные ошибки и меняются с изменением количества наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

(слайд 6) Для оценки мультиколлинеарности используется определитель матрицы парных коэффициентов интеркорреляции :

(!) Если факторы не коррелируют между собой , то матрица коэффициентов интеркорреляции является единичной, поскольку в этом случае все недиагональные элементы равны 0. Например, для уравнения с тремя переменными матрица коэффициентов интеркорреляции имела бы определитель, равный 1, поскольку
и
.

(слайд 7)

(!) Если между факторами существует полная линейная зависимость и все коэффициенты корреляции равны 1, то определитель такой матрицы равен 0 (Если две строки матрицы совпадают, то её определитель равен нулю).

Чем ближе к 0 определитель матрицы коэффициентов интеркорреляции, тем сильнее мультиколлинеарность и ненадежнее результаты множественной регрессии.

Чем ближе к 1 определитель матрицы коэффициентов интеркорреляции, тем меньше мультиколлинеарность факторов.

(слайд 8) Способы преодоления мультиколлинеарности факторов :

1) исключение из модели одного или нескольких факторов;

2) переход к совмещенным уравнениям регрессии, т.е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие. Например, если
, то можно построить следующее совмещенное уравнение:;

3) переход к уравнениям приведенной формы (в уравнение регрессии подставляется рассматриваемый фактор, выраженный из другого уравнения).

(слайд 9) 2.2. Выбор формы уравнения регрессии

Различают следующие виды уравнений множественной регрессии :

    линейные,

    нелинейные, сводящиеся к линейным,

    нелинейные, не сводящиеся к линейным (внутренне нелинейные).

В первых двух случаях для оценки параметров модели применяются методы классического линейного регрессионного анализа. В случае внутренне нелинейных уравнений для оценки параметров применяются методы нелинейной оптимизации.

Основное требование, предъявляемое к уравнениям регрессии, заключается в наличии наглядной экономической интерпретации модели и ее параметров. Исходя из этих соображений, наиболее часто используются линейная и степенная зависимости.

Линейная множественная регрессия имеет вид:

Параметры bi при факторах хi называются коэффициентами «чистой» регрессии . Они показывают, на сколько единиц в среднем изменится результативный признак за счет изменения соответствующего фактора на единицу при неизмененном значении других факторов, закрепленных на среднем уровне.

(слайд 10) Например, зависимость спроса на товар (Qd) от цены (P) и дохода (I) характеризуется следующим уравнением:

Qd = 2,5 - 0,12P + 0,23 I.

Коэффициенты данного уравнения говорят о том, что при увеличении цены на единицу, спрос уменьшится в среднем на 0,12 единиц, а при увеличении дохода на единицу, спрос возрастет в среднем 0,23 единицы.

Параметр а не всегда может быть содержательно проинтерпретирован.

Степенная множественная регрессия имеет вид:

Параметры bj (степени факторов хi ) являются коэффициентами эластичности. Они показывают, на сколько % в среднем изменится результативный признак за счет изменения соответствующего фактора на 1% при неизмененном значении остальных факторов.

Наиболее широкое применение этот вид уравнения регрессии получил в производственных функциях, а также при исследовании спроса и потребления.

Например, зависимость выпуска продукции Y от затрат капитала K и труда L:
говорит о том, что увеличение затрат капитала K на 1% при неизменных затратах труда вызывает увеличение выпуска продукции Y на 0,23%. Увеличение затрат труда L на 1% при неизменных затратах капитала K вызывает увеличение выпуска продукции Y на 0,81 %.

Возможны и другие линеаризуемые функции для построения уравнения множественной регрессии:


Чем сложнее функция, тем менее интерпретируемы ее параметры. Кроме того, необходимо помнить о соотношении между количеством наблюдений и количеством факторов в модели. Так, для анализа трехфакторной модели должно быть проведено не менее 21 наблюдения.

(слайд 11) 3. Оценка параметров модели

Параметры уравнения множественной регрессии оцениваются, как и в парной регрессии, методом наименьших квадратов , согласно которому следует выбирать такие значения параметров а и bi , при которых сумма квадратов отклонений фактических значений результативного признака yi от теоретических значений ŷ минимальна, т. е.:

Если , тогдаS является функцией неизвестных параметров a , bi :

Чтобы найти минимум функции, нужно найти частные производные по каждому из параметров и приравнять их к 0:

Отсюда получаем систему уравнений:

(слайд 12) Ее решение может быть осуществлено методом определителей:

,

где – определитель системы;

a , ∆ b 1, ∆ bp – частные определители (j ).

–определитель системы,

j – частные определители, которые получаются из основного определителя путем замены j-го столбца на столбец свободных членов .

При использовании данного метода возможно возникновение следующих ситуаций:

1) если основной определитель системы Δ равен нулю и все определители Δj также равны нулю, то данная система имеет бесконечное множество решений;

2) если основной определитель системы Δ равен нулю и хотя бы один из определителей Δj также равен нулю, то система решений не имеет.

(слайд 13) Помимо классического МНК для определения неизвестных параметров линейной модели множественной регрессии используется метод оценки параметров через β -коэффициенты – стандартизованные коэффициенты регрессии.

Построение модели множественной регрессии в стандартизированном, или нормированном, масштабе означает, что все переменные, включенные в модель регрессии, стандартизируются с помощью специальных формул.

У равнение регрессии в стандартизованном масштабе:

где
,
- стандартизованные переменные;

- стандартизованные коэффициенты регрессии.

Т.е. посредством процесса стандартизации точкой отсчета для каждой нормированной переменной устанавливается ее среднее значение по выборочной совокупности. При этом в качестве единицы измерения стандартизированной переменной принимается ее среднеквадратическое отклонение σ .

β -коэффициенты показывают , на сколько сигм (средних квадратических отклонений) изменится в среднем результат за счет изменения соответствующего фактора xi на одну сигму при неизменном среднем уровне других факторов.

Стандартизованные коэффициенты регрессии βi сравнимы между собой, что позволяет ранжировать факторы по силе их воздействия на результат. Большее относительное влияние на изменение результативной переменной y оказывает тот фактор, которому соответствует большее по модулю значение коэффициента βi . В этом основное достоинство стандартизованных коэффициентов регрессии , в отличие от коэффициентов «чистой» регрессии, которые не сравнимы между собой.

(слайд 14) Связь коэффициентов «чистой» регрессии bi с коэффициентами βi описывается соотношением:

, или

Параметр a определяется как .

Коэффициенты β определяются при помощи МНК из следующей системы уравнений методом определителей:

Для оценки параметров нелинейных уравнений множественной регрессии предварительно осуществляется преобразование последних в линейную форму (с помощью замены переменных) и МНК применяется для нахождения параметров линейного уравнения множественной регрессии в преобразованных переменных. В случае внутренне нелинейных зависимостей для оценки параметров приходится применять методы нелинейной оптимизации.

(слайд 1) 4. Проверка качества уравнения регрессии

Практическая значимость уравнения множественной регрессии оценивается с помощью показателя множественной корреляции и его квадрата – коэффициента детерминации.

Показатель множественной корреляции характеризует тесноту связи рассматриваемого набора факторов с исследуемым признаком, т.е. оценивает тесноту совместного влияния факторов на результат.

Независимо от формы связи показатель множественной корреляции рассчитывается по формуле:

Коэффициент множественной корреляции принимает значения в диапазоне 0 ≤ R ≤ 1. Чем ближе он к 1, тем теснее связь результативного признака со всем набором исследуемых факторов.

При линейной зависимости признаков формулу индекса множественной корреляции можно записать в виде:

,

где - стандартизованные коэффициенты регрессии,

- парные коэффициенты корреляции результата с каждым фактором.

Данная формула получила название линейного коэффициента множественной корреляции , или совокупного коэффициента корреляции .

Индекс детерминации для нелинейных по оцениваемым параметрам функций принято называть «квази-
».
Для его определения по функциям, использующим логарифмические преобразования (степенная, экспонента), необходимо сначала найти теоретические значения ln y, затем трансформировать их через антилогарифмы (антилогарифм ln y = y) и далее определить индекс детерминации как «квази-
» по формуле:

.

Величина «квази-
» не будет совпадать с совокупным коэффициентом корреляции, который может быть рассчитан для линейного в логарифмах уравнения множественной регрессии, потому что в последнем раскладывается на факторную и остаточную суммы квадратов не
, а
.

(слайд 2) Использование коэффициента множественной детерминации
для оценки качества модели обладает тем недостатком, что включение в модель нового фактора (даже несущественного) автоматически увеличивает величину
.
Поэтому при большом количестве факторов предпочтительней использовать так называемый скорректированный (улучшенный) коэффициент множественной детерминации
, определяемый соотношением:

где n – число наблюдений,

m – число параметров при переменных х (чем больше величина m, тем сильнее различия между к-том множ. детерминации
и скорректированным к-том
).

При заданном объеме наблюдений и при прочих равных условиях с увеличением числа независимых переменных (параметров) скорректированный к-т множ. детерминации убывает. Его величина может стать и отрицательной при слабых связях результата с факторами. При небольшом числе наблюдений нескорректированная величина к-та имеет тенденцию переоценивать долю вариации результативного признака, связанную с влиянием факторов, включенных в регрессионную модель. Чем больше объем совокупности, по которой исчислена регрессия, тем меньше различаются
и
.

Отметим, что низкое значение коэффициента множественной корреляции и коэффициента множественной детерминации может быть обусловлено следующими причинами :

– в регрессионную модель не включены существенные факторы;

– неверно выбрана форма аналитической зависимости, не отражающая реальные соотношения между переменными, включенными в модель.

(слайд 3) Значимость уравнения множественной регрессии в целом оценивается с помощью F - критерия Фишера :

Выдвигаемая «нулевая» гипотеза H0 о статистической незначимости уравнения регрессии отвергается при выполнении условия F > F крит, где F крит определяется по таблицам F -критерия Фишера по двум степеням свободы k 1 = m , k 2= n- m - 1 и заданному уровню значимости α.

Значимость одного и того же фактора может быть различной в зависимости от последовательности введения его в модель.

(слайд 4) Мерой для оценки включения фактора в модель служит частный F -критерий (оценивает статистическую значимость присутствия каждого из факторов в уравнении):

,

где
- коэффициент множ. детерминации для модели с полным

набором факторов;

- тот же показатель, но без включения в модель фактора х1 ;

n – число наблюдений;

m – число параметров при переменных х.

Если фактическое значение F превышает табличное, то дополнительное включение в модель фактора xi статистически оправдано и коэффициент чистой регрессии bi при факторе xi статистически значим.

Если же фактическое значение F меньше табличного, то нецелесообразно включать в модель дополнительный фактор, поскольку он не увеличивает существенно долю объясненной вариации результата, а коэффициент регрессии при данном факторе статистически не значим.

(слайд 5) Частный F-критерий оценивает значимость коэффициентов чистой регрессии. Зная величину , можно определить и t -критерий Стьюдента :

или

где m bi – средняя квадратическая ошибка коэффициента регрессии b i , она может быть определена по формуле:

.

Величина стандартной ошибки совместно с t-распределением Стьюдента при n-m-1 степенях свободы применяется для проверки значимости коэффициента регрессии и для расчета его доверительного интервала.

В предыдущих заметках предметом анализа часто становилась отдельная числовая переменная, например, доходность взаимных фондов, время загрузки Web-страницы или объем потребления безалкогольных напитков. В настоящей и следующих заметках мы рассмотрим методы предсказания значений числовой переменной в зависимости от значений одной или нескольких других числовых переменных.

Материал будет проиллюстрирован сквозным примером. Прогнозирование объема продаж в магазине одежды. Сеть магазинов уцененной одежды Sunflowers на протяжении 25 лет постоянно расширялась. Однако в настоящее время у компании нет систематического подхода к выбору новых торговых точек. Место, в котором компания собирается открыть новый магазин, определяется на основе субъективных соображений. Критериями выбора являются выгодные условия аренды или представления менеджера об идеальном местоположении магазина. Представьте, что вы - руководитель отдела специальных проектов и планирования. Вам поручили разработать стратегический план открытия новых магазинов. Этот план должен содержать прогноз годового объема продаж во вновь открываемых магазинах. Вы полагаете, что торговая площадь непосредственно связана с объемом выручки, и хотите учесть этот факт в процессе принятия решения. Как разработать статистическую модель, позволяющую прогнозировать годовой объем продаж на основе размера нового магазина?

Как правило, для предсказания значений переменной используется регрессионный анализ. Его цель - разработать статистическую модель, позволяющую предсказывать значения зависимой переменной, или отклика, по значениям, по крайней мере одной, независимой, или объясняющей, переменной. В настоящей заметке мы рассмотрим простую линейную регрессию - статистический метод, позволяющий предсказывать значения зависимой переменной Y по значениям независимой переменной X . В последующих заметках будет описана модель множественной регрессии, предназначенная для предсказания значений независимой переменной Y по значениям нескольких зависимых переменных (Х 1 , Х 2 , …, X k ).

Скачать заметку в формате или , примеры в формате

Виды регрессионных моделей

где ρ 1 – коэффициент автокорреляции; если ρ 1 = 0 (нет автокорреляции), D ≈ 2; если ρ 1 ≈ 1 (положительная автокорреляции), D ≈ 0; если ρ 1 = -1 (отрицательная автокорреляции), D ≈ 4.

На практике применение критерия Дурбина-Уотсона основано на сравнении величины D с критическими теоретическими значениями d L и d U для заданного числа наблюдений n , числа независимых переменных модели k (для простой линейной регрессии k = 1) и уровня значимости α. Если D < d L , гипотеза о независимости случайных отклонений отвергается (следовательно, присутствует положительная автокорреляция); если D > d U , гипотеза не отвергается (то есть автокорреляция отсутствует); если d L < D < d U , нет достаточных оснований для принятия решения. Когда расчётное значение D превышает 2, то с d L и d U сравнивается не сам коэффициент D , а выражение (4 – D ).

Для вычисления статистики Дурбина-Уотсона в Excel обратимся к нижней таблице на рис. 14 Вывод остатка . Числитель в выражении (10) вычисляется с помощью функции =СУММКВРАЗН(массив1;массив2), а знаменатель =СУММКВ(массив) (рис. 16).

Рис. 16. Формулы расчета статистики Дурбина-Уотсона

В нашем примере D = 0,883. Основной вопрос заключается в следующем - какое значение статистики Дурбина-Уотсона следует считать достаточно малым, чтобы сделать вывод о существовании положительной автокорреляции? Необходимо соотнести значение D с критическими значениями (d L и d U ), зависящими от числа наблюдений n и уровня значимости α (рис. 17).

Рис. 17. Критические значения статистики Дурбина-Уотсона (фрагмент таблицы)

Таким образом, в задаче об объеме продаж в магазине, доставляющем товары на дом, существуют одна независимая переменная (k = 1), 15 наблюдений (n = 15) и уровень значимости α = 0,05. Следовательно, d L = 1,08 и d U = 1,36. Поскольку D = 0,883 < d L = 1,08, между остатками существует положительная автокорреляция, метод наименьших квадратов применять нельзя.

Проверка гипотез о наклоне и коэффициенте корреляции

Выше регрессия применялась исключительно для прогнозирования. Для определения коэффициентов регрессии и предсказания значения переменной Y при заданной величине переменной X использовался метод наименьших квадратов. Кроме того, мы рассмотрели среднеквадратичную ошибку оценки и коэффициент смешанной корреляции. Если анализ остатков подтверждает, что условия применимости метода наименьших квадратов не нарушаются, и модель простой линейной регрессии является адекватной, на основе выборочных данных можно утверждать, что между переменными в генеральной совокупности существует линейная зависимость.

Применение t -критерия для наклона. Проверяя, равен ли наклон генеральной совокупности β 1 нулю, можно определить, существует ли статистически значимая зависимость между переменными X и Y . Если эта гипотеза отклоняется, можно утверждать, что между переменными X и Y существует линейная зависимость. Нулевая и альтернативная гипотезы формулируются следующим образом: Н 0: β 1 = 0 (нет линейной зависимости), Н1: β 1 ≠ 0 (есть линейная зависимость). По определению t -статистика равна разности между выборочным наклоном и гипотетическим значением наклона генеральной совокупности, деленной на среднеквадратичную ошибку оценки наклона:

(11) t = (b 1 β 1 ) / S b 1

где b 1 – наклон прямой регрессии по выборочным данным, β1 – гипотетический наклон прямой генеральной совокупности, , а тестовая статистика t имеет t -распределение с n – 2 степенями свободы.

Проверим, существует ли статистически значимая зависимость между размером магазина и годовым объемом продаж при α = 0,05. t -критерий выводится наряду с другими параметрами при использовании Пакета анализа (опция Регрессия ). Полностью результаты работы Пакета анализа приведены на рис. 4, фрагмент, относящийся к t-статистике – на рис. 18.

Рис. 18. Результаты применения t

Поскольку число магазинов n = 14 (см. рис.3), критическое значение t -статистики при уровне значимости α = 0,05 можно найти по формуле: t L =СТЬЮДЕНТ.ОБР(0,025;12) = –2,1788, где 0,025 – половина уровня значимости, а 12 = n – 2; t U =СТЬЮДЕНТ.ОБР(0,975;12) = +2,1788.

Поскольку t -статистика = 10,64 > t U = 2,1788 (рис. 19), нулевая гипотеза Н 0 отклоняется. С другой стороны, р -значение для Х = 10,6411, вычисляемое по формуле =1-СТЬЮДЕНТ.РАСП(D3;12;ИСТИНА), приближенно равно нулю, поэтому гипотеза Н 0 снова отклоняется. Тот факт, что р -значение почти равно нулю, означает, что если бы между размерами магазинов и годовым объемом продаж не существовало реальной линейной зависимости, обнаружить ее с помощью линейной регрессии было бы практически невозможно. Следовательно, между средним годовым объемом продаж в магазинах и их размером существует статистически значимая линейная зависимость.

Рис. 19. Проверка гипотезы о наклоне генеральной совокупности при уровне значимости, равном 0,05, и 12 степенях свободы

Применение F -критерия для наклона. Альтернативным подходом к проверке гипотез о наклоне простой линейной регрессии является использование F -критерия. Напомним, что F -критерий применяется для проверки отношения между двумя дисперсиями (подробнее см. ). При проверке гипотезы о наклоне мерой случайных ошибок является дисперсия ошибки (сумма квадратов ошибок, деленная на количество степеней свободы), поэтому F -критерий использует отношение дисперсии, объясняемой регрессией (т.е. величины SSR , деленной на количество независимых переменных k ), к дисперсии ошибок (MSE = S Y X 2 ).

По определению F -статистика равна среднему квадрату отклонений, обусловленных регрессией (MSR), деленному на дисперсию ошибки (MSE): F = MSR / MSE , где MSR = SSR / k , MSE = SSE /(n – k – 1), k – количество независимых переменных в регрессионной модели. Тестовая статистика F имеет F -распределение с k и n – k – 1 степенями свободы.

При заданном уровне значимости α решающее правило формулируется так: если F > F U , нулевая гипотеза отклоняется; в противном случае она не отклоняется. Результаты, оформленные в виде сводной таблицы дисперсионного анализа, приведены на рис. 20.

Рис. 20. Таблица дисперсионного анализа для проверки гипотезы о статистической значимости коэффициента регрессии

Аналогично t -критерию F -критерий выводится в таблицу при использовании Пакета анализа (опция Регрессия ). Полностью результаты работы Пакета анализа приведены на рис. 4, фрагмент, относящийся к F -статистике – на рис. 21.

Рис. 21. Результаты применения F -критерия, полученные с помощью Пакета анализа Excel

F-статистика равна 113,23, а р -значение близко к нулю (ячейка Значимость F ). Если уровень значимости α равен 0,05, определить критическое значение F -распределения с одной и 12 степенями свободы можно по формуле F U =F.ОБР(1-0,05;1;12) = 4,7472 (рис. 22). Поскольку F = 113,23 > F U = 4,7472, причем р -значение близко к 0 < 0,05, нулевая гипотеза Н 0 отклоняется, т.е. размер магазина тесно связан с его годовым объемом продаж.

Рис. 22. Проверка гипотезы о наклоне генеральной совокупности при уровне значимости, равном 0,05, с одной и 12 степенями свободы

Доверительный интервал, содержащий наклон β 1 . Для проверки гипотезы о существовании линейной зависимости между переменными можно построить доверительный интервал, содержащий наклон β 1 и убедиться, что гипотетическое значение β 1 = 0 принадлежит этому интервалу. Центром доверительного интервала, содержащего наклон β 1 , является выборочный наклон b 1 , а его границами - величины b 1 ± t n –2 S b 1

Как показано на рис. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =СТЬЮДЕНТ.ОБР(0,975;12) = 2,1788. Следовательно, b 1 ± t n –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, или + 1,328 ≤ β 1 ≤ +2,012. Таким образом, наклон генеральной совокупности с вероятностью 0,95 лежит в интервале от +1,328 до +2,012 (т.е. от 1 328 000 до 2 012 000 долл.). Поскольку эти величины больше нуля, между годовым объемом продаж и площадью магазина существует статистически значимая линейная зависимость. Если бы доверительный интервал содержал нуль, между переменными не было бы зависимости. Кроме того, доверительный интервал означает, что каждое увеличение площади магазина на 1 000 кв. футов приводит к увеличению среднего объема продаж на величину от 1 328 000 до 2 012 000 долларов.

Использование t -критерия для коэффициента корреляции. был введен коэффициент корреляции r , представляющий собой меру зависимости между двумя числовыми переменными. С его помощью можно установить, существует ли между двумя переменными статистически значимая связь. Обозначим коэффициент корреляции между генеральными совокупностями обеих переменных символом ρ. Нулевая и альтернативная гипотезы формулируются следующим образом: Н 0 : ρ = 0 (нет корреляции), Н 1 : ρ ≠ 0 (есть корреляция). Проверка существования корреляции:

где r = + , если b 1 > 0, r = – , если b 1 < 0. Тестовая статистика t имеет t -распределение с n – 2 степенями свободы.

В задаче о сети магазинов Sunflowers r 2 = 0,904, а b 1 - +1,670 (см. рис. 4). Поскольку b 1 > 0, коэффициент корреляции между объемом годовых продаж и размером магазина равен r = +√0,904 = +0,951. Проверим нулевую гипотезу, утверждающую, что между этими переменными нет корреляции, используя t -статистику:

При уровне значимости α = 0,05 нулевую гипотезу следует отклонить, поскольку t = 10,64 > 2,1788. Таким образом, можно утверждать, что между объемом годовых продаж и размером магазина существует статистически значимая связь.

При обсуждении выводов, касающихся наклона генеральной совокупности, доверительные интервалы и критерии для проверки гипотез являются взаимозаменяемыми инструментами. Однако вычисление доверительного интервала, содержащего коэффициент корреляции, оказывается более сложным делом, поскольку вид выборочного распределения статистики r зависит от истинного коэффициента корреляции.

Оценка математического ожидания и предсказание индивидуальных значений

В этом разделе рассматриваются методы оценки математического ожидания отклика Y и предсказания индивидуальных значений Y при заданных значениях переменной X .

Построение доверительного интервала. В примере 2 (см. выше раздел Метод наименьших квадратов ) регрессионное уравнение позволило предсказать значение переменной Y X . В задаче о выборе места для торговой точки средний годовой объем продаж в магазине площадью 4000 кв. футов был равен 7,644 млн. долл. Однако эта оценка математического ожидания генеральной совокупности является точечной. для оценки математического ожидания генеральной совокупности была предложена концепция доверительного интервала. Аналогично можно ввести понятие доверительного интервала для математического ожидания отклика при заданном значении переменной X :

где , = b 0 + b 1 X i – предсказанное значение переменное Y при X = X i , S YX – среднеквадратичная ошибка, n – объем выборки, X i - заданное значение переменной X , µ Y | X = X i – математическое ожидание переменной Y при Х = Х i , SSX =

Анализ формулы (13) показывает, что ширина доверительного интервала зависит от нескольких факторов. При заданном уровне значимости возрастание амплитуды колебаний вокруг линии регрессии, измеренное с помощью среднеквадратичной ошибки, приводит к увеличению ширины интервала. С другой стороны, как и следовало ожидать, увеличение объема выборки сопровождается сужением интервала. Кроме того, ширина интервала изменяется в зависимости от значений X i . Если значение переменной Y предсказывается для величин X , близких к среднему значению , доверительный интервал оказывается уже, чем при прогнозировании отклика для значений, далеких от среднего.

Допустим, что, выбирая место для магазина, мы хотим построить 95%-ный доверительный интервал для среднего годового объема продаж во всех магазинах, площадь которых равна 4000 кв. футов:

Следовательно, средний годовой объем продаж во всех магазинах, площадь которых равна 4 000 кв. футов, с 95% -ной вероятностью лежит в интервале от 6,971 до 8,317 млн. долл.

Вычисление доверительного интервала для предсказанного значения. Кроме доверительного интервала для математического ожидания отклика при заданном значении переменной X , часто необходимо знать доверительный интервал для предсказанного значения. Несмотря на то что формула для вычисления такого доверительного интервала очень похожа на формулу (13), этот интервал содержит предсказанное значение, а не оценку параметра. Интервал для предсказанного отклика Y X = Xi при конкретном значении переменной X i определяется по формуле:

Предположим, что, выбирая место для торговой точки, мы хотим построить 95%-ный доверительный интервал для предсказанного годового объема продаж в магазине, площадь которого равна 4000 кв. футов:

Следовательно, предсказанный годовой объем продаж в магазине, площадь которого равна 4000 кв. футов, с 95%-ной вероятностью лежит в интервале от 5,433 до 9,854 млн. долл. Как видим, доверительный интервал для предсказанного значения отклика намного шире, чем доверительный интервал для его математического ожидания. Это объясняется тем, что изменчивость при прогнозировании индивидуальных значений намного больше, чем при оценке математического ожидания.

Подводные камни и этические проблемы, связанные с применением регрессии

Трудности, связанные с регрессионным анализом:

  • Игнорирование условий применимости метода наименьших квадратов.
  • Ошибочная оценка условий применимости метода наименьших квадратов.
  • Неправильный выбор альтернативных методов при нарушении условий применимости метода наименьших квадратов.
  • Применение регрессионного анализа без глубоких знаний о предмете исследования.
  • Экстраполяция регрессии за пределы диапазона изменения объясняющей переменной.
  • Путаница между статистической и причинно-следственной зависимостями.

Широкое распространение электронных таблиц и программного обеспечения для статистических расчетов ликвидировало вычислительные проблемы, препятствовавшие применению регрессионного анализа. Однако это привело к тому, что регрессионный анализ стали применять пользователи, не обладающие достаточной квалификацией и знаниями. Откуда пользователям знать об альтернативных методах, если многие из них вообще не имеют ни малейшего понятия об условиях применимости метода наименьших квадратов и не умеют проверять их выполнение?

Исследователь не должен увлекаться перемалыванием чисел - вычислением сдвига, наклона и коэффициента смешанной корреляции. Ему нужны более глубокие знания. Проиллюстрируем это классическим примером, взятым из учебников. Анскомб показал, что все четыре набора данных, приведенных на рис. 23, имеют одни и те же параметры регрессии (рис. 24).

Рис. 23. Четыре набора искусственных данных

Рис. 24. Регрессионный анализ четырех искусственных наборов данных; выполнен с помощью Пакета анализа (кликните на рисунке, чтобы увеличить изображение)

Итак, с точки зрения регрессионного анализа все эти наборы данных совершенно идентичны. Если бы анализ был на этом закончен, мы потеряли бы много полезной информации. Об этом свидетельствуют диаграммы разброса (рис. 25) и графики остатков (рис. 26), построенные для этих наборов данных.

Рис. 25. Диаграммы разброса для четырех наборов данных

Диаграммы разброса и графики остатков свидетельствуют о том, что эти данные отличаются друг от друга. Единственный набор, распределенный вдоль прямой линии, - набор А. График остатков, вычисленных по набору А, не имеет никакой закономерности. Этого нельзя сказать о наборах Б, В и Г. График разброса, построенный по набору Б, демонстрирует ярко выраженную квадратичную модель. Этот вывод подтверждается графиком остатков, имеющим параболическую форму. Диаграмма разброса и график остатков показывают, что набор данных В содержит выброс. В этой ситуации необходимо исключить выброс из набора данных и повторить анализ. Метод, позволяющий обнаруживать и исключать выбросы из наблюдений, называется анализом влияния. После исключения выброса результат повторной оценки модели может оказаться совершенно иным. Диаграмма разброса, построенная по данным из набора Г, иллюстрирует необычную ситуацию, в которой эмпирическая модель значительно зависит от отдельного отклика (Х 8 = 19, Y 8 = 12,5). Такие регрессионные модели необходимо вычислять особенно тщательно. Итак, графики разброса и остатков являются крайне необходимым инструментом регрессионного анализа и должны быть его неотъемлемой частью. Без них регрессионный анализ не заслуживает доверия.

Рис. 26. Графики остатков для четырех наборов данных

Как избежать подводных камней при регрессионном анализе:

  • Анализ возможной взаимосвязи между переменными X и Y всегда начинайте с построения диаграммы разброса.
  • Прежде чем интерпретировать результаты регрессионного анализа, проверяйте условия его применимости.
  • Постройте график зависимости остатков от независимой переменной. Это позволит определить, насколько эмпирическая модель соответствует результатам наблюдения, и обнаружить нарушение постоянства дисперсии.
  • Для проверки предположения о нормальном распределении ошибок используйте гистограммы, диаграммы «ствол и листья», блочные диаграммы и графики нормального распределения.
  • Если условия применимости метода наименьших квадратов не выполняются, используйте альтернативные методы (например, модели квадратичной или множественной регрессии).
  • Если условия применимости метода наименьших квадратов выполняются, необходимо проверить гипотезу о статистической значимости коэффициентов регрессии и построить доверительные интервалы, содержащие математическое ожидание и предсказанное значение отклика.
  • Избегайте предсказывать значения зависимой переменной за пределами диапазона изменения независимой переменной.
  • Имейте в виду, что статистические зависимости не всегда являются причинно-следственными. Помните, что корреляция между переменными не означает наличия причинно-следственной зависимости между ними.

Резюме. Как показано на структурной схеме (рис. 27), в заметке описаны модель простой линейной регрессии, условия ее применимости и способы проверки этих условий. Рассмотрен t -критерий для проверки статистической значимости наклона регрессии. Для предсказания значений зависимой переменной использована регрессионная модель. Рассмотрен пример, связанный с выбором места для торговой точки, в котором исследуется зависимость годового объема продаж от площади магазина. Полученная информация позволяет точнее выбрать место для магазина и предсказать его годовой объем продаж. В следующих заметках будет продолжено обсуждение регрессионного анализа, а также рассмотрены модели множественной регрессии.

Рис. 27. Структурная схема заметки

Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 792–872

Если зависимая переменная является категорийной, необходимо применять логистическую регрессию.

Применение линейной регрессии в прогнозировании

Прогнозирование - это самостоятельная отрасль науки, которая находит широкое применение во всех сферах человеческой деятельности. Существует большое разнообразие видов и способов прогнозирования, разработанных с учетом характера рассматриваемых задач, целей исследования, состояния информации. Этим вопросам посвящено много книг и журнальных статей. Покажем на примере линейной регрессии применение эконометрических моделей в прогнозировании значений экономических показателей.

В обыденном понимании прогнозирование - это предсказание будущего состояния интересующего нас объекта или явления на основе ретроспективных данных о прошлом и настоящем состояниях при условии наличия причинно-следственной связи между прошлым и будущим. Можно сказать, что прогноз - это догадка, подкрепленная знанием. Поскольку прогностические оценки по сути своей являются приближенными, может возникнуть сомнение относительно его целесообразности вообще. Поэтому основное требование, предъявляемое к любому прогнозу, заключается в том, чтобы в пределах возможного минимизировать погрешности в соответствующих оценках. По сравнению со случайными и интуитивными прогнозами, научно обоснованные и планомерно разрабатываемые прогнозы без сомнения являются более точными и эффективными. Как раз такими являются прогнозы, основанные на использовании методов статистического анализа. Можно утверждать, что из всех способов прогнозирования именно они внушают наибольшее доверие, во-первых, потому что статистические данные служат надежной основой для принятия решений относительно будущего, во-вторых, такие прогнозы вырабатываются и подвергаются тщательной проверке с помощью фундаментальных методов математической статистики.

Оценка параметров линейной регрессии представляет собой прогноз истинных значений этих параметров, выполненный на основе статистических данных. Полученные прогнозы, оказываются достаточно эффективными, так как они являются несмещенными оценками истинных параметров.

Применим модель линейной регрессии (8.2.4) с найденными параметрами (8.2.8) и (8.2.9) для определения объясняемой переменной на некоторое множество ненаблюдаемых значений объясняющей переменной . Точнее говоря, поставим задачу прогнозирования среднего значения , соответствующего некоторому значению объясняющей переменной , которое не совпадает ни с одним значением . При этом может лежать как между выборочными наблюдениями так и вне интервала . Прогноз значения может быть точечным или интервальным. Ограничимся рассмотрением точечного прогноза, т.е. искомое значение определим в виде

где - наблюдаемые значения случайной величины , а - коэффициенты (веса), которые должны быть выбраны так, чтобы был наилучшим линейным несмещенным прогнозом, т.е. чтобы

Из (8.5.1) для наблюдаемых значений

Так как по свойству математического ожидания ((2.5.4) - (2.5.5))

,

Но так как в правой части под оператором математического ожидания стоят только постоянные числа, то

Учитывая соотношение можем сказать теперь, что будет несмещенным линейным прогнозом для тогда и только тогда, когда

Следовательно, всякий вектор удовлетворяющий условиям (8.5.2), делает выражение (8.5.1) несмещенным линейным прогнозом величины . Поэтому надо найти конкретное выражение весов через известные нам величины. Для этого решим задачу минимизации дисперсии величины :

Так как под оператором дисперсии в первом слагаемом правой части уравнения стоят постоянные числа, то

С учетом предположений b) и c) и пользуясь свойствами дисперсии (2.5.4) и (2.5.6), имеем:

где - среднеквадратическое отклонение случайной величины .

Составим оптимизационную задачу минимизации дисперсии с ограничениями (8.5.2):

при ограничениях

Так как множитель не зависит от и не влияет на минимальное значение целевой функции, то функцию Лагранжа (см. (2.3.8)) сконструируем следующим образом:

где и - множители Лагранжа. Необходимые условия оптимальности точки имеют вид (см. (2.3.9)):

(8.5.3)

Просуммировав первое уравнение по , с учетом второго уравнения получим:

Отсюда находим множитель Лагранжа

где - среднее значение случайной величины . Полученное значение вновь подставим в первое уравнение системы (8.5.3) и найдем

Одной из центральных задач эконометрического моделирования является предсказание (прогнозирование) значений зависимой переменной при определенных значениях объясняющих переменных при определенных значениях объясняющих переменных. Здесь возможен двоякий подход: либо предсказать условное математическое ожидание зависимой переменной (предсказание среднего значения ), либо прогнозировать некоторое конкретное значение зависимой переменной (предсказание конкретного значения ).

Замечание. Некоторые авторы различают такие понятия, как прогнозирование и предсказание. Если значение объясняющей переменной X известно точно, то оценивание зависимой переменной Y называется предсказанием . Если же значение объясняющей переменной X неизвестно точно, то говорят, что делается прогноз значения Y . Такая ситуация характерна для временных рядов. В данном случае мы не будем различать предсказание и прогноз.

Различают точечное и интервальное прогнозирование. В первом случае оценка – некоторое число, во втором – интервал, в котором находится истинное значение зависимой переменной с заданным уровнем значимости.

а) Предсказание среднего значения . Пусть построено уравнение парной регрессии , на основе которого необходимо предсказать условное математическое ожидание . В данном случае значение является точечной оценкой . Тогда естественно возникает вопрос, как сильно может отклониться модельное значение , рассчитанное по эмпирическому уравнению, от соответствующего условного математического ожидания. Ответ на этот вопрос даётся на основе интервальных оценок, построенных с заданным уровнем значимости a при любом конкретном значении x p объясняющей переменной.

Запишем эмпирическое уравнение регрессии в виде

Здесь выделены две независимые составляющие: средняя и приращение . Отсюда вытекает, что дисперсия будет равна

Из теории выборки известно, что

Используя в качестве оценки s 2 остаточную дисперсию S 2 , получим



Дисперсия коэффициента регрессии, как уже было показано

Подставляя найденные дисперсии в (5.41), получим

. (5.56)

Таким образом, формула расчета стандартной ошибки предсказываемого по линии регрессии среднего значения Y имеет вид

. (5.57)

Величина стандартной ошибки , как видно из формулы, достигает минимума при , и возрастает по мере удаления от в любом направлении. Иными словами, больше разность между и , тем больше ошибка с которой предсказывается среднее значение y для заданного значения x p . Можно ожидать наилучшие результаты прогноза, если значения x p находятся в центре области наблюдений X и нельзя ожидать хороших результатов прогноза по мере удаления от .

Случайная величина

(5.58)

имеет распределение Стьюдента с числом степеней свободы n=n –2 (в рамках нормальной классической модели ). Следовательно, по таблице критических точек распределения Стьюдента по требуемому уровню значимости a и числу степеней свободы n=n –2 можно определить критическую точку , удовлетворяющую условию

.

С учетом (5.46) имеем:

.

Отсюда, после некоторых алгебраических преобразований, получим, что доверительный интервал для имеет вид:

, (5.59)

где предельная ошибка D p имеет вид

. (5.60)

Из формул (5.57) и (5.60) видно, что величина (длина) доверительного интервала зависит от значения объясняющей переменной x p : при она минимальна, а по мере удаления x p от величина доверительного интервала увеличивается (рис. 5.4). Таким образом, прогноз значений зависимой переменной Y по уравнению регрессии оправдан, если значение x p объясняющей переменной X не выходит за диапазон ее значений по выборке (причем более точный, чем ближе x p к ). Другими словами, экстраполяция кривой регрессии, т.е. её использование вне пределов обследованного диапазона значений объясняющей переменной (даже если она оправдана для рассматриваемой переменной исходя из смысла решаемой задачи) может привести к значительным погрешностям .

б) Предсказание индивидуальных значений зависимой переменной . На практике иногда более важно знать дисперсию Y , чем ее средние значения или доверительные интервалы для условных математических ожиданий. Это связано с тем, что фактические значения Y варьируют около среднего значения . Индивидуальные значения Y могут отклоняться от на величину случайной ошибки e, дисперсия которой оценивается как остаточная дисперсия на одну степень свободы S 2 . Поэтому ошибка предсказываемого индивидуального значения Y должны включать не только стандартную ошибку , но и случайную ошибку S . Это позволяет определять допустимые границы для конкретного значения Y .

Пусть нас интересует некоторое возможное значение y 0 переменной Y при определенном значении x p объясняющей переменной X . Предсказанное по уравнению регрессии значение Y при X =x p составляет y p . Если рассматривать значение y 0 как случайную величину Y 0 , а y p – как случайную величину Y p , то можно отметить, что

,

.

Случайные величины Y 0 и Y p являются независимыми, а следовательно, случайная величина U = Y 0 –Y p имеет нормальное распределение с

И . (5.61)

Используя в качестве s 2 остаточную дисперсию S 2 , получим формулу расчета стандартной ошибки предсказываемого по линии регрессии индивидуального значения Y :

. (5.63)

Случайная величина

(5.64)

имеет распределение Стьюдента с числом степеней свободы k =n –2. На основании этого можно построить доверительный интервал для индивидуальных значений Y p :

, (5.65)

где предельная ошибка D u имеет вид

. (5.66)

Заметим, что данный интервал шире доверительного интервала для условного математического ожидания (см. рис. 5.4).

Пример 5.5. По данным примеров 5.1-5.3 рассчитать 95%-ый доверительный интервал для условного математического ожидания и индивидуального значения при x p =160.

Решение. В примере 5.1 было найдено . Воспользовавшись формулой (5.48), найдем предельную ошибку для условного математического ожидания

Тогда доверительный интервал для среднего значения на уровне значимости a=0,05 будет иметь вид

Другими словами, среднее потребление при доходе 160 с вероятностью 0,95 будет находиться в интервале (149,8; 156,6).

Рассчитаем границы интервала, в котором будет сосредоточено не менее 95% возможных объёмов потребления при уровне дохода x p =160, т.е. доверительный интервал для индивидуального значения . Найдем предельную ошибку для индивидуального значения

Тогда интервал, в котором будут находиться, по крайней мере, 95% индивидуальных объёмов потребления при доходе x p =160, имеет вид

Нетрудно заметить, что он включает в себя доверительный интервал для условного среднего потребления. â

ПРИМЕРЫ

Пример 5.65. По территориям региона приводятся данные за 199X г. (таб. 1.1).

2. Построить линейное уравнение парной регрессии y на x и оценить статистическую значимость параметров регрессии. Сделать рисунок.

3. Оценить качество уравнения регрессии при помощи коэффициента детерминации. Проверить качество уравнения регрессии при помощи F -критерия Фишера.

4. Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x , составляющем 107% от среднего уровня. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал для уровня значимости a=0,05. Сделать выводы.

Решение

1. Для определения степени тесноты связи обычно используют коэффициент корреляции :

где , – выборочные дисперсии переменных x и y . Для расчета коэффициента корреляции строим расчетную таблицу (табл. 5.4):

Таблица 5.4

x y xy x 2 y 2 e 2
148,77 -15,77 248,70
152,45 -4,45 19,82
157,05 -23,05 531,48
149,69 4,31 18,57
158,89 3,11 9,64
174,54 20,46 418,52
138,65 0,35 0,13
157,97 0,03 0,00
144,17 7,83 61,34
157,05 4,95 24,46
146,93 12,07 145,70
182,83 -9,83 96,55
Итого 1574,92
Среднее значение 85,58 155,75 13484,00 7492,25 24531,42

По данным таблицы находим:

, , , ,

, , , ,

, .

Таким образом, между заработной платой (y) и среднедушевым прожиточным минимумом (x) существует прямая достаточно сильная корреляционная зависимость .

Для оценки статистической значимости коэффициента корреляции рассчитаем двухсторонний t-критерий Стьюдента :

который имеет распределение Стьюдента с k =n –2 и уровнем значимости a. В нашем случае

и .

Поскольку , то коэффициент корреляции существенно отличается от нуля.

Для значимого коэффициента можно построить доверительный интервал , который с заданной вероятностью содержит неизвестный генеральный коэффициент корреляции. Для построения интервальной оценки (для малых выборок n <30), используют z-преобразование Фишера :

Распределение z уже при небольших n является приближенным нормальным распределением с математическим ожиданием и дисперсией . Поэтому вначале строят доверительный интервал для M[z ], а затем делают обратное z -преобразование. Применяя z -преобразование для найденного коэффициента корреляции, получим

Доверительный интервал для M(z ) будет иметь вид

,

где t g находится с помощью функции Лапласа F(t g)=g/2. Для g=0,95 имеем t g =1,96. Тогда

или . Обратное z -преобразование осуществляется по формуле

В результате находим

.

В указанных границах на уровне значимости 0,05 (с надежностью 0,95) заключен генеральный коэффициент корреляции r.

2. Таким образом, между переменными x и y имеет существенная корреляционная зависимость. Будем считать, что эта зависимость является линейной. Модель парной линейной регрессии имеет вид

,

где y – зависимая переменная (результативный признак), x – независимая (объясняющая) переменная, e – случайные отклонения, b 0 и b 1 – параметры регрессии. По выборке ограниченного объема можно построить эмпирическое уравнение регрессии:

где b 0 и b 1 – эмпирические коэффициенты регрессии. Для оценки параметров регрессии обычно используют метод наименьших квадратов (МНК ). В соответствие с МНК, сумма квадратов отклонений фактических значений зависимой переменной y от теоретических была минимальной:

,

где отклонения y i от оцененной линии регрессии. Необходимым условием существования минимума функции двух переменных является равенство нулю ее частных производных по неизвестным параметрам b 0 и b 1 . В результате получаем систему нормальных уравнений:

Решая эту систему, найдем

, .

По данным таблицы находим

Получено уравнение регрессии:

Параметр b 1 называется коэффициентом регрессии . Его величина показывает среднее изменение результата с изменением фактора на одну единицу. В рассматриваемом случае, с увеличением среднедушевого минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб .

,

где F подчиняется распределению Фишера с уровнем значимости a и степенями свободы k 1 =1 и k 2 =n –2. В нашем случае

.

Поскольку критическое значение критерия равно

и , то признается статистическая значимость построенного уравнения регрессии. Отметим, что для линейной модели F - и t -критерии связаны равенством , что можно использовать для проверки расчётов.

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Прогнозное значение y p определяется путем подстановки в уравнение регрессии (1.16) соответствующего (прогнозного) значения x p

ЛЕКЦИЯ 5 99

§5.2. Анализ точности оценок коэффициентов регрессии 99

5.2.1. Оценка дисперсии случайного отклонения 99

5.2.2. Проверка гипотез относительно коэффициентов регрессии 100

5.2.3. Интервальные оценка коэффициентов регрессии 103

§5.3. Показатели качества уравнения регрессии 104

5.3.1. Коэффициент детерминации 104

5.3.2. Проверка общего качества уравнения регрессии: F-тест 106

5.3.3. Проверка общего качества уравнения регрессии: t-тест 108

§5.4. Интервалы прогноза по уравнению регрессии 108

Прогнозирование по модели множественной линейной регрессии предполагает оценку ожидаемых значений зависимой переменной при заданных значениях независимых переменных, входящих в уравнение регрессии. Различают точечный и интервальный прогнозы.

Точечный прогноз – это расчетное значение зависимой переменной, полученное подстановкой в уравнение множественной линейной регрессии прогнозных (заданных исследователем) значений независимых переменных. Если заданы значения , то прогнозное значение зависимой переменной (точечный прогноз) будет равно

Интервальный прогноз – это минимальное и максимальное значения зависимой переменной, в промежуток между

которыми она попадает с заданной долей вероятности и при заданных значениях независимых переменных.

Интервальный прогноз для линейной функции вычисляется по формуле

где t T – теоретическое значение критерия Стьюдента при df=n- – т – 1 степенях свободы; s y – стандартная ошибка прогноза, вычисляемая по формуле

(2.57)

где Х – матрица исходных значений независимых переменных; Х пр – матрица-столбец прогнозных значений независимых переменных вида

Найдем прогнозные значения поступления налогов (пример 2.1), при условии, что связь между показателями описывается уравнением

Зададим прогнозные значения независимых переменных:

  • – количество занятых Xj: 500 тыс. человек;
  • – объем отгрузки в обрабатывающих производствах х 2: 65 000 млн руб.;
  • – производство энергии х3:15 000 млн руб.

Найдем точечный и интервальный прогноз поступления налогов.

При заданных значения независимых переменных поступление налогов в среднем составит

Вектор прогнозных значений независимых переменных будет иметь вид

Ошибка прогноза, рассчитанная по формуле (2.57), составила 5556,7. Табличное значение t-критерия при числе степеней свободы df = 44 и уровне значимости а = 0,05 равно 2,0154. Следовательно, прогнозные значения поступления налогов будут с вероятностью 0,95 находиться в границах:

от 18 013,69 – 2,0154-5556,7=6814,1 млн руб.;

до 18 013,69 + 2,0154-5556,7=29 212 млн руб.

Прогнозирование по нелинейным моделям множественной регрессии также можно осуществлять по формулам (2.55)–(2.57), предварительно линеаризовав указанные модели.

Мультиколлинеарность данных

При построении эконометрической модели предполагается, что независимые переменные воздействуют на зависимую изолированно, т. е. влияние отдельной переменной на результативный признак не связано с влиянием других переменных. В реальной экономической действительности все явления в той или иной мере связаны, поэтому добиться выполнения этого предположения практически невозможно. Наличие связи между независимыми переменными приводит к необходимости оценки ее влияния на результаты корреляционно-регрессионного анализа.

Различают функциональные и стохастические связи между объясняющими переменными. В первом случае говорят об ошибках спецификации модели, которые должны быть исправлены.

Функциональная связь возникает, если в уравнение регрессии в качестве объясняющих переменных включают, в частности, все переменные, входящие в тождество. Например, можно сказать, что доход У складывается из потребления С и инвестиций I, т. е. имеет место тождество. Мы предполагаем, что уровень процентных ставок г зависит от дохода, т.е. модель в общем виде может быть представлена в виде

Неопытный исследователь, желая улучшить модель, может включить в уравнение также переменные "потребление" и "инвестиции", что приведет к функциональной связи между объясняющими переменными:

Функциональная взаимосвязь столбцов матрицы X приведет к невозможности найти единственное решение уравнения

регрессии, так как, а нахождение обратной

матрицыпредполагает деление алгебраических дополнений матрицына ее определитель, который в дан

ном случае будет равен нулю.

Более часто между объясняющими переменными наблюдается стохастическая связь, что приводит к уменьшению

величины определителя матрицы: чем сильнее связь,

тем меньше будет определитель. Это приводит к росту не только оценок параметров, полученных с использованием МНК, но и их стандартных ошибок, которые вычисляются по формуле (2.24):

в которой, как мы видим, также используется матрица Корреляционная связь может существовать как между двумя объясняющими переменными (интеркорреляция ), так и между несколькими (мультиколлинеарность).

Существует несколько признаков, указывающих на наличие мультиколлинеарности. В частности, такими признаками являются:

  • – не соответствующие экономической теории знаки коэффициентов регрессии. Например, нам известно, что объясняющая переменная х оказывает прямое воздействие на объясняемую переменную у, в то же время коэффициент регрессии при этой переменной меньше нуля;
  • – значительные изменения параметров модели при небольшом сокращении (увеличении) объема исследуемой совокупности;
  • – незначимость параметров регрессии, обусловленная высокими значениями стандартных ошибок параметров.

Существование корреляционной связи между независимыми переменными может быть выявлено с помощью показателей корреляции между ними, в частности с помощью парных коэффициентов корреляции r XiX, которые можно записать в виде матрицы

(2.58)

Коэффициент корреляции переменной с самой собой равен единице хх = 1), а коэффициент корреляции переменной*, с переменной *,■ равен коэффициенту корреляции переменной XjC переменной X, х х х х ). Следовательно, данная матрица является симметрической, поэтому в ней указывают только главную диагональ и элементы под ней:

Высокие значения парных линейных коэффициентов корреляции указывают на наличие интеркорреляции, т.е. линейной связи между двумя объясняющими переменными. Чем выше величина , тем выше интеркорреляция. Так как при построении моделей избежать отсутствия связей между объясняющими переменными практически невозможно, существует следующая рекомендация относительно включения двух переменных в модель в качестве объясняющих. Обе переменные можно включить в модель, если выполняются соотношения

т.е. теснота связи результирующей и объясняющей переменных больше, чем теснота связи между объясняющими переменными.

Наличие мультиколлинеарности можно подтвердить, найдя определитель матрицы (2.58). Если связь между независимыми переменными полностью отсутствует, то недиагональные элементы будут равны нулю, а определитель матрицы – единице. Если связь между независимыми переменными близка к функциональной (т.е. является очень тесной), то определитель матрицы гхг будет близок к нулю.

Еще один метод измерения мультиколлинеарности является следствием анализа формулы стандартной ошибки коэффициента регрессии (2.28):

Как следует из данной формулы, стандартная ошибка будет тем больше, чем меньше будет величина, которую называют фактор инфляции дисперсии (или фактор вздутия дисперсии ) VIF:

где – коэффициент детерминации, найденный для уравнения зависимости переменной Xj от других переменных , входящих в рассматриваемую модель множественной регрессии.

Так как величина отражает тесноту связи между переменной Xj и прочими объясняющими переменными, то она, по сути, характеризует мультиколлинеарность применительно К данной переменной Xj. При отсутствии связи показатель VIF X будет равен (или близок) единице, усиление связи ведет к стремлению этого показателя к бесконечности. Считают, что если VIF X >3 для каждой переменной *, то имеет место мультиколлинеарность.

Измерителем мультиколлинеарности является также так называемый показатель (число) обусловленности матрицы . Он равен отношению максимального и минимального собственных чисел этой матрицы:

Считается, что если порядок этого соотношения превышает 10s–106, то имеет место сильная мультиколлинеарность .

Проверим наличие мультиколлинеарности в рассматриваемом нами примере 2.1. Матрица парных коэффициентов корреляции имеет вид

Можно отметить, что связи между объясняющими переменными достаточно тесные, особенно между переменными.Xj и х2; X] и х3, что указывает на интеркорреляцию этих переменных. Более слабая связь наблюдается между переменными х2 и х3. Найдем определитель матрицы г^..

Полученное значение ближе к нулю, чем к единице, что указывает на наличие мультиколлинеарности объясняющих переменных.

Проверим обоснованность включения всех трех независимых переменных в модель регрессии, используя правило (2.59). Парные линейные коэффициенты корреляции зависимой и независимых переменных равны

Они больше, чем показатели тесноты связи между независимыми переменными, следовательно, правило (2.59) выполняется, все три переменные можно включить в модель регрессии.

Измерим степень мультиколлинеарности переменных с помощью фактора инфляции дисперсии (VIF ). Для этого необходимо рассчитать коэффициенты детерминации для регрессий:

Для этого к каждой регрессии необходимо применить МНК, оценить ее параметры и рассчитать коэффициент детерминации. Для нашего примера результаты расчетов следующие:

Следовательно, фактор инфляции дисперсии для каждой независимой переменной будет равен

Все рассчитанные величины не превысили критического значения, равного трем, следовательно, при построении модели можно пренебречь существованием связей между независимыми переменными.

Для нахождения собственных чисел матрицы (с целью расчета показателя обусловленности η (2.60)) необходи мо найти решение характеристического уравнения

Матрица для нашего примера имеет вид

а матрица, модуль определителя которой нужно приравнять нулю, получится следующей:

Характеристический многочлен в данном случае будет иметь четвертую степень, что затрудняет решение задачи вручную. В данном случае рекомендуется воспользоваться возможностями вычислительной техники. Например, в ППП EViews получены следующие собственные числа матрицы :

Следовательно, показатель обусловленности η будет равен

что свидетельствует о наличии в модели сильной мультиколлинеарности.

Методами устранения мультиколлинеарности являются следующие.

  • 1. Анализ связей между переменными, включаемыми в модель регрессии в качестве объясняющих (независимых), с целью отбора только тех переменных, которые слабо связаны друг с другом.
  • 2. Функциональные преобразования тесно связанных между собой переменных. Например, мы предполагаем, что поступление налогов в городах зависит от количества жителей и площади города. Очевидно, что эти переменные будут тесно связаны. Их можно заменить одной относительной переменной "плотность населения".
  • 3. Если по каким-то причинам перечень независимых переменных не подлежит изменению, то можно воспользоваться специальными методами корректировки моделей с целью исключения мультиколинеарности: ридж-регрессией (гребневой регрессией), методом главных компонент.

Применение ридж-регрессии предполагает корректировку элементов главной диагонали матрицы на некую произвольно задаваемую положительную величину τ. Значение рекомендуется брать от 0,1 до 0,4. Н. Дрейпер, Г. Смит в своей работе приводят один из способов "автоматического" выбора величины τ, предложенный Хоэрлом, Кеннардом и Белдвином :

(2.61)

где т – количество параметров (без учета свободного члена) в исходной модели регрессии; SS e – остаточная сумма квадратов, полученная по исходной модели регрессии без корректировки на мультиколлинеарность; а – вектор-столбец коэффициентов регрессии, преобразованных по формуле

(2.62)

где cij – параметр при переменной у, в исходной модели регрессии.

После выбора величины τ формула для оценки параметров регрессии будет иметь вид

(2.63)

где I – единичная матрица; X, – матрица значений независимых переменных: исходных или преобразованных по формуле (2.64); Υ τ – вектор значений зависимой переменной: исходных или преобразованных по формуле (2.65).

(2.64)

и результативную переменную

В этом случае после оценки параметров по формуле (2.63) необходимо перейти к регрессии по исходным переменным, используя соотношения

Оценки параметров регрессии, полученные с помощью формулы (2.63), будут смещенными. Однако, так как определитель матрицы больше определителя матрицы , дисперсия оценок параметров регрессии уменьшится, что положительно повлияет на прогнозные свойства модели.

Рассмотрим применение ридж-регрессии для примера 2.1. Найдем величину τ с помощью формулы (2.61). Для этого сначала рассчитаем вектор преобразованных коэффициентов регрессии по формуле (2.62):

Произведение равно 1,737-109. Следовательно, рекомендуемое τ составит

После применения формулы (2.63) и преобразований по фор муле (2.66) получим уравнение регрессии

Применение метода главных компонент предполагает переход от взаимозависимых переменных х к независимым друг от друга переменным ζ, которые называют главными

компонентами . Каждая главная компонента z, может быть представлена как линейная комбинация центрированных (или стандартизованных) объясняющих переменных t:. Напомним, что центрирование переменной предполагает вычитание из каждого і-го значения данной j-й переменной ее среднего значения:

а стандартизация (масштабирование) –деление выражения (2.67) на среднее квадратическое отклонение, рассчитанное для исходных значений переменной Xj

Так как независимые переменные часто имеют разный масштаб измерения, формула (2.68) считается более предпочтительной.

Количество компонент может быть меньше или равно количеству исходных независимых переменных р. Компоненту с номером к можно записать следующим образом:

(2.69)

Можно показать, что оценки в формуле (2.69) соответствуют элементам к- го собственного вектора матрицы , где Т – матрица размером , содержащая стандартизованные переменные. Нумерация главных компонент не является произвольной. Первая главная компонента имеет максимальную дисперсию, ей соответствует максимальное собственное число матрицы ; последняя – минимальную дисперсию и наименьшее собственное число.

Доля дисперсии к- й компоненты в общей дисперсии независимых переменных рассчитывается по формуле

где Х к – собственное число, соответствующее данной компоненте; в знаменателе формулы (2.70) приведена сумма всех собственных чисел матрицы .

После расчета значений компонент z, строят регрессию, используя МНК. Зависимую переменную в регрессии по главным компонентам (2.71) целесообразно центрировать (стандартизовать) по формулам (2.67) или (2.68).

где t y – стандартизованная (центрированная) зависимая переменная; – коэффициенты регрессии по главным компонентам; – главные компоненты, упорядоченные по убыванию собственных чисел Х к; δ – случайный остаток.

После оценки параметров регрессии (2.71) можно перейти к уравнению регрессии в исходных переменных, используя выражения (2.67)–(2.69).

Рассмотрим применение метода главных компонент на данных примера 2.1. Отметим, что матрица для стандартизованных переменных является в то же время матрицей парных линейных коэффициентов корреляции между независимыми переменными. Она уже была рассчитана и равна

Найдем собственные числа и собственные векторы этой матрицы, используя ППП Eviews. Получим следующие результаты.

Собственные числа матрицы :

Доля дисперсии независимых переменных, отражаемой компонентами, составила

Объединим собственные векторы матрицы , записав их как столбцы приведенной ниже матрицы F. Они упорядочены по убыванию собственных чисел, т.е. первый столбец является собственным вектором максимального собственного числа и т.д.:

Следовательно, три компоненты (соответствующие трем собственным векторам) можно записать в виде

После стандартизации исходных переменных по формуле (2.68) и расчета значений компонент (по n значений каждой компоненты) с помощью МНК найдем параметры уравнения (2.71):

В полученном уравнении регрессии значим только параметр при первой компоненте. Это закономерный результат с учетом того, что данная компонента описывает 70,8% вариации независимых переменных. Так как компоненты независимы, при исключении из модели одних компонент параметры уравнения при других компонентах не меняются. Таким образом, имеем уравнение регрессии с одной компонентой:

Преобразуем полученное выражение в регрессию с исходными переменными

Таким образом, используя метод главных компонент, мы получили уравнение регрессии

Устранение мультиколлинеарности с помощью ридж-регрессии и метода главных компонент привело к определенному изменению параметров исходной регрессии, которая имела вид

Отметим, что эти изменения были относительно невелики, что указывает на невысокую степень мультиколлинеарности.

  • См., например, Вучков И., Бояджиева Л., Солаков Е. Прикладной регрессионный анализ: пер. с болг. M.: Финансы и статистика, 1987. С. 110.
  • Дрейпер Н., Смит Г. Указ. соч. С. 514.