Интервальная оценка регрессионного уравнения

Макаркин Алексей Александрович, к.ф.-м.н., доцент кафедры информационных технологий и прикладной математики.

Рассмотрим типичную задачу анализа экономической деятельности предприятий методами математической статистики. Собраны исходные данные по 6 предприятиям для выяснения зависимости прибыли (Y) от величины оборотных средств (X1) и стоимости основных фондов (X2). Эту зависимость построим как регрессионное уравнение и оценим результаты.

Решать задачу будем в табличном процессоре Excel в стандартной надстройке «Пакет анализа». Она вызывается командой меню Сервис Þ Анализ данных Þ Регрессия.

Запишем таблицу исходных данных на отдельном рабочем листе. Технология требует, чтобы сначала был записан столбец данных зависимого признака Y, а затем столбцы данных регрессоров X1 и X2. Это даст возможность усложнять регрессионную модель, добавляя справа столбцы новых регрессоров.

 

A

B

C

D

E

1

Единицы измерения млн. руб.

Прибыль

Величина оборотных средства

Стоимость основных фондов

 

2

Название

Y

X1

X2

 

3

Хозяйство 1

188

129

510

 

4

Хозяйство 2

78

64

190

 

5

Хозяйство 3

93

69

240

 

6

Хозяйство 4

152

87

470

 

7

Хозяйство 5

55

47

110

 

8

Хозяйство 6

161

102

420

 

9

 

 

 

 

 

Мы специально взяли мало предприятий (6), чтобы показать наиболее типичный случай в практике работы экономиста. Чтобы результаты можно было представить графически на 2-х мерной диаграмме Excel, ограничимся случаем одного регрессора X1 и построим уравнение    y = a0 + a1·x1

В окно макроса «Регрессия» введем следующие значения

Флажок «Метки» установлен, так как входные интервалы Y и X содержат заголовки столбцов, ячейки B2 и C2. Таблицы результатов будут на отдельном рабочем листе.

Оценка полученных результатов

При заданных установках режим «Регрессия» рассчитает три таблицы: «Регрессионная статистика», «Дисперсионный анализ», «Коэффициенты и оценки». Из-за ограниченности объема статьи рассмотрим не все значения в таблицах. Логичнее начать со второй таблицы.

Таблица «Дисперсионный анализ»

Дисперсионный анализ

 

 

 

 

 

df

SS

MS

F

Значимость F

Регрессия

1

13119,56

13119,56

57,09

0,0016

Остаток

4

919,27

229,82

 

 

Итого

5

14038,83

 

 

 

Столбец df содержит число степеней свободы k, знаменатели при вычислении несмещенных выборочных дисперсий    MS=SS/k . Для регрессии это число регрессоров kрег=m=1. Для остатка это kост=N−(m+1) , число исходных точек минус число коэффициентов уравнения регрессии и минус свободный член. Для выборочной общей дисперсии, строка «Итого», число степеней свободы kобщ=N1. Одна степень свободы «украдена» свободным членом регрессионного уравнения.

Степени свободы связаны соотношением: kобщ = kрег + kост

Столбец SS содержит суммы квадратов отклонений от среднего значения результирующего признака .

Регрессия    регрессионная или факторная, сумма квадратов уклонений от  теоретических значений, рассчитанных по регрессионному уравнению.

Остаток      остаточная, сумма квадратов уклонений исходных значений от теоретических значений.

Итого          общая, сумма квадратов уклонений исходных значений от . Она записана в строке «».

Суммы связаны основным соотношением дисперсионного анализа:

SSобщ = SSрег + SSост

Чем больше SSрег (или чем меньше SSост), тем лучше регрессионное уравнение аппроксимирует облако исходных точек. В нашем случае SSост мала по сравнению с SSобщ . Уравнение регрессии хорошо аппроксимирует облако исходных точек.

Столбец MS содержит несмещенные выборочные дисперсии, регрессионную и остаточную, степеней свободы взяты из столбца df.

MSрег = SSрег / m                 MSост = SSост / (Nm1)

Таблица «Регрессионная статистика»

Регрессионная статистика

Множественный R

0,9667

Rквадрат

0,9345

Нормированный Rквадрат

0,9181

Стандартная ошибка

15,1598

Наблюдения

6

Rквадрат  для характеристики качества регрессионного уравнения вычисляется безразмерная величина, коэффициент детерминации R2, или квадрат коэффициента множественной корреляции (Множественный R)

R2 = SSрег / SSобщ = 0,9345

То есть 93,45% вариации результирующего признака Y объясняется вариацией регрессоров X1 и X2. Другими словами, 93,45% изменений признака Y описывается регрессионным уравнением, а 6,55% – другими причинами.

Нормированный R–квадрат скорректированный (адаптированный, подправленный – adjusted) коэффициент детерминации:

Недостатком коэффициента детерминации R2 является то, что он увеличивается при добавлении новых регрессоров, потому что при этом всегда увеличивается сумма SSрег. Но это не обязательно означает улучшение качества регрессионной модели. Коэффициент нового регрессора может оказаться незначимым, слишком широк его доверительный интервал..

В этом смысле предпочтительнее использовать . Добавление нового регрессора увеличивает SSрег , R2 , уменьшает числитель и знаменатель (m увеличивается на 1). Формула устроена так, что  увеличится, если только достаточно значимо возрастет сумма SSрег .

При добавлении или исключении из уравнения очередного регрессора нужно сравнивать  с предыдущим значением.

Стандартная ошибка содержит несмещенное выборочное остаточное стандартное отклонение         

Обратите внимание, что нельзя вычислить выборочное остаточное стандартное отклонение, когда число исходных точек равно числу коэффициентов уравнения регрессии, или меньше.

Так же как и коэффициент , параметр σ0 нужно сравнивать с предыдущим расчетом для другого числа регрессоров.

Таблица «Коэффициенты и оценки»

Коэффициенты и оценки

Коэффи
циенты

Стандартная
ошибка

t-стати
стика

P-Зна
чение

Нижние
 95%

Верхние
 95%

Yпересечение

-23,0425

20,0648

-1,1484

0,3148

-78,7514

32,6664

X1

1,7375

0,2300

7,5556

0,0016

1,0990

2,3759

Последняя таблица содержит коэффициенты для регрессоров и их оценки. Названия строк показывают, с каким регрессором связаны рассчитанные значения. Строка Y-пересечение не связана ни с одним регрессором, это свободный коэффициент.

Столбец Коэффициенты   содержит значения коэффициентов уравнения регрессии. Здесь получилось:                

Регрессионное уравнение должно проходить через центр облака исходных точек. Если подставить в регрессионное уравнение средние значения по регрессору X1=83,000 , то должно получиться среднее значение по зависимому признаку Y=121,167 . Все правильно.

Большинство пользователей смотрит только этот столбец и, не задумываясь, использует уравнение регрессии в своих исследованиях. Но вычисление коэффициентов уравнения регрессии это обычная оптимизационная задача построения аппроксимирующего уравнения.

Математическая статистика начинается с анализа стандартных ошибок коэффициентов и расчета интервальных оценок регрессионного уравнения. Это может в корне перевернуть выводы, сделанные неискушенным исследователем. Оптимист – это плохо информированный пессимист.

Столбец Стандартная ошибка содержит выборочные стандартные отклонения по каждому коэффициенту уравнения регрессии, стандартные ошибки коэффициентов. Они вычисляются по формулам:

                  

Если стандартная ошибка больше абсолютной величины коэффициента, это коэффициент незначимый. Этот коэффициент (свободный член или регрессор) нужно исключить из уравнения регрессии и пересчитать таблицы. Но это грубый анализ. Столбец t-статистика дает более точную оценку значимости коэффициентов.

Общая причина большой стандартной ошибки – большое значение остаточной суммы квадратов уклонений SSост , малое число исходных точек N и малое значение дисперсии по X. Для отдельных регрессоров это может быть компенсировано большой дисперсией по X (она в знаменателе стандартной ошибки). Регрессоры с малыми единицами измерения – первые кандидаты на удаление. Положение может поправить нормализация исходных данных.

Столбец t-статистика содержит значения t-критерия, рассчитанные по формуле:         tр = (Коэффициент) / (Стандартная ошибка)

Этот критерий имеет закон распределения Стьюдента с числом степеней свободы N(m+1) : число исходных точек, минус число регрессоров, минус свободный член, если есть.

Если коэффициент ai значимый для регрессионного уравнения, должна быть отвергнута гипотеза H0: ai=0 – регрессор не входит в уравнение. Для этого при стандартном уровне надежности 95% соответствующий критерий ti должен попадать в 5% двухстороннюю критическую область. Для нашего случая вычислим границу критической области ±tкр:

tкр = СТЬЮДРАСПОБР( 1–0,95 ; 6–1–1 ) = 2,78

Незначимым оказался свободный член: 1,1484 < 2,78 . Чтобы исключить его из регрессионного уравнения, нужно в окне «Регрессия» установить флажок Константа-ноль и снова выполнить макрос.

Столбцы Нижние 95% и Нижние 95% содержат границы 95%-го доверительного интервала, для каждого коэффициента – свои границы:

Коэффициент ± tкр × Стандартная ошибка

Стандартная ошибка у каждого коэффициента своя, tкр=2,78 – общее, его уже вычисляли для t-статистики.

Как понимать границы 95%-го доверительного интервала. Если бы мы обрабатывали 100 групп по 6 предприятий, по каждой группе получилась бы своя пара коэффициентов регрессионного уравнения. Но 95 пар коэффициентов из 100 будут находиться внутри 95%-х интервалов.

Интервальные оценки коэффициентов регрессионного уравнения
y= β0 + β1·x  имеют вид:        

Тогда интервальная оценка регрессионного уравнения в текущей точке x0

Обратите внимание. Из этой формулы следует, минимальная ширина доверительного интервала в центре облака исходных точек, когда

Рассчитаем интервальные оценки регрессионного уравнения в 6 исходных точках, а также в дополнительных точках , , . Получим таблицу интервальных оценок. Здесь дополнительные точки выделены курсивом.

 

X

Радиус

Y

Yрег

Y-

Y+

Отношение

Xср−2σ

24,036

41,383

 

19

-23

60

0,5809

 

47

28,698

55

59

30

87

0,4029

Xсрσ

53,518

25,487

 

70

44

95

0,3578

 

64

21,034

78

88

67

109

0,2953

 

69

19,369

93

97

77

116

0,2719

Xср

83,000

17,183

 

121

104

138

0,2412

 

87

17,372

152

128

111

145

0,2439

 

102

21,034

161

154

133

175

0,2953

Xср+σ

112,482

25,487

 

172

147

198

0,3578

 

129

34,027

188

201

167

235

0,4777

Xср+2σ

141,964

41,383

 

224

182

265

0,5809

В последнем столбце рассчитано отношение ширины доверительного 95%-го интервала (Y+)(Y-) к размаху по Y регрессионного уравнения: 201 (макс) 59 (мин) = 142 .

В Excel построим на диаграмме облако исходных точек, регрессионное уравнение, верхнюю и нижнюю границу доверительного интервала.

Здесь вертикальными линиям отмечены точки  .

Выводы. Даже в центре облака относительная ширина 95%-го доверительного интервала составляет 24%; в точках ±σ – 36%, или в 1,5 раза шире, чем в центре; в точках ±2σ – 58%, или в 2,4 раза шире, чем в центре. Точки ±2σ находятся за пределами облака исходных точек и обычно используются для расчета прогнозных значений по регрессионному уравнению. Такова точность экономических прогнозов.