Простой линейной регрессионной модели. Парная линейная регрессионная модель Модель линейной регрессии

Парная (простая) линейная регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной рассматривается как функция одной независимой (объясняющей) переменной x , т.е. это модель вида:

Так же y называют результативным признаком, а x признаком-фактором.

Знак «^» означает, что между переменными x и y нет строгой функциональной зависимости. Практически в каждом отдельном случае величина y складывается из двух слагаемых:

(4.5)

где y – фактическое значение результативного признака;

– теоретическое значение результативного признака, найденное исходя из уравнения регрессии;

e – случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии.

Случайная величина e включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Ее присутствие в модели порождено тремя источниками: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных.

Различают линейные и нелинейные регрессии.

Линейная регрессия: y = a + b × x + e .

Нелинейные регрессии делятся на два класса:

ü регрессии,нелинейныеотносительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам;

ü регрессии, нелинейные по оцениваемым параметрам.

Например:

ü регрессии, нелинейные по объясняющим переменным :

полиномы разных степеней y = a + b × x + b × x 2 + ... + b × x n + e ;

равностронняя гипербола y = a + b /x + e ;

ü регрессии, нелинейные по оцениваемым параметрам :

степенная y = a × x b × e ;

Показательная y = a × b x ×e ;

Экспоненциальная y = e a + bx +e .

Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК). МНК позволяет получить такиеоценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака y от теоретических минимальна, т.е.

(4.6)

Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b :

(4.7)

Можно воспользоваться готовыми формулами, которые вытекают непосредственно из решения этой системы:

(4.8)

где – ковариация признаков x и y,

– дисперсия признака x и

(Ковариация – числовая характеристика совместного распределения двух случайных величин, равная математическому ожиданию произведения отклонений этих случайных величин от их математических ожиданий. Дисперсия – характеристика случайной величины, определяемая как математическое ожидание квадрата отклонения случайной величины от ее математического ожидания. Математическое ожидание – сумма произведений значений случайной величины на соответствующие вероятности.)

Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции r xy для линейной регрессии(-1£ r xy £1):

(4.9)

и индекс корреляции r xy – для нелинейной регрессии(0£ r xy £ 1):

(4.10)

где общая дисперсия результативного признака у ;

остаточная дисперсия, определяемая исходя из уравнения регрессии

Оценку качества построенной модели даст коэффициент (индекс) детерминации r 2 (для линейной регрессии) либо r 2 (для нелинейной регрессии), а также средняя ошибка аппроксимации.

Средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических:

(4.11)

Допустимый предел значений – не более 10%.

Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на1%от своего среднего значения:

(4.12)

После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом,так и отдельных егопараметров.

Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

Оценка значимости уравнения регрессии в целом производится на основе F -критерия Фишера , которому предшествует дисперсионный анализ. Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений переменной y от среднего значения y раскладывается на две части – « объясненную » и «необъясненную »:

где ∑(y - ) 2 – общая сумма квадратов отклонений;

( - ) 2 – сумма квадратов отклонений, объясненная регрессией (или факторная сумма квадратов отклонений);

∑(y – ) 2 – остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в модели факторов.

Схема дисперсионного анализа имеет вид, представленный в табл. 4.1 (n – число наблюдений, m – число параметров при переменной x ).

Таблица 4.1

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду (напомним, что степени свободы – это числа, показывающие количество элементов варьирования, которые могут принимать произвольные значения, не изменяющие заданных характеристик). Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F -критерия Фишера:

Фактическое значение F -критерия Фишера сравнивается с табличным значением F табл (a ; k 1 ; k 2) при уровне значимости a и степенях свободы k 1 = m и k 2 = n - m - 1. При этом, если фактическое значение F -критерия больше табличного, то признается статистическая значимость уравнения в целом.

Для парной линейной регрессии m = 1, поэтому

(4.15)

Величина F -критерия связана с коэффициентом детерминации r xy 2 , и ее можно рассчитать по следующей формуле:

(4.16)

Для оценки статистической значимости параметров регрессии и корреляции рассчитываются t -критерий Стьюдента и доверительные интервалы каждого из показателей.Оценка значимости коэффициентоврегрессии и корреляции с помощью t -критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:

(4.17)

Стандартные ошибки параметров линейной регрессии икоэффициента корреляции определяются по формулам:

4.18

Сравнивая фактическое и критическое (табличное) значения t - статистики – t табл и t факт – делаем вывод о значимости параметров регрессии и корреляции. Если t табл < t факт то параметры a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора x. Если t табл > t факт , то признается случайная природа формирования a , b или r xy .

Для расчета доверительного интервала определяем предельную ошибку ∆для каждого показателя:

Формулы для расчета доверительных интервалов имеют следующий вид:

Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.

Связь между F -критерием Фишера и t -статистикой Стьюдента выражается равенством

В прогнозных расчетах по уравнению регрессии определяется предсказываемое индивидуальное значение y 0 как точечный прогноз при x = x 0 ,т.е.путем подстановки в линейное уравнение = a + b × x соответствующего значения x. Однако точечный прогноз явно нереален, поэтому он дополняется расчетом стандартной ошибки

(4.19)

где , и построением доверительного интервала прогнозного значения :

C помощью инструмента анализа данных Регрессия можно получить результаты регрессионной статистики, дисперсионного анализа, доверительных интервалов, остатки и графики подбора линии регрессии.

Если в меню сервис еще нет команды Анализ данных , то необходимо сделать следующее. В главном меню последовательно выбираем Сервис→Надстройки и устанавливаем «флажок» в строке Пакет анализа (рис. 4.1).

1. Если исходные данные уже внесены, то выбираем Сервис→Анализ данных→Регрессия .

2. Заполняем диалоговое окно ввода данных и параметров вывода (рис. 4.2).

Входной интервал Y –диапазон,содержащий данныерезультативного признака;

Входной интервал X –диапазон,содержащий данные признака-фактора;

Метки – «флажок»,который указывает,содержит ли первая строканазвания столбцов;

Рис. 4.1. Строка Пакет анализа

Рис. 4.2. Диалоговое окно ввода данных и параметров вывода

Константа – ноль – «флажок»,указывающий на наличие илиотсутствие свободного члена в уравнении;

Выходной интервал –достаточно указать левую верхнюю ячейкубудущего диапазона;

Новый рабочий лист –можно указать произвольное имя новоголиста (или не указывать, тогда результаты выводятся на вновь созданный лист).

Получаем подобные результаты:

Откуда выписываем, округляя до 4 знаков после запятой и переходя к нашим обозначениям:

Уравнение регрессии:

76,9765+0,9204x .

Коэффициент корреляции:

r xy =0,7210.

Коэффициент детерминации:

r xy 2 =0,5199.

Фактическое значение F -критерия Фишера:

F =10,8280

Остаточная дисперсия на одну степень свободы:

S ост 2 =157, 4922.

Корень квадратный из остаточной дисперсии (стандартная ошибка):

S ост =12,5496.

Стандартные ошибки для параметров регрессии:

m a =24, 2116 , m b =0, 2797.

Фактические значения t -критерия Стьюдента:

t a =3,1793, t b =3,2906.

Доверительные интервалы:

23,0298 £ a * £130,9232,

0,2972 £ b * £ ,5437.

Как видим, найдены все рассмотренные выше параметры и характеристики уравнения регрессии, за исключением средней ошибки аппроксимации (значение t -критерия Стьюдента для коэффициента корреляции совпадает с t b ). Результаты «ручного счета» от машинного отличаются незначительно (отличия связаны с ошибками округления).

4.3. Финансовое моделирование в Excel.

Начиная создавать финансовую модель предприятия, лучше руководствоваться принципом «от простого к сложному», иначе в попытке учесть все нюансы есть риск запутаться в большом количестве формул и ссылок. Поэтому вполне оправдано вначале создать простейшую модель (с минимальным количеством элементов), установить связи общего характера между внешними параметрами (спрос на продукцию, стоимость ресурсов) и внутренними показателями деятельности предприятия (выручка, затраты, денежные потоки и т. д.). В первой итерации можно не заботиться об особой точности задаваемых параметров. На этом этапе важнее установить правильные взаимосвязи между переменными так, чтобы финансовая модель предприятия автоматически пересчитывалась после изменения исходных данных и позволяла выстраивать различные сценарии. Уже после этого можно приступить к ее развитию, детализовать показатели, ввести дополнительные уровни аналитики и т. д.

1) Доходы. Построение финансовой модели в Excel начинается с задания внешних параметров. Отправной точкой для дальнейших расчетов послужит план продаж. ля этого в Excel на одном из листов книги размещается таблица с планом продаж в денежном выражении (табл. 4.1). На этом этапе выручку можно указать «навскидку» или использовать данные прошлого года. Пока точность не имеет большого значения. Позднее при детализации модели план продаж придется доработать.

2) Расходы. Исходя из объема продаж, определяется размер переменных затрат. В самом общем виде расчет может выглядеть следующим образом:

Переменные затраты = Доля в выручке х Объем продаж

Сделаем небольшое допущение и предположим, что в примере переменными являются только затраты на оплату труда – заработная плата сотрудников полностью зависит от объема оказанных услуг, на нее уходит примерно 30 процентов выручки от реализации. Кстати, план затрат удобнее разместить на отдельном листе Excel (табл. 4.2). В нем зарплата рассчитывается помесячно как произведение коэффициента 0,3 (30% / 100%) и плана продаж на определенный месяц. Расходы на аренду и управление вводятся на первом этапе создания финансовой модели предприятия не как расчетные величины, а как фиксированные значения. В дальнейшем при детализации модели их можно будет заменить формулами, увязав с другими показателями.

Таблица 4.1

План продаж в финансовой модели предприятия, тыс. руб.

Таблица 4.2

План затрат в финансовой модели предприятия, тыс. руб.

Не стоит перегружать планы верхнего уровня (баланс, прибыли и убытки, движение денежных средств) показателями. Лучше стремиться к тому, чтобы каждый из них мог уместиться на одном печатном листе. Зачастую трудно удержаться от соблазна расшифровать каждую цифру (например, в плане доходов и расходов расписать выручку по видам продукции, группам клиентов, каналам сбыта и т. п.). Если в план доходов и расходов включить сотню видов готовой продукции и статей затрат, это значительно затруднит его восприятие. Тем не менее с точки зрения информативности полезно подобные планы дополнять различными относительными показателями (например, в баланс внести показатели структуры активов и пассивов (удельные веса статей в валюте баланса), в план доходов и расходов – рентабельность).

В плане доходов и расходов (табл. 4.3) строки «Операционные расходы» и «Операционные доходы» заполняются при помощи ссылок на соответствующие ячейки функциональных планов. Выручка расшифрована по видам услуг, затраты – по статьям. В этом случае такая расшифровка допустима, поскольку не утяжеляет восприятие отчета и не усложняет его анализ. Кроме того, в отчет включены два аналитических показателя – рентабельность (как отношение прибыли к выручке) и прибыль нарастающим итогом. Если понадобится провести более глубокий анализ, в частности, динамики доли оплаты труда в себестоимости услуг, все необходимые для этого расчеты лучше проводить на отдельном листе.

Таблица 4.3

План доходов и расходов в финансовой модели предприятия, тыс. руб.

План движения денежных средств (табл. 4.4) в нашем примере формируется со следующими допущениями.

Таблица 4.4

План движения денежных средств, тыс. руб.

Первое: разделы «Финансовая деятельность» и «Инвестиционная деятельность» исключены из плана. Предполагается, что предприятие осуществляет только операционную деятельность, не привлекая заемные средства и не осуществляя капитальные вложения. Еще одно допущение. Предприятие оказывает услуги физическим лицам за наличный расчет, а значит, время оказания услуги и ее оплаты совпадает – в итоге у предприятия нет дебиторской задолженности. Ситуация с платежами по операционной деятельности не так однозначна. Зарплата и аренда выплачиваются в месяце, следующем за месяцем начисления, а управленческие расходы – в месяце их осуществления.Последнее, что остается сделать, – создать прогнозный баланс (табл. 4.5). Данные по оборотам за период берутся из ПДР и ПДДС, начальные остатки – из баланса за предыдущий период (здесь допустимо ручное внесение информации).

Таблица 4.5

Прогнозный баланс, тыс. руб.

Построенная таким образом финансовая модель обозначает основные группы показателей, характеризующих деятельность предприятия (доходы, расходы, денежные средства и т. п.), увязывает их в три сводных плана. Даже эту простейшую на первый взгляд модель можно использовать для сценарного анализа. В частности, если исключить из плана продаж услугу № 1(соответствующую строку удалять не нужно, достаточно проставить по ней нули), то можно увидеть, насколько ухудшатся показатели рентабельности и ликвидности.

Чтобы превратить модель в полноценный инструмент сценарного анализа, потребуется «насытить» ее аналитикой, детализировать исходную информацию до показателей, которыми можно управлять на практике. Например, в случае с предприятием, оказывающим услуги, очевидна необходимость детализации плана продаж, внесенного ранее в модель в денежном выражении. Выручку по каждому виду услуг можно рассчитать как произведение цены единицы услуги и количества указанных услуг. На практике, естественно, план продаж формируется исходя из конъюнктуры рынка, ожидаемого спроса, предполагаемой цены реализации, достигнутых договоренностей с ключевыми клиентами, запланированных маркетинговых мероприятий, ценовой и кредитной политики и т. д.

Аналогично детализируются и другие исходные данные. Например, арендную плату можно было бы разложить на площадь арендуемого помещения и стоимость одного квадратного метра, зарплату расписать по сотрудникам, управленческие расходы разбить по видам. В итоге функциональность финансовой модели предприятия развивается до такого уровня, что можно увидеть, как влияет изменение любого, даже самого незначительного параметра на конечный результат.

Сверстать подробную финансовую модель предприятия – задача интересная, но сложная. Потребуется скрупулезно изучить и адекватно математически описать существующие взаимосвязи как внутрипроизводственных процессов, так и внешних факторов. Силами одной финансовой службы такую модель не сделать, понадобится участие всех служб предприятия – от департамента продаж до бухгалтерии.

Использование финансовой модели при планировании деятельности помогает увидеть, как те или иные планы развития отражаются на структуре активов, пассивов, доходов и расходов предприятия, а также определить, от каких факторов в наибольшей степени зависят будущая прибыль, ликвидность и финансовая устойчивость. Модель служит скорее инструментом мониторинга текущей ситуации на предприятии и выработки адекватной финансовой политики.

Финансовую модель предприятия стоит использовать в процессе бюджетирования сразу же после утверждения плана продаж. Если план продаж «прогнать» через модель, то полученный финансовый результат можно показать акционерам, чтобы установить целевые значения по затратам, прибыли, дивидендам. Если планируемая выручка не обеспечивает необходимой прибыли с точки зрения акционеров, прямо в модели корректируются влияющие показатели. Окончательный вариант расчетов модели определяет целевые значения бюджетных лимитов для всех центров финансовой ответственности. В течение года финансовую модель предпредприятия можно будет корректировать, проставлять по пройденным месяцам фактические данные вместо плановых и контролировать таким образом финансовые результаты, отслеживать негативные тенденции и четко понимать, к чему они приведут предприятие.

Финансовая модель в Excel дает возможность:

Спланировать деятельность по проекту, внести ясность в соотношение его эффективности и планируемых затрат на его реализацию;

Проанализировать финансовые показатели проекта, такие как как NPV, IRR, PBP, WACC и др.;

Вводить и анализировать любые изменения в проект.

К преимуществам использования моделирования в Excel относится то, что получаемая финансовая модель гибка и понятна. Вы с любой момент можете посмотреть формулу расчета того или иного показателя и изменять исходные данные проекта по своему усмотрению. Еще одно преимущество построения финансовой модели в Excel - то, что все расчеты идут последовательно и обоснованно.

Для построения финансовой модели в Excel необходима следующая информация по проекту:

Баланс компании на последнюю отчетную дату;

Список продуктов, цены, объем продаж, способы оплаты;

Перечень издержек компании, таких как прямые и общие издержки, заработная плата персонала;

Условия финансирования;

Инвестиционный план проекта;

Условия лизинга (если имеется).

Выходами финансовой модели в Excel являются:

Отчет о прибыли и убытках;

Отчет о движении денежных средств;

Финансовые показатели проекта.

В целях исследований часто бывает удобно представить исследуемый объект в виде ящика, имеющего входы и выходы, не рассматривая детально его внутренней структуры. Конечно, преобразования в ящике (на объекте) происходят (сигналы проходят по связям и элементам, меняют свою форму и т. п.), но при таком представлении они происходят скрыто от наблюдателя.

По степени информированности исследователя об объекте существует деление объектов на три типа «ящиков»:

  • «белый ящик» : об объекте известно все;
  • «серый ящик» : известна структура объекта, неизвестны количественные значения параметров;
  • «черный ящик» : об объекте неизвестно ничего.

Черный ящик условно изображают как на рис. 2.1 .

Рис. 2.1. Обозначение черного ящика на схемах

Значения на входах и выходах черного ящика можно наблюдать и измерять. Содержимое ящика неизвестно.

Задача состоит в том, чтобы, зная множество значений на входах и выходах, построить модель, то есть определить функцию ящика, по которой вход преобразуется в выход. Такая задача называется задачей регрессионного анализа .

В зависимости от того, доступны входы исследователю для управления или только для наблюдения, можно говорить про активный или пассивный эксперимент с ящиком.

Пусть, например, перед нами стоит задача определить, как зависит выпуск продукции от количества потребляемой электроэнергии. Результаты наблюдений отобразим на графике (см. рис. 2.2 ). Всего на графике n экспериментальных точек, которые соответствуют n наблюдениям.

Рис. 2.2. Графический вид представления результатов
наблюдения над черным ящиком

Для начала предположим, что мы имеем дело с черным ящиком, имеющим один вход и один выход. Допустим для простоты, что зависимость между входом и выходом линейная или почти линейная. Тогда данная модель будет называться линейной одномерной регрессионной моделью .

1) Исследователь вносит гипотезу о структуре ящика

Рассматривая экспериментально полученные данные, предположим, что они подчиняются линейной гипотезе, то есть выход Y зависит от входа X линейно, то есть гипотеза имеет вид: Y = A 1 X + A 0 (рис. 2.2 ).

2) Определение неизвестных коэффициентов A 0 и A 1 модели

Линейная одномерная модель (рис. 2.3 ).

Рис. 2.3. Одномерная модель черного ящика

Для каждой из n снятых экспериментально точек вычислим ошибку (E i ) между экспериментальным значением (Y i Эксп. ) и теоретическим значением (Y i Теор. ), лежащим на гипотетической прямой A 1 X + A 0 (см. рис. 2.2 ):

E i = (Y i Эксп. – Y i Теор.), i = 1, …, n ;

E i = Y i – A 0 – A 1 · X i , i = 1, …, n .

Ошибки E i для всех n точек следует сложить. Чтобы положительные ошибки не компенсировали в сумме отрицательные, каждую из ошибок возводят в квадрат и складывают их значения в суммарную ошибку F уже одного знака:

E i 2 = (Y i – A 0 – A 1 · X i ) 2 , i = 1, …, n .

Цель метода — минимизация суммарной ошибки F за счет подбора коэффициентов A 0 , A 1 . Другими словами, это означает, что необходимо найти такие коэффициенты A 0 , A 1 линейной функции Y = A 1 X + A 0 , чтобы ее график проходил как можно ближе одновременно ко всем экспериментальным точкам. Поэтому данный метод называется методом наименьших квадратов .

Суммарная ошибка F является функцией двух переменных A 0 и A 1 , то есть F (A 0 , A 1) , меняя которые, можно влиять на величину суммарной ошибки (см. рис. 2.4 ).


Рис. 2.4. Примерный вид функции ошибки

Чтобы суммарную ошибку минимизировать, найдем частные производные от функции F по каждой переменной и приравняем их к нулю (условие экстремума):

После раскрытия скобок получим систему из двух линейных уравнений:

Для нахождения коэффициентов A 0 и A 1 методом Крамера представим систему в матричной форме:

Решение имеет вид:

Вычисляем значения A 0 и A 1 .

3) Проверка

Чтобы определить, принимается гипотеза или нет, нужно, во-первых, рассчитать ошибку между точками заданной экспериментальной и полученной теоретической зависимости и суммарную ошибку:

E i = (Y i Эксп. – Y i Теор.), i = 1, …, n

И, во-вторых, необходимо найти значение σ по формуле , где F — суммарная ошибка, n — общее число экспериментальных точек.

Если в полосу, ограниченную линиями Y Теор. – S и Y Теор. + S (рис. 2.5 ), попадает 68.26% и более экспериментальных точек Y i Эксп. , то выдвинутая нами гипотеза принимается. В противном случае выбирают более сложную гипотезу или проверяют исходные данные. Если требуется бо льшая уверенность в результате, то используют дополнительное условие: в полосу, ограниченную линиями Y Теор. – 2S и Y Теор. + 2S , должны попасть 95.44% и более экспериментальных точек Y i Эксп. .

Рис. 2.5. Исследование допустимости принятия гипотезы

Расстояние S связано с σ следующим соотношением:

S = σ /sin(β ) = σ /sin(90° – arctg(A 1)) = σ /cos(arctg(A 1)) ,

что проиллюстрировано на рис. 2.6 .

Рис. 2.7. Иллюстрация закона
нормального распределения ошибок

Наконец, приведем на рис. 2.8 графическую схему реализации одномерной линейной регрессионной модели.

Рис. 2.8. Схема реализации метода
наименьших квадратов в среде моделирования

Линейная множественная модель

Предположим, что функциональная структура ящика снова имеет линейную зависимость, но количество входных сигналов, действующих одновременно на объект, равно m (см. рис. 2.9 ):

Y = A 0 + A 1 · X 1 + … + A m · X m .

Рис. 2.9. Обозначение многомерного
черного ящика на схемах

Так как подразумевается, что мы имеем экспериментальные данные о всех входах и выходах черного ящика, то можно вычислить ошибку между экспериментальным (Y i Эксп. ) и теоретическим (Y i Теор. ) значением Y для каждой i -ой точки (пусть, как и прежде, число экспериментальных точек равно n ):

E i = (Y i Эксп. – Y i Теор.), i = 1, …, n ;

E i = Y i – A 0 – A 1 · X 1i – … – A m · X mi , i = 1, …, n .

Минимизируем суммарную ошибку F :

Ошибка F зависит от выбора параметров A 0 , A 1 , …, A m . Для нахождения экстремума приравняем все частные производные F по неизвестным A 0 , A 1 , …, A m к нулю:

Получим систему из m + 1 уравнения с m + 1 неизвестными, которую следует решить, чтобы определить коэффициенты линейной множественной модели A 0 , A 1 , …, A m . Для нахождения коэффициентов методом Крамера представим систему в матричном виде:

Вычисляем коэффициенты A 0 , A 1 , …, A m .

Далее, по аналогии с одномерной моделью (см. 3). «Проверка»), для каждой точки вычисляется ошибка E i ; затем находится суммарная ошибка F и значения σ и S с целью определить, принимается ли выдвинутая гипотеза о линейности многомерного черного ящика или нет.

При помощи подстановок и переобозначений к линейной множественной модели приводятся многие нелинейные модели. Подробно об этом рассказывается в материале следующей лекции.


16.1 Простая линейная регрессия

    Чтобы вызвать регрессионный анализ в SPSS, выберите в меню Analyze... (Анализ) Regression... (Регрессия). Откроется соответствующее подменю.

Рис. 16.1:

При изучении линейного регрессионного анализа снова будут проведено различие между простым анализом (одна независимая переменная) и множественным анализом (несколько независимых переменных). Никаких принципиальных отличий между этими видами регрессии нет, однако простая линейная регрессия является простейшей и применяется чаще всех остальных видов.

Этот вид регрессии лучше всего подходит для того, чтобы продемонстрировать основополагающие принципы регрессионного анализа. Рассмотрим пример из раздела корреляционный анализ с зависимостью показателя холестерина спустя один месяц после начала лечения от исходного показателя. Можно легко заметить очевидную связь: обе переменные развиваются в одном направлении и множество точек, соответствующих наблюдаемым значениям показателей, явно концентрируется (за некоторыми исключениями) вблизи прямой (прямой регрессии). В таком случае говорят о линейной связи.

у = b х + а ,
где b - регрессионные коэффициенты, a - смещение по оси ординат (OY).

Смещение по оси ординат соответствует точке на оси Y (вертикальной оси), где прямая регрессии пересекает эту ось. Коэффициент регрессии b через соотношение:
b = tg(a) - указывает на угол наклона прямой.

При проведении простой линейной регрессии основной задачей является определение параметров b и а. Оптимальным решением этой задачи является такая прямая, для которой сумма квадратов вертикальных расстояний до отдельных точек данных является минимальной.

Если мы рассмотрим показатель холестерина через один месяц (переменная chol1 ) как зависимую переменную (у), а исходную величину как независимую переменную (х), то тогда для проведения регрессионного анализа нужно будет определить параметры соотношения:
chol1 = b chol0 + a

После определения этих параметров, зная исходный показатель холестерина, можно спрогнозировать показатель, который будет через один месяц.


Расчёт уравнения регрессии

    Выберите в меню Analyze... (Анализ) Regression...(Регрессия) Linear... (Линейная). Появится диалоговое окно Linear Regression (Линейная регрессия).

    Перенесите переменную chol1 в поле для зависимых переменных и присвойте переменной chol0 статус независимой переменной.

    Ничего больше не меняя, начните расчёт нажатием ОК.

Рис.16.2

Вывод основных результатов выглядит следующим образом:

Model Summary (Сводная таблица по модели)

Model (Модель) R R Square (R-квадрат) Adjusted R Square (Скорректир. R-квадрат) Std. Error of the Estimate (Стандартная ошибка оценки)
1 ,861 а ,741 ,740 25,26

а. Predictors: (Constant), Cholesterin, Ausgangswert (Влияющие переменные: (константы), холестерин, исходная величина)

Model (Модель) Sum of Squares (Сумма Квадратов) df Mean Square (Среднее значение квадрата) F Sig. (Значимость)
1 Regression (Регрессия) 314337,948 1 314337,9 492,722 ,000 a
Residual (Остатки) 109729,408 172 637,962
Total (Сумма) 424067,356 173

a. Predictors: (Constant), Cholesterin, Ausgangswert (Влияющие переменные: (константа), холестерин, исходная величина).
b. Dependent Variable: Cholesterin, nach 1 Monat (Зависимая переменная холестерин через 1 месяц)

Coefficients (Коэффициенты) а

Model (Модель) Unstandardized Coefficients
t Sig. (Значимость)
B Std: Error
(Станд. ошибка)
ß (Beta)
1 (Constant) (Константа) 34,546 9,416 3,669 ,000
Cholesterin, Ausgangswert ,863 ,039 ,861 22,197 ,000

a. Dependent Variable (Зависимая переменная)

Рассмотрим сначала нижнюю часть результатов расчётов. Здесь выводятся коэффициент регрессии b и смещение по оси ординат а под именем "константа". То есть, уравнение регрессии выглядит следующим образом:

chol1 = 0,863 chol0 + 34,546

Если значение исходного показателя холестерина составляет, к примеру, 280, то через один месяц можно ожидать показатель равный 276.

Частные рассчитанных коэффициентов и их стандартная ошибка дают контрольную величину Т; соответственный уровень значимости относится к существованию ненулевых коэффициентов регрессии. Значение коэффициента ß будет рассмотрено при изучении многомерного анализа .

Средняя часть расчётов отражает два источника дисперсии: дисперсию, которая описывается уравнением регрессии (сумма квадратов, обусловленная регрессией) и дисперсию, которая не учитывается при записи уравнения (остаточная сумма квадратов). Частное от суммы квадратов, обусловленных регрессией и остаточной суммы квадратов называется "коэфициентом детерминации". В таблице результатов это частное выводится под именем "R-квадрат". В нашем примере мера определённости равна:

314337,948 / 424067,356 = 0,741

Эта величина характеризует качество регрессионной прямой, то есть степень соответствия между регрессионной моделью и исходными данными. Мера определённости всегда лежит в диапазоне от 0 до 1. Существование ненулевых коэффициентов регрессии проверяется посредством вычисления контрольной величины F, к которой относится соответствующий уровень значимости.

В простом линейном регрессионном анализе квадратный корень из коэфициента детерминации, обозначаемый "R", равен корреляционному коэффициенту Пирсона. При множественном анализе эта величина менее наглядна, нежели сам коэфициент детерминации. Величина "Cмещенный R-квадрат" всегда меньше, чем несмещенный. При наличии большого количества независимых переменных, мера определённости корректируется в сторону уменьшения. Принципиальный вопрос о том, может ли вообще имеющаяся связь между переменными рассматриваться как линейная, проще и нагляднее всего решать, глядя на соответствующую диаграмму рассеяния. Кроме того, в пользу гипотезы о линейной связи говорит также высокий уровень дисперсии, описываемой уравнением регрессии.

И, наконец, стандартизированные прогнозируемые значения и стандартизированные остатки можно предоставить в виде графика. Вы получите этот график, если через кнопку Plots...(Графики) зайдёте в соответствующее диалоговое окно и зададите в нём параметры *ZRESID и *ZPRED в качестве переменных, отображаемых по осям у и х соответственно. В случае линейной регрессии остатки распределяются случайно по обе стороны от горизонтальной нулевой линии.


Сохранение новых переменных

Многочисленные вспомогательные значения, рассчитываемые в ходе построения уравнения регрессии, можно сохранить как переменные и использовать в дальнейших расчётах.

    Для этого в диалоговом окне Linear Regression (Линейная регрессия) щёлкните на кнопке Save (Сохранить). Откроется диалоговое окно Linear Regression: Save (Линейная регрессия: Сохранение) как изображено на рисунке 16.3.

Рис. 16.3:

Интересными здесь представляются опции Standardized (Стандартизированные значения) и Unstandardized (Нестандартизированные значения), которые находятся под рубрикой Predicted values (Прогнозируемые величины опции). При выборе опции Не стандартизированные значения будут рассчитывается значения у, которое соответствуют уравнению регрессии. При выборе опции Стандартизированные значения прогнозируемая величина нормализуется. SPSS автоматически присваивает новое имя каждой новообразованной переменной, независимо от того, рассчитываете ли Вы прогнозируемые значения, расстояния, прогнозируемые интервалы, остатки или какие-либо другие важные статистические характеристики. Нестандартизированным значениям SPSS присваивает имена pre_1 (predicted value), pre_2 и т.д., а стандартизированным zpr_l.

    Щёлкните в диалоговом окне Linear Regression: Save (Линейная регрессия: Сохранение) в поле Predicted values (Прогнозируемые значения) на опции Unstandardized (Нестандартизированные значения).

В редакторе данных будет образована новая переменная под именем рrе_1 и добавлена в конец списка переменных в файле. Для объяснения значений, находящихся в переменной рrе_1 , возьмём случай 5. Для случая 5 переменная рrе_1 содержит нестандартизированное прогнозируемое значение 263,11289. Это прогнозируемое значение слегка отличается в сторону увеличения от реального показателя содержания холестерина, взятого через один месяц (chol1 ) и равного 260. Нестандартизированное прогнозируемое значение для переменной chol1 , так же как и другие значения переменной рге_1, было вычислено исходя из соответствующего уравнения регрессии.

Если мы в уравнение регрессии:

chol1 = 0,863 chol0 + 34,546

подставим исходное значение для chol0 (265), то получим: chol1 = 0,863 265 + 34,546 = 263,241

Небольшое отклонение от значения, хранящегося в переменной рге_1 объясняется тем, что SPSS использует в расчётах более точные значения, чем те, которые выводятся в окне просмотра результатов.

    Добавьте для этого в конец файла hyper.sav , ещё два случая, используя фиктивные значения для переменной chol0. Пусть к примеру, это будут значения 282 и 314.

Мы исходим из того, что нам не известны значения показателя холестерина через месяц после начала лечения, и мы хотим спрогнозировать значение переменной chol1 .

    Оставьте предыдущие установки без изменений и проведите новый расчёт уравнения регрессии.

В конце списка переменных добавится переменная рге_2. Для нового добавленного случая (№175) для переменной chol1 будет предсказано значение 277,77567, а для случая №176 - значение 305,37620.


Построение регрессионной прямой

Чтобы на диаграмме рассеяния изобразить регрессионную прямую, поступите следующим образом:

Рис. 16.9:


Выбор осей

Для диаграмм рассеяния часто оказывается необходимой дополнительная корректировка осей. Продемонстрируем такую коррекцию при помощи одного примера. В файле raucher.sav находятся десять фиктивных наборов данных. Переменная konsum указывает на количество сигарет, которые выкуривает один человек в день, а переменная puls на количество времени, необходимое каждому испытуемому для восстановления пульса до нормальной частоты после двадцати приседаний. Как было показано ранее, постройте диаграмму рассеяния с внедрённой регрессионной прямой.

    В диалоговом окне Simple Scatterplot (Простая диаграмма рассеяния) перенесите переменную puls в поле оси Y, а переменную konsum - в поле оси X. После соответствующей обработки данных в окне просмотра появится диаграмма рассеяния, изображённая на рисунке 16.10.

Рис. 16.10:

Так как никто не выкуривает минус 10 сигарет в день, точка начала отсчёта оси X является не совсем корректной. Поэтому эту ось необходимо откорректировать.

В окне просмотра Вы увидите откорректированную диаграмму рассеяния (см. рис. 16.13).

Рис. 16.13:

На откорректированной диаграмме рассеяния теперь стало проще распознать начальную точку на оси Y, которая образуется при пересечении с регрессионной прямой. Значение этой точки примерно равно 2,9. Сравним это значение с уравнением регрессии для переменных puls (зависимая переменная) и konsum (независимая переменная). В результате расчёта уравнения регрессии в окне отображения результатов появятся следующие значения:

Coefficients (Коэффициенты) а

Model (Модель) Unstandardized Coefficients
(Не стандартизированные коэффициенты)
Standardized Coefficients (Стандартизированные коэффициенты) t Sig. (Значимость)
B Std: Error
(Станд. ошибка)
ß (Beta)
1 (Constant) (Константа) 2,871 ,639 4,492 ,002
tgl. Zigarettenkonsum ,145 ,038 ,804 3,829 ,005

a. Dependent Variable: Pulsfrequenz unter 80 (Зависимая переменная: частота пульса ниже 80)

Что дает следующее уравнение регрессии:

puls = 0,145 konsum + 2,871

Константа в вышеприведенном уравнении регрессии (2,871) соответствует точке на оси Y, которая образуется в точке пересечения с регрессионной прямой.


Мы познакомились с двумя простыми приемами предварительного анализа зависимости между двумя переменными - диаграммой рассеяния и методом частных средних. Теперь перейдем к описанию простой линейной регрессии и выясним смысл отдельных составляющих функции регрессии.

Под простой регрессией мы понимаем одностороннюю стохастическую зависимость результативной переменной только от одной объясняющей переменной:

Если исходя из соображений профессионально-теоретического характера в сочетании с исследованием расположения точек на диаграмме рассеяния предполагается линейный характер зависимости усредненных значений результативной переменной, то эту зависимость выражают с помощью функции линейной регрессии. Формула (2.8) принимает в этом случае вид

Это общее уравнение для простой линейной регрессии, где -объясняющая переменная. Имеется наблюдений над этой переменной Неизвестные параметры регрессии подлежат оценке по определенной процедуре. Далее, не вводя дополнительных обозначений, мы будем называть их оценками параметров.

Постоянная регрессии. Ее можно представить в виде коэффициента при фиктивной переменной, принимающей для всех значение . Постоянная определяет точку пересечения прямой регрессии с осью ординат (рис. 11). Так как в соответствии с общим истолкованием уравнения регрессии является средним значением у в точке то отсюда видно, что экономическая интерпретация часто очень затруднительна или вообще невозможна. Например, если на основе опытных данных получено уравнение регрессии

определяющее зависимость объема производства от основных фондов (размерность обеих величин в 1000 марок), то интерпретация приведет к парадоксальному результату. А именно, при неиспользовании основных фондов объем производства составит марок. Теоретически должно быть в этом случае равным нулю или больше него. Но практически информация, содержащаяся в опытных данных, недостаточна, чтобы предотвратить такой парадоксальный вывод. Постоянная выполняет в уравнении регрессий функцию выравнивания. При этом следует подчеркнуть, что благодаря постоянной функция регрессии неошибочна. Уравнение регрессии интерпретируемо только в области скопления точек, а следовательно,

тельно, только между наименьшим и наибольшим наблюдаемыми значениями переменной х. Для большинства практических исследований величинами, представляющими интерес, являются и у, а не

Коэффициент называют коэффициентом регрессии. Он характеризует наклон прямой к оси Если через у обозначить угол, который прямая регрессии образует с осью абсцисс, то (см. рис. И). Коэффициент регрессии является мерой зависимости переменной у от переменной х или мерой влияния, оказываемого изменением переменной х на переменную у. Согласно уравнению указывает среднюю величину изменения переменной у при изменении объясняющей переменной х на одну единицу. Знак определяет направление этого изменения. При положительном коэффициенте регрессии мы располагаем положительной линейной регрессией, означающей поступательный характер изменения зависимой переменной при увеличении значений объясняющей переменной х. При отрицательном коэффициенте регрессии речь идет об отрицательной регрессии, при которой с увеличением значений х значения переменной у убывают. Параметры регрессии - не безразмерные величины. Постоянная уравнения регрессии имеет размерность переменной у. Размерность коэффициента регрессии представляет собой отношение размерности зависимой переменной к размерности объясняющей переменной. Здесь же отметим общий принцип, которого будем далее придерживаться. Функции, с помощью которых описывается зависимость между исследуемыми переменными, должны быть линейными относительно оцениваемых параметров. После получения численных оценок параметров может быть вычислено по уравнению регрессии для каждого значения независимой переменной значение

Рис. 11. Регрессионная прямая и ее параметры

Значения функции регрессии называются предсказанными или расчетными значениями переменной у для фиксированных х. При линейной функции совокупность предсказанных значений образует прямую регрессии. Как уже упоминалось, из-за искажающего влияния посторонних факторов-причин для каждого значения может наблюдаться несколько эмпирических значений т. е. каждому значению соответствует в статистическом смысле распределение вероятностей значений переменной у. Значения функции регрессии

До сих нор в оценке статистической связи мы исходили из того, что обе рассматриваемые переменные являются равноправными. В практическом экспериментальном исследовании бывает важно, однако, проследить не только связь двух переменных друг с другом, но также и то, каким образом одна из переменных влияет на другую.

Предположим, нас интересует, возможно ли по результатам контрольной работы, проведенной в середине семестра, предсказать оценку студента на экзамене. Для этого соберем данные, отражающие оценки студентов, полученные на контрольной работе и на экзамене. Возможные данные такого рода представлены в табл. 7.3. Логично предположить, что студент, который лучше подготовился к контрольной работе и получил более высокую оценку, при прочих равных условиях имеет больше шансов получить и более высокую оценку на экзамене. Действительно, коэффициент корреляции между X (оценкой по контрольной работе) и Y (оценкой на экзамене) для данного случая довольно велик (0,55). Однако он вовсе не указывает на то, что оценка на экзамене обусловлена оценкой на контрольной работе. К тому же он нисколько не говорит нам о том, насколько должна измениться оценка на экзамене при соответствующем изменении результата контрольной работы. Для оценки того, каким образом должен изменяться Y при изменении X, скажем, на единицу, необходимо воспользоваться методом простой линейной регрессии.

Таблица 7.3

Оценки группы студентов по общей психологии на контрольной работе (коллоквиуме) и экзамене

на контрольной работе (X )

на экзамене (Y )

Смысл этого метода состоит в следующем.

Если бы коэффициент корреляции между двумя рядами оценок равнялся единице, тогда бы оценка на экзамене просто повторяла оценку на контрольной работе. Предположим, однако, что единицы измерения, которыми пользуется преподаватель для итогового и промежуточного контроля знаний, различны. Например, оценивать уровень текущих знаний в середине семестра можно по числу вопросов, на которые студент дал правильный ответ. В этом случае простое соответствие оценок нс будет выполняться. Но в любом случае будет выполняться соответствие для 2-оценок. Иными словами, если коэффициент корреляции между двумя рядами данных оказывается равным единице, должно выполняться следующее соотношение:

Если коэффициент корреляции оказывается отличным от единицы, тогда ожидаемое значение z Y, которое можно обозначить как , и значение z X должны быть связаны следующим соотношением, полученным с помощью методов дифференциального исчисления:

Выполнив замену значений г исходными значениями X и Υ, получаем следующее соотношение:

Теперь легко найти ожидаемое значение Υ:

(7.10)

Тогда уравнение (7.10) может быть переписано следующим образом:

Коэфициенты А и В в уравнении (7.11) представляет собой коэффициенты линейной регрессии . Коэффициент В показывает ожидаемое изменение зависимой переменной Y при изменении независимой переменной X на одну единицу. В методе простой линейной регрессии он называется наклоном. Применительно к нашим данным (см. табл. 7.3) наклон оказался равным 0,57. Это значит, что студенты, получившие на контрольной работе оценку на один бал выше, имели на экзамене в среднем на 0,57 балла больше остальных. Коэффициент А в уравнении (7.11) называется константой. Он показывает, какая ожидаемая величина зависимой переменной соответствует нулевому значению независимой переменной. Применительно к нашим данным этот параметр не несет никакой смысловой информации. И это довольно распространенное явление в психологических и педагогических исследованиях.

Следует отметить, что в регрессионном анализе независимые X и зависимые Y переменные имеют специальные названия. Так, независимую переменную принято обозначать термином предиктор, а зависимую – критерий.

Загрузка...
Top