в чем измеряется корреляция
Коэффициент корреляции
Корреля́ция — статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Математической мерой корреляции двух случайных величин служит коэффициент корреляции.
Корреляция может быть положительной и отрицательной (возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин). Отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции отрицателен. Положительная корреляция — корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции положителен.
Автокорреляция — статистическая взаимосвязь между случайными величинами из одного ряда, но взятых со сдвигом, например, для случайного процесса — со сдвигом по времени.
Метод обработки статистических данных, заключающийся в изучении коэффициентов (корреляции) между переменными, называется корреляционным анализом.
Содержание
Коэффициент корреляции
Коэффициент корреляции Пирсона
Для метрических величин применяется коэффициент корреляции Пирсона, точная формула которого была введена Фрэнсисом Гальтоном:
Пусть X,Y — две случайные величины, определённые на одном вероятностном пространстве. Тогда их коэффициент корреляции задаётся формулой:
,
где cov обозначает ковариацию, а D — дисперсию, или, что то же самое,
,
где символ обозначает математическое ожидание.
Для графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая пара значений маркируется при помощи определенного символа. Такой график называется «диаграммой рассеяния».
Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или τ (тау) Кендала. В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими: четырёхполевая корреляция. Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, кода связь между ними линейна (однонаправлена).
Коэффициент корреляции Кенделла
Используется для измерения взаимной неупорядоченности.
Коэффициент корреляции Спирмена
Свойства коэффициента корреляции
Корреляционный анализ
Корреляционный анализ — метод обработки статистических данных, заключающийся в изучении коэффициентов ( корреляции) между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков для установления между ними статистических взаимосвязей.
Цель корреляционного анализа — обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют. В самом общем виде принятие гипотезы о наличии корреляции означает что изменение значения переменной А, произойдет одновременно с пропорциональным изменением значения Б: если обе переменные растут то корреляция положительная, если одна переменная растёт, а вторая уменьшается, корреляция отрицательная.
Ограничения корреляционного анализа
Область применения
Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие.
Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.
Ложная корреляция
Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи.
В современной количественной методологии социальных наук, фактически, произошел отказ от попыток установить причинно-следственные связи между наблюдаемыми переменными эмпирическими методами. Поэтому, когда исследователи в социальных науках говорят об установлении взаимосвязей между изучаемыми переменными, подразумевается либо общетеоретическое допущение, либо статистическая зависимость.
См. также
Полезное
Смотреть что такое «Коэффициент корреляции» в других словарях:
Коэффициент корреляции — Математическое представление о степени связи между двумя сериями измерений. Коэффициент +1 обозначает четкую позитивную корреляцию: высокие показатели по одному параметру (например, рост) точно соотносятся с высокими показателями по другому… … Большая психологическая энциклопедия
КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ — англ. coefficient, correlation; нем. Korrelationskoeffizient. Мера тесноты связи двух или более переменных. Antinazi. Энциклопедия социологии, 2009 … Энциклопедия социологии
коэффициент корреляции — — [http://www.dunwoodypress.com/148/PDF/Biotech Eng Rus.pdf] Тематики биотехнологии EN correlation coefficient … Справочник технического переводчика
Коэффициент корреляции — (Correlation coefficient) Коэффициент корреляции это статистический показатель зависимости двух случайных величин Определение коэффициента корреляции, виды коэффициентов корреляции, свойства коэффициента корреляции, вычисление и применение… … Энциклопедия инвестора
коэффициент корреляции — 1.33. коэффициент корреляции Отношение ковариации двух случайных величин к произведению их стандартных отклонений: Примечания 1. Эта величина всегда будет принимать значения от минус 1 до плюс 1, включая крайние значения. 2. Если две случайные… … Словарь-справочник терминов нормативно-технической документации
КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ — (correlation coefficient) мера ассоциации одной переменной с другой. См. Корреляция; Коэффициент корреляции производного значения Пирсона; Коэффициент ранговой корреляции спирмена … Большой толковый социологический словарь
Коэффициент корреляции — CORRELATION COEFFICIENT Показатель степени линейной зависимости между двумя переменными величинами: Коэффициент корреляции может изменяться в пределах от 1 до 1. Если большим значениям одной величины соответствуют большие значения другой (и… … Словарь-справочник по экономике
коэффициент корреляции — koreliacijos koeficientas statusas T sritis automatika atitikmenys: angl. correlation coefficient vok. Korrelationskoeffizient, m rus. коэффициент корреляции, m pranc. coefficient de corrélation, m … Automatikos terminų žodynas
коэффициент корреляции — koreliacijos koeficientas statusas T sritis fizika atitikmenys: angl. correlation coefficient vok. Korrelationskoeffizient, m rus. коэффициент корреляции, m pranc. coefficient de corrélation, m … Fizikos terminų žodynas
Корреляционный анализ
Корреля́ция — статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Математической мерой корреляции двух случайных величин служит коэффициент корреляции.
Корреляция может быть положительной и отрицательной (возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин). Отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции отрицателен. Положительная корреляция — корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции положителен.
Автокорреляция — статистическая взаимосвязь между случайными величинами из одного ряда, но взятых со сдвигом, например, для случайного процесса — со сдвигом по времени.
Метод обработки статистических данных, заключающийся в изучении коэффициентов (корреляции) между переменными, называется корреляционным анализом.
Содержание
Коэффициент корреляции
Коэффициент корреляции Пирсона
Для метрических величин применяется коэффициент корреляции Пирсона, точная формула которого была введена Фрэнсисом Гальтоном:
Пусть X,Y — две случайные величины, определённые на одном вероятностном пространстве. Тогда их коэффициент корреляции задаётся формулой:
,
где cov обозначает ковариацию, а D — дисперсию, или, что то же самое,
,
где символ обозначает математическое ожидание.
Для графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая пара значений маркируется при помощи определенного символа. Такой график называется «диаграммой рассеяния».
Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или τ (тау) Кендала. В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими: четырёхполевая корреляция. Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, кода связь между ними линейна (однонаправлена).
Коэффициент корреляции Кенделла
Используется для измерения взаимной неупорядоченности.
Коэффициент корреляции Спирмена
Свойства коэффициента корреляции
Корреляционный анализ
Корреляционный анализ — метод обработки статистических данных, заключающийся в изучении коэффициентов ( корреляции) между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков для установления между ними статистических взаимосвязей.
Цель корреляционного анализа — обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют. В самом общем виде принятие гипотезы о наличии корреляции означает что изменение значения переменной А, произойдет одновременно с пропорциональным изменением значения Б: если обе переменные растут то корреляция положительная, если одна переменная растёт, а вторая уменьшается, корреляция отрицательная.
Ограничения корреляционного анализа
Область применения
Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие.
Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.
Ложная корреляция
Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи.
В современной количественной методологии социальных наук, фактически, произошел отказ от попыток установить причинно-следственные связи между наблюдаемыми переменными эмпирическими методами. Поэтому, когда исследователи в социальных науках говорят об установлении взаимосвязей между изучаемыми переменными, подразумевается либо общетеоретическое допущение, либо статистическая зависимость.
См. также
Полезное
Смотреть что такое «Корреляционный анализ» в других словарях:
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ — см. АНАЛИЗ КОРРЕЛЯЦИОННЫЙ. Antinazi. Энциклопедия социологии, 2009 … Энциклопедия социологии
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ — раздел математической статистики, объединяющий практические методы исследования корреляционной зависимости между двумя (или большим числом) случайными признаками или факторами. См. Корреляция (в математической статистике) … Большой Энциклопедический словарь
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ — КОРРЕЛЯЦИОННЫЙ АНАЛИЗ, раздел математической статистики, объединяющий практические методы исследования корреляционной зависимости между двумя (или большим числом) случайными признаками или факторами. См. Корреляция (см. КОРРЕЛЯЦИЯ (взаимная связь … Энциклопедический словарь
Корреляционный анализ — (в экономике) [correlation analysis] ветвь математической статистики, изучающая взаимосвязи между изменяющимися величинами (корреляция соотношение, от латинского слова correlatio). Взаимосвязь может быть полная (т.е. функциональная) и неполная,… … Экономико-математический словарь
корреляционный анализ — (в психологии) (от лат. correlatio соотношение) статистический метод оценки формы, знака и тесноты связи исследуемых признаков или факторов. При определении формы связи рассматривается ее линейность или нелинейность (т. е. как в среднем… … Большая психологическая энциклопедия
корреляционный анализ — — [Л.Г.Суменко. Англо русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.] Тематики информационные технологии в целом EN correlation analysis … Справочник технического переводчика
корреляционный анализ — koreliacinė analizė statusas T sritis Kūno kultūra ir sportas apibrėžtis Statistikos metodas, kuriuo įvertinami tiriamųjų asmenų, reiškinių požymiai arba veiksnių santykiai. atitikmenys: angl. correlation studies vok. Analyse der Korrelation, f;… … Sporto terminų žodynas
Корреляционный анализ — совокупность основанных на математической теории корреляции (См. Корреляция) методов обнаружения корреляционной зависимости между двумя случайными признаками или факторами. К. а. экспериментальных данных заключает в себе следующие… … Большая советская энциклопедия
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ — раздел матем. статистики, объединяющий практич. методы исследования корреляц. зависимости между двумя (или большим числом) случайными признаками или факторами. См. Корреляция … Большой энциклопедический политехнический словарь
Корреляционный анализ — Один из основных методов социолингвистики, целью которого является установление соотношений между языковыми явлениями и социальными параметрами. См. также: Социолингвистическая корреляция, Социолингвистическая переменная … Словарь социолингвистических терминов
19. Линейный коэффициент корреляции
Эта тема планировалась более 10 лет назад и вот, наконец, я здесь…. И вы здесь! И это замечательно! Даже не то слово. Это корреляционно.
О корреляции речь зашла в статьях в статьях об аналитической и комбинационной группировке, в результате чего перед нами нарисовались некоторые эмпирические показателями корреляции (прочитайте хотя бы «по диагонали»!). И сейчас на очереди линейный коэффициент корреляции, популярный настолько, что по умолчанию под коэффициентом корреляции понимают именно его. …Да, всё верно – существует довольно много разных коэффициентов корреляции. Однако всему своё время.
Материал данной темы состоит из двух уровней:
– начального, для всех – вплоть до студенток психологических и социологических факультетов, школьников, бабушек, дедушек, etc и
– продвинутого, где я разберу более редкие задачи, а некоторые даже не буду разбирать 🙂
В результате вы научитесь БЫСТРО решать типовые задачи (видео прилагается) и для самых ленивых есть калькуляторы. И пока не запамятовал, хочу порекомендовать корреляционно-регрессионный анализ для ваших научных работ и практических исследований – наряду со статистическими гипотезами, это самая настоящая находка в плане новизны и творческих изысканий.
Оглавление:
то было для «чайников», для начала достаточно…
…и в этот момент я благоговейно улыбаюсь – как здорово, что все мы здесь сегодня собрались:
Имеются выборочные данные по студентам: – количество прогулов за некоторый период времени и – суммарная успеваемость за этот период:
И сразу обращаю внимание, что в условии приведены несгруппированные данные. Помимо этого варианта, есть задачи, где изначально дана комбинационная таблица, и их мы тоже разберём. Сначала одно, затем другое.
1) высказать предположение о наличии и направлении корреляционной зависимости признака-результата от признака-фактора и построить диаграмму рассеяния;
2) анализируя диаграмму рассеяния, сделать вывод о форме зависимости;
3) найти уравнение линейной регрессии на , выполнить чертёж;
4) вычислить линейный коэффициент корреляции, сделать вывод;
5) вычислить коэффициент детерминации, сделать вывод,
и позже будет ещё 5-6 пунктов для продвинутых читателей (см. конец урока).
Решение:
1) Прежде всего, повторим, что такое корреляционная зависимость. Очевидно, что чем больше студент прогуливает, тем более вероятно, что у него плохая успеваемость. Но всегда ли это так? Нет, не всегда. Успеваемость зависит от многих факторов. Один студент может посещать все пары, но все равно учиться посредственно, а другой – учиться неплохо даже при достаточно большом количестве прогулов. Однако общая тенденция состоит в том, что с увеличением количества прогулов средняя успеваемость студентов будет падать. Такая нежёсткая зависимость и называется корреляционной.
По своему направлению зависимость бывает прямой («чем больше, тем больше») и обратной («чем больше, тем меньше»). В данной задаче мы высказали предположение о наличии обратной корреляционной зависимости – успеваемости студентов от – количества их прогулов. И что немаловажно, обосновали причинно-следственную связь (читать всем. ) между признаками.
Проверить выдвинутое предположение проще всего графически, и в этом нам поможет:
диаграмма рассеяния
– это множество точек в декартовой системе координат, абсциссы которых соответствуют значениям признака-фактора , а ординаты – соответствующим значениям признака-результата . Минимальное количество точек должно равняться пяти-шести, в противном случае рассматриваемая задача превращается в профанацию. И мы «вписываемся в рамки» – объём выборки равен восьми студентам:
Обратите, кстати, внимание как раз на тот момент, что при одном и том же количестве прогулов (15) двое студентов имеют существенно разные результаты.
2) По диаграмме рассеяния хорошо видно, что с увеличением числа прогулов успеваемость преимущественно падает, что подтверждает наличие обратной корреляционной зависимости успеваемости от количества прогулов. Более того, почти все точки «выстроились» примерно по прямой, что даёт основание предположить, что данная зависимость близкА к линейной.
И здесь я анонсирую дальнейшие действия: сейчас нам предстоит найти уравнение прямой, ТАКОЙ, которая проходит максимально близко сразу ко всем эмпирическим точкам, а также оценить тесноту линейной корреляционной зависимости – насколько близко расположены эти точки к построенной прямой.
Технически существует два пути решения:
– сначала найти уравнение прямой и затем оценить тесноту зависимости;
– сначала найти тесноту и затем составить уравнение.
В практически задачах чаще встречается второй вариант, но я начну с первого, он более последователен. Построим:
3) уравнение линейной регрессии на
Это и есть та самая оптимальная прямая , которая проходит максимально близко ко всем точкам. Обычно её находят методом наименьших квадратов, и мы пойдём знакомым путём. Заполним расчётную таблицу:
Обратите внимание, что в отличие от задач урока МНК у нас появился дополнительный столбец , он потребуется в дальнейшем, для расчёта коэффициента корреляции.
Коэффициенты функции найдём из решения системы:
Сократим оба уравнения на 2, всё попроще будет:
Систему решим по формулам Крамера:
, значит, система имеет единственное решение.
И проверка forever, подставим полученные значения в левую часть каждого уравнения исходной системы:
в результате получены соответствующие правые части, значит, система решена верно.
Таким образом, искомое уравнение регрессии:
Данное уравнение показывает, что с увеличением количества прогулов («икс») на 1 единицу суммарная успеваемость падает в среднем на 6,0485 – примерно на 6 баллов. Об этом нам рассказал коэффициент «а». И обратите особое внимание, что эта функция возвращает нам средние (среднеожидаемые) значения «игрек» для различных значений «икс».
Почему это регрессия именно « на » и о происхождении самого термина «регрессия» я рассказал чуть ранее, в параграфе эмпирические линии регрессии. Если кратко, то полученные с помощью уравнения средние значения успеваемости («игреки») регрессивно возвращают нас к первопричине – количеству прогулов. Вообще, регрессия – не слишком позитивное слово, но какое уж есть.
Найдём пару удобных точек для построения прямой:
отметим их на чертеже (малиновый цвет) и проведём линию регрессии:
Говорят, что уравнение регрессии аппроксимирует (приближает) эмпирические данные (точки), и с помощью него можно интерполировать (восстановить) неизвестные промежуточные значения, так при количестве прогулов среднеожидаемая успеваемость составит балла.
И, конечно, осуществимо прогнозирование, так при среднеожидаемая успеваемость составит баллов. Единственное, нежелательно брать «иксы», которые расположены слишком далеко от эмпирических точек, поскольку прогноз, скорее всего, не будет соответствовать действительности. Например, при значение может вообще оказаться невозможным, ибо у успеваемости есть свой фиксированный «потолок». И, разумеется, «икс» или «игрек» в нашей задаче не могут быть отрицательными.
Второй вопрос касается тесноты зависимости. Очевидно, что чем ближе эмпирические точки к прямой, тем теснее линейная корреляционная зависимость – тем уравнение регрессии достовернее отражает ситуацию, и тем качественнее полученная модель. И наоборот, если многие точки разбросаны вдали от прямой, то признак зависит от вовсе не линейно (если вообще зависит) и линейная функция плохо отражает реальную картину.
Прояснить данный вопрос нам поможет:
4) линейный коэффициент корреляции
Этот коэффициент как раз и оценивает тесноту линейной корреляционной зависимости и более того, указывает её направление (прямая или обратная). Его полное название: выборочный линейный коэффициент пАрной корреляции Пирсона 🙂
– «выборочный» – потому что мы рассматриваем выборочную совокупность;
– «линейный» – потому что он оценивает тесноту линейной корреляционной зависимости;
– «пАрной» – потому что у нас два признака (бывает хуже);
– и «Пирсона» – в честь английского статистика Карла Пирсона, это он автор понятия «корреляция».
И в зависимости от фантазии автора задачи вам может встретиться любая комбинация этих слов. Теперь нас не застанешь врасплох, Карл.
Линейный коэффициент корреляции вычислим по формуле:
, где: – среднее значение произведения признаков, – средние значения признаков и – стандартные отклонения признаков. Числитель формулы имеет особый смысл, о котором я расскажу, когда мы будет разбирать второй способ решения.
Осталось разгрести всё это добро 🙂 Впрочем, все нужные суммы уже рассчитаны в таблице выше. Вычислим средние значения:
Стандартные отклонения найдём как корни из соответствующих дисперсий, вычисленных по формуле:
Таким образом, коэффициент корреляции:
И расшифровка: коэффициент корреляции может изменяться в пределах и чем он ближе по модулю к единице, тем теснее линейная корреляционная зависимость – тем ближе расположены точки к прямой, тем качественнее и достовернее линейная модель. Если либо , то речь идёт о строгой линейной зависимости, при которой все эмпирические точки окажутся на построенной прямой. Наоборот, чем ближе к нулю, тем точки рассеяны дальше, тем линейная зависимость выражена меньше. Однако в последнем случае зависимость всё равно может быть! – например, нелинейной или какой-нибудь более загадочной. Но до этого мы ещё дойдём. А у кого не хватит сил, донесём 🙂
Для оценки тесноты связи будем использовать уже знакомую шкалу Чеддока:
При этом если , то корреляционная связь обратная, а если , то прямая.
В нашем случае , таким образом, существует сильная обратная линейная корреляционная зависимость – суммарной успеваемости от – количества прогулов.
Линейный коэффициент корреляции – это частный аналог эмпирического корреляционного отношения. Но в отличие от отношения, он показывает не только тесноту, но ещё и направление зависимости, ну и, конечно, здесь определена её форма (линейная).
5) Коэффициент детерминации
– это частный аналог эмпирического коэффициента детерминации – есть квадрат коэффициента корреляции:
– коэффициент детерминации показывает долю вариации признака-результата , которая обусловлена воздействием признака-фактора .
В нашей задаче:
– таким образом, в рамках построенной модели успеваемость на 51,74% зависит от количества прогулов. Оставшаяся часть вариации успеваемости (48,26%) обусловлена другими причинами.
! Примечание: но это не является какой-то «абсолютной истиной», это всего лишь оценка в рамках построенной модели.
Задание выполнено
Но точку ставить рано. Теперь второй способ решения, в котором мы сначала находим коэффициент корреляции, а затем уравнение регрессии.
Линейный коэффициент корреляции вычислим по формуле:
, где – стандартные отклонения признаков .
Член в числителе называют корреляционным моментом или коэффициентом ковариации (совместной вариации) признаков, он рассчитывается следующим образом: , где – объём статистической совокупности, а – средние значения признаков. Данный коэффициент показывает, насколько согласованно отклоняются пАрные значения от своих средних в ту или иную сторону. Формулу можно упростить, в результате чего получится ранее использованная версия, без подробных выкладок: . Но сейчас мы пойдём другим путём.
Заполним расчётную таблицу:
При этом сначала рассчитываем левые нижние суммы и средние значения признаков:
и только потом заполняем оставшиеся столбцы таблицы. О том, как быстро выполнить эти вычисления в Экселе, будет видео ниже!
Вычислим коэффициент ковариации:
.
Стандартные отклонения вычислим как квадратные корни из дисперсий:
Таким образом, коэффициент корреляции:
И если нам известны значения , то коэффициенты уравнения регрессии легко рассчитать по следующим формулам:
Таким образом, искомое уравнение:
Теперь смотрим ролик о том, как это всё быстро подсчитать и построить:
Как вычислить коэффициент корреляции и найти уравнение регрессии? (Ютуб)
Если под рукой нет Экселя, ничего страшного, разобранную задачу не так трудно решить в обычной клетчатой тетради. А если Эксель есть и времени нет, то можно воспользоваться моим калькулятором. Да, вы можете найти аналоги в Сети, но, скорее всего, это будет не совсем то, что нужно 😉
Какой способ решения выбрать? Ориентируйтесь на свой учебный план и методичку. По умолчанию лучше использовать 2-й способ, он несколько короче, и, вероятно, потому и встречается чаще. Кстати, если вам нужно построить ТОЛЬКО уравнение регрессии, то уместен 1-й способ, ибо там мы находим это уравнение в первую очередь.
Следующая задача много-много лет назад была предложена курсантам местной школы милиции (тогда ещё милиции), и это чуть ли не первая задача по теме, которая встретилась в моей профессиональной карьере. И я безмерно рад предложить её вам сейчас, разумеется, с дополнительными пунктами:)
В результате независимых опытов получены 7 пар чисел:
…да, числа могут быть и отрицательными.
По данным наблюдений вычислить линейный коэффициент корреляции и детерминации, сделать выводы. Найти параметры линейной регрессии на , пояснить их смысл. Изобразить диаграмму рассеяния и график регрессии. Вычислить , что означают полученные результаты?
Из условия следует, что признак , очевидно, зависит от (ибо кто ж делает бессвязные опыты). Однако помните, что корреляционная зависимость и причинно-следственная связь – это не одно и то же! (прочитайте, если до сих пор не прочитали!). Поэтому, если в задаче просто предложены два числовых ряда (без контекста), то можно говорить лишь о зависимости корреляционной, но не о причинно-следственной.
Все данные уже забиты в Эксель, и вам осталось аккуратно выполнить расчёты. В образце я решил задачу вторым, более распространённым способом. И, конечно же, выполните проверку первым путём.
Следует отметить, что в целях экономии места я специально подобрал задачи с малым объёмом выборки. На практике обычно предлагают 10 или 20 пар чисел, реже 30, и максимальная выборка, которая мне встречалась в студенческих работах – 100. …Соврал малость, 80.
И сейчас я вас приглашаю на следующий урок, назову его Уравнение линейной регрессии, где мы рассчитаем и найдём всё то же самое – только для комбинационной группировки. Плюс немного глубже копнём уравнения регрессии (их два).
Пример 68. Решение: вычислим суммы и средние значения признаков , и заполним расчётную таблицу:
Вычислим коэффициент ковариации:
.
Вычислим средние квадратические отклонения:
Вычислим коэффициент корреляции:
, таким образом, существует сильная прямая корреляционная зависимость от.
Вычислим коэффициент детерминации:
– таким образом, 77,19% вариации признака обусловлено изменением признака . Остальная вариация (22,81%) обусловлена другими факторами.
Вычислим коэффициенты линейной регрессии :
Таким образом, искомое уравнение регрессии:
Данное уравнение показывает, что с увеличением значения «икс» на одну единицу «игрек» увеличивается в среднем примерно на 1,32 единицы (смысл коэффициента «а»).
При среднеожидаемое значение «игрек» составит примерно 2,62 ед. (смысл коэффициента «бэ»).
Найдём пару точек для построения прямой:
и выполним чертёж:
Вычислим:
– среднеожидаемое значение «игрек» при (интерполированный результат);
– среднеожидаемое значение «игрек» при (спрогнозированный результат).
Автор: Емелин Александр
(Переход на главную страницу)
Zaochnik.com – профессиональная помощь студентам
cкидкa 15% на первый зaкaз, прoмoкoд: 5530-hihi5
Tutoronline.ru – онлайн репетиторы по математике и другим предметам