Что такое дисперсия числового ряда
Дисперсия, виды и свойства дисперсии
Понятие дисперсии
Дисперсия в статистике находится как среднее квадратическое отклонение индивидуальных значений признака в квадрате от средней арифметической. В зависимости от исходных данных она определяется по формулам простой и взвешенной дисперсий:
1. Простая дисперсия (для несгруппированных данных) вычисляется по формуле:
2. Взвешенная дисперсия (для вариационного ряда):
где n — частота (повторяемость фактора Х)
Пример нахождения дисперсии
На данной странице описан стандартный пример нахождения дисперсии, также Вы можете посмотреть другие задачи на её нахождение
Пример 1. Имеются следующие данные по группе из 20 студентов заочного отделения. Нужно построить интервальный ряд распределения признака, рассчитать среднее значение признака и изучить его дисперсию
Построим интервальную группировку. Определим размах интервала по формуле:
где X max– максимальное значение группировочного признака;
X min–минимальное значение группировочного признака;
n – количество интервалов:
Принимаем n=5. Шаг равен: h = (192 — 159)/ 5 = 6,6
Составим интервальную группировку
Для дальнейших расчетов построим вспомогательную таблицу:
X’i– середина интервала. (например середина интервала 159 – 165,6 = 162,3)
Среднюю величину роста студентов определим по формуле средней арифметической взвешенной:
Определим дисперсию по формуле:
Формулу дисперсии можно преобразовать так:
Из этой формулы следует, что дисперсия равна разности средней из квадратов вариантов и квадрата и средней.
Дисперсия в вариационных рядах с равными интервалами по способу моментов может быть рассчитана следующим способом при использовании второго свойства дисперсии (разделив все варианты на величину интервала). Определении дисперсии, вычисленной по способу моментов, по следующей формуле менее трудоемок:
где i — величина интервала;
А — условный ноль, в качестве которого удобно использовать середину интервала, обладающего наибольшей частотой;
m1 — квадрат момента первого порядка;
m2 — момент второго порядка
Дисперсия альтернативного признака (если в статистической совокупности признак изменяется так, что имеются только два взаимно исключающих друг друга варианта, то такая изменчивость называется альтернативной) может быть вычислена по формуле:
Подставляя в данную формулу дисперсии q =1- р, получаем:
Виды дисперсии
Общая дисперсия измеряет вариацию признака по всей совокупности в целом под влиянием всех факторов, обуславливающих эту вариацию. Она равняется среднему квадрату отклонений отдельных значений признака х от общего среднего значения х и может быть определена как простая дисперсия или взвешенная дисперсия.
Внутригрупповая дисперсия характеризует случайную вариацию, т.е. часть вариации, которая обусловлена влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Такая дисперсия равна среднему квадрату отклонений отдельных значений признака внутри группы X от средней арифметической группы и может быть вычислена как простая дисперсия или как взвешенная дисперсия.
Таким образом, внутригрупповая дисперсия измеряет вариацию признака внутри группы и определяется по формуле:
где хi — групповая средняя;
ni — число единиц в группе.
Например, внутригрупповые дисперсии, которые надо определить в задаче изучения влияния квалификации рабочих на уровень производительности труда в цехе показывают вариации выработки в каждой группе, вызванные всеми возможными факторами (техническое состояние оборудования, обеспеченность инструментами и материалами, возраст рабочих, интенсивность труда и т.д.), кроме отличий в квалификационном разряде (внутри группы все рабочие имеют одну и ту же квалификацию).
Средняя из внутри групповых дисперсий отражает случайную вариацию, т. е. ту часть вариации, которая происходила под влиянием всех прочих факторов, за исключением фактора группировки. Она рассчитывается по формуле:
Межгрупповая дисперсия характеризует систематическую вариацию результативного признака, которая обусловлена влиянием признака-фактора, положенного в основание группировки. Она равняется среднему квадрату отклонений групповых средних от общей средней. Межгрупповая дисперсия рассчитывается по формуле:
Правило сложения дисперсии в статистике
Согласно правилу сложения дисперсий общая дисперсия равна сумме средней из внутригрупповых и межгрупповых дисперсий:
Смысл этого правила заключается в том, что общая дисперсия, которая возникает под влиянием всех факторов, равняется сумме дисперсий, которые возникают под влиянием всех прочих факторов, и дисперсии, возникающей за счет фактора группировки.
Пользуясь формулой сложения дисперсий, можно определить по двум известным дисперсиям третью неизвестную, а также судить о силе влияния группировочного признака.
Свойства дисперсии
1. Если все значения признака уменьшить (увеличить) на одну и ту же постоянную величину, то дисперсия от этого не изменится.
2. Если все значения признака уменьшить (увеличить) в одно и то же число раз n, то дисперсия соответственно уменьшится (увеличить) в n^2 раз.
Алгебра. 8 класс
При анализе результатов исследований полезно иметь представление о разбросе данных в числовом ряду. Размах ряда один из таких показателей, но дает слишком грубую оценку.
Размах ряда чисел – разность между наибольшим и наименьшим числами в данном ряду чисел.
Рассмотрим наиболее часто используемый на практике статистический показатель – дисперсия.
Представлен ряд чисел 4; 8; 12; 7; 16; 13.
Вычислим среднее арифметическое данного ряда. Сумму всех чисел ряда разделим на их количество.
Вычислим отклонение каждого члена ряда от среднего арифметического:
4 – 10 = –6;
8 – 10 = –2;
12 – 10 = 2;
7 – 10 = –3;
16 – 10 = 6;
13 – 10 = 3.
Заметим, что сумма отклонений равна нулю:
(–6) + (–2) + 2 + (–3) + 6 + 3 = 0.
Данный показатель не может характеризировать разброс данных, так как для любого ряда чисел он всегда будет равен нулю.
Составим ряд квадратов отклонений и рассчитаем среднее арифметическое ряда, т. е. определим дисперсию заданного ряда данных.
Дисперсия рассматриваемого ряда равна 16.
Дисперсией ряда чисел называется среднее арифметическое квадратов их отклонений от среднего арифметического этого ряда.
Дисперсия – мера разброса чисел в ряду.
Кто лучше готов к соревнованиям?
Спортсмены проводили подготовку к соревнованиям по стрельбе из лука. Оба спортсмена произвели по 7 серий выстрелов. Каждая серия состояла из 12 выстрелов. По итогам каждой серии подведены результаты попадания в цель.
Получили следующие данные:
Спортсмен 1: 11, 11, 12, 11, 9, 11, 12.
Спортсмен 2: 12, 10, 9, 12, 11, 12, 11.
Найдём среднее арифметическое для каждого спортсмена.
Спортсмен 1: .
Спортсмен 2:
Вычислим дисперсию результатов для каждого спортсмена.
Спортсмен 1:
Спортсмен 2:
Обратите внимание на полученные значения.
Разброс данных у первого спортсмена меньше. Это говорит о его лучшей подготовке.
Данный пример демонстрирует, что при равных средних арифметических значениях, именно дисперсия позволила выявить наименьший разброс данных среди результатов.
Первый спортсмен лучше готов. Показал более стабильный результат.
Отметим особенность дисперсии.
Если в ряду содержится большое число данных, среди которых есть лишь несколько данных, значительно отличающихся от среднего арифметического этого ряда, то дисперсия такого ряда данных обычно не велика.
Если исследуемые величины измеряются в каких-либо линейных единицах измерения: килограммах, метрах, часах и т. д., то по сущности вычислений дисперсия измеряется в квадратах этих единиц, т. е. некоторые из этих единиц измерений не имеют реального смысла.
Поэтому дисперсию часто заменяют на среднее квадратичное отклонение.
Средним квадратичным отклонением числового ряда называют квадратный корень из дисперсии этого ряда.
Запишем результаты для рассматриваемого нами примера.
Спортсмен 1: .
Спортсмен 2: .
Среднее квадратичное отклонение принято обозначать греческой буквой σ (сигма).
Алгебра. 8 класс: учеб. для общеобразоват. организаций / [Ю. Н. Макарычев, Н. Г. Миндюк, К. И. Нешков, С. Б. Суворова]; под ред. С. А. Теляковского. – 6-е изд. – М.: Просвещение, 2017.
Что такое дисперсия в статистике
Статистика, в частности, оперирует рядами данных, характеризующих какой-либо признак, явление. Интересует их изменение.
Вариация представляет собой отличие величин одинакового показателя у разных предметов. Ее изучение позволит понять причины отклонений от нормы, анализировать их и в какой-то мере прогнозировать. Также станет возможным выявить факторы, влияющие на значения, отсеяв случайные.
Характеристики равномерного распределения представлены на картинке:
При значительном объеме статистики, средняя величина очевидно близка к нормальной. Об этом говорят и законы распределения. Отклонения от нее будут являться объективной характеристикой.
Только вот отрицательные значения этих разбросов будут сбивать с толку при расчетах, погашая положительные. А оставлять лишь модули – для математика не корректно. Напрашивается возвести в четную степень, а именно – во вторую.
Решение оказалось не только удобным. Оно открыло бо́льшие возможности в изучении отклонений. А важны именно они, поскольку сама по себе средняя мало что дает.
В качестве одного из важных показателей вариации, вводится понятие «дисперсия» – усредненный квадрат отклонений численных значений каких-либо событий от средней величины.
Никакого наглядного смысла величина не несет. Другое дело, среднее квадратическое отклонение – корень квадратный из дисперсии.
Виды дисперсии дискретной случайной величины
Для анализа данных цифр в таком виде недостаточно. Гораздо больше можно выжать из последовательности, если разбить ее на группы по определенному признаку.
Общая дисперсия
Как можно заметить, вычисленная по приведенному выше определению величина характеризует отклонения в целом. Без учета определяющих вариацию факторов. Вернее, с учетом всех, включая совершенно случайные. Поэтому и называется «общей» и рассчитывается по формулам, указанным ниже.
Простая дисперсия, без разделения на группы:
Или в несколько преобразованном виде:
Взвешенная дисперсия, для вариационного ряда:
где xi – значение из ряда;
fi – частота, количество повторений;
n – число вариантов.
Черта сверху указывает на среднюю величину.
Межгрупповая дисперсия
Характеризует систематическое отклонение, возникающее из-за фактора, по которому производилось выделение признаков в группы. Поэтому также называется «факторной».
Как найти данную дисперсию? По формуле:
где k – количество групп;
nj – элементов в группе с индексом j.
Внутригрупповая дисперсия
Возникает по хаотичной причине, не связанной с причиной сделанной выборки. Неучтенный фактор. Еще обозначается как «остаточная».
Например, рассматривается количество выпущенных деталей за месяц каждым фрезеровщиком цеха.
В качестве критерия отбора в группу выбираем возраст оборудования. Он-то и не будет влиять на производительность внутри подборки: там станки у всех практически одинаковые.
Если вычислить среднюю величину от всех групповых,
то получим характеристику случайного разброса. Иными словами, составляющую вариации, зависящую от чего угодно, кроме фактора отбора.
Взаимосвязь
В соответствии с правилом сложения, общая D[X] включает средние выражения остаточной и факторной. И это логично, поскольку учитывает и случайное изменение в группе, и систематическое в факторной.
Свойства дисперсии
Если последовательность состоит из одинаковых чисел, то D[X] будет нулевой.
Уменьшение всех значений на постоянную величину на дисперсию не влияет. Иначе говоря, рассчитать σ 2 можно по отклонениям от фиксированного числа.
Уменьшение всех цифр в k раз приведет к падению D[X] в k 2 раз. Можно, например, иметь в виду значения в метрах, а результат вычислить в футах. Достаточно учесть один раз то, на что следует умножить.
Показатели вариаций
Кроме размаха (разницы максимального и минимального значений), среднего линейного и дисперсии, изменения описываются коэффициентом вариации:
Оценить масштаб разброса проще по относительной величине. Тем более, что измеряются в одних единицах.
Пример расчета дисперсии
Компания объявила конкурсный отбор для приема сотрудников. В качестве критерия принят стаж работы по специальности. Приведем исходные данные и расчеты.
По альтернативной формуле:
Заключение
Статистика оперирует значительными объемами данных. Вариация, как одно из основных понятий – не исключение. И дисперсия в качестве основной характеристики.
Для упрощения расчетов существует масса онлайн калькуляторов. Имеется упомянутый инструмент в MS Excel.
6. Формула для вычисления дисперсии.
Среднее квадратическое отклонение. Коэффициент вариации
В первой части урока мы рассмотрели размах вариации, среднее линейное отклонение и дисперсию, и продолжение темы в заголовке. Многие из этих показателей фигурируют в теории вероятностей, и если вы зашли с поисковика именно за ними, то сразу ссылка на нужную статью: Дисперсия дискретной случайной величины – там же всё остальное.
Ну а здесь на повестке дня Математическая статистика (организационный урок для «чайников»), и мы продолжаем изучать показатели вариации:
Всё с формулами, примерами решений и техникой рациональных вычислений.
И снова о дисперсии.
На предыдущем занятии мы рассчитывали дисперсию по определению:
– для несгруппированных данных и
– для дискретного либо интервального вариационного ряда.
Если известно, генеральная ли нам дана совокупность или выборочная, то хорошим тоном считается поставить подстрочные индексы: либо
.
Расчёт дисперсии по определению прост и реально используется на практике, но существует ещё более простой и удобный способ вычисления – по формуле, которую несложно вывести из определения:
– дисперсия равна разности средней арифметической квадратов всех вариант статистической совокупности и квадрата средней самих этих вариант.
ОСМЫСЛЕННО повторяем ВСЛУХ и вникаем! … Карл украл у Клары кораллы, а Клара украла у Карла кларнет 🙂
Если что-то не очень понятно, то сейчас всё станет на свои места:
Для несгруппированных вариант выборочной совокупности формула детализируется следующим образом:
и для готового вариационного ряда – так: , где
– кратные (одинаковые) варианты дискретного ряда либо середины интервалов интервального ряда, а
– соответствующие частоты.
Для генеральной дисперсии формулы те же, только с буквами
вместо
. Во многих случаях удобно использовать просто значок суммирования
– без переменной-«счётчика», поскольку в контексте той или иной задачи и так понятно, что суммируется.
И начнём мы со знакомой подопытной задачи:
В результате 10 независимых измерений получены опытные данные, которые представлены в таблице:
Это данные из Примера 13, и на этот раз нам требуется вычислить дисперсию с помощью формулы. Напоминаю, что там мы её рассчитали по определению и получили результат , таким образом, ответ известен заранее, и это всегда круто. Всегда, когда он правильный.
Решение: используем формулу .
Для этого нужно найти выборочную среднюю, повторим действие: ,
вычислить квадраты всех вариант:
и их сумму:
Результаты вычислений удобно заносить в таблицу:
Осталось применить формулу: , что и требовалось увидеть.
Ответ:
Теперь случай сформированного вариационного ряда. В Примере 14 мы потренировались на дискретном ряде, и сейчас очередь интервального:
С целью изучения вкладов в Сбербанке города проведено выборочное исследование, в результате которого получены следующие данные:
Вычислить выборочную дисперсию и среднее квадратическое отклонение, оценить соответствующие показатели генеральной совокупности.
Автор задачи заботливо подсчитал объем выборки , но не «закрыл» крайние интервалы. Такая вещь уже встречалась, и решение мы начинаем с этого закрытия. Поскольку длины внутренних интервалов составляют
д.е., то логично рассмотреть такую же длину и по краям, то бишь, интервалы от 200 до 400 и от 1000 до 1200 денежных единиц.
…Возможно, у вас возник вопрос, а как быть, если даны интервалы разной длины? В этом случае принимаем за «эталон» среднюю длину известных интервалов.
Для расчёта числовых характеристик перейдём к дискретному вариационному ряду, выбрав в качестве вариант середины интервалов, которые здесь видны устно:
В тяжёлых случаях суммируем концы интервалов и делим их пополам, например: .
Кроме того, варианты целесообразно уменьшить в 1000 раз, поскольку в ходе дальнейших вычислений будут получаться гигантские числа. С современными вычислительными мощностями, это, конечно, не проблема, но смотреться будет некрасиво.
Сначала вычислим выборочную среднюю. Этот алгоритм уже обкатан: находим произведения , их сумму:
и по соответствующей формуле:
тыс. д.е. или 780 д.е. – средний размер вклада.
Примечание: далее для компактной записи я буду использовать просто значок – без переменной-«счётчика».
Теперь дисперсия. Её никто не запрещает рассчитать по определению , но заметьте, насколько легче формула
– для её применения всего-то лишь нужно рассчитать произведения
и их сумму
(правый столбец таблицы). Несмотря на то, что многие читатели уже освоили технику вычислений в Экселе, я продолжу записывать ролики – мало ли, кто что запамятовал:
Итак, по формуле вычисления дисперсии, получаем:
тыс. д.е. в квадрате (т.к. по определению, дисперсия – есть величина квадратичная).
И, чтобы вернуться в размерность задачи, из дисперсии следует извлечь квадратный корень:
тыс. д.е. или 240 денежных единиц. Полученный показатель называется
среднее квадратическое отклонение
Или стандартное отклонение. Оно обозначается греческой буквой «сигма», и коль скоро у нас выборочная совокупность, то добавляем соответствующий подстрочный индекс:
– выборочное среднее квадратическое отклонение.
Чем меньше стандартное отклонение (и дисперсия), тем меньше вариация – тем бОльшее количество вариант находится вблизи выборочной средней. Но у нас, как нетрудно «прикинуть на глазок», разброс довольно-таки велик – значительное количество вкладов расположено далековато от , и поэтому значение
получилось немалым.
Следующая часть задачи состоит в том, чтобы корректно оценить генеральную дисперсию и генеральное среднее квадратическое отклонение
.
В 1-й части урока я рассказал о том, что выборочная дисперсия представляет собой смещённую оценку генеральной дисперсии. Это означает, что если мы будем проводить неоднократные выборки из той же генеральной совокупности, то полученные значения будут систематически занижено оценивать
. Обращаю ваше внимание, что это не значит, что
будет всегда меньше, чем
.
И поэтому выборочную дисперсию, как намекает условие, нужно поправить:
– исправленная выборочная дисперсия
и, соответственно:
или 240,30 д.е. – исправленное среднее квадратическое отклонение.
и
– это уже несмещённые оценки генеральной дисперсии
и генерального стандартного отклонения
соответственно.
Ввиду большого объёма выборки (более 100 вариант) этой поправкой можно пренебречь, но всё же мы не будем «разбрасываться» 30 «копейками».
Ответ: ; в качестве оценки соответствующих генеральных показателей принимаем
и
.
Рассмотренные выше показатели (размах вариации, среднее линейное отклонение, дисперсия, стандартное отклонение) входят в группу абсолютных показателей вариации, которые обладают рядом неудобств. Так, если в прорешанной задаче не уменьшать варианты в 1000 раз, то дисперсия получится в миллион раз больше! Да-да, не , а
. И возникает естественное желание привести результаты к некому единому стандарту.
Для этого существуют показатели относительные, и самым известным из них является
коэффициент вариации
– это отношение стандартного отклонения к средней, выраженное в процентах:
И вот теперь совершенно без разницы, в д.е. мы считали:
или в тысячах д.е.:
Примечание: на практике часто считают именно через , но для оценки коэффициента вариации всей генеральной совокупности, конечно же, корректнее использовать исправленное стандартное отклонение
.
В статистике существует следующий эмпирический ориентир:
– если показатель вариации составляет примерно 30% и меньше, то статистическая совокупность считается однородной. Это означает, что большинство вариант находится недалеко от средней, и найденное значение хорошо характеризует центральную тенденцию совокупности.
– если показатель вариации составляет существенно больше 30%, то совокупность неоднородна, то есть, значительное количество вариант находятся далеко от , и выборочная средняя плохо характеризует типичную варианту. В таких случаях целесообразно рассмотреть квартили, децили, а иногда и перцентили, которые делят вариационный ряд на части, и для каждого участка рассчитать свои показатели. Но это уже немного дебри статистики.
Другое преимущество относительных показателей – это возможность сравнивать разнородные статистические совокупности. Например, множество слонов и множество хомячков. Совершенно понятно, что дисперсия веса слонов по отношению к дисперсии веса хомяков будет просто конской, и их сопоставление не имеет смысла. Но вот анализ коэффициентов вариации веса вполне осмыслен, и может статься, что у слонов он составляет 10%, а у хомячков 40% (пример, конечно, условный). Это говорит о сбалансированном питании и размеренной жизни слонов. А вот хомяки там, то носятся с голодухи по полям, то отъедаются и спят в норах, и поэтому среди них есть много худощавых и много упитанных особей 🙂
Кроме коэффициента вариации, существуют и другие относительные показатели, но в реальных студенческих работах они почти не встречаются, и поэтому я не буду их рассматривать в рамках данного курса.
И сейчас, конечно же, задачки для самостоятельного решения:
Пример 17, на отработку терминов и формул:
а) Стандартное отклонение выборочной совокупности равно 5, а средний квадрат её вариант – 250. Найти выборочную среднюю.
б) Определите среднее квадратическое отклонение, если известно, что средняя равна 260, а коэффициент вариации составляет 30%.
и Пример 18, творческий:
Производство стальных труб на предприятии (тонн) в 1-м полугодии составило:
Определить:
– среднемесячный объем производства;
– среднее квадратическое отклонение;
– коэффициент вариации.
Сделать краткие содержательные выводы. – Да, это тоже типичный пункт статистической задачи!
Обратите внимание, что здесь не понятно, выборочной ли считать эту совокупность или генеральной. И в таких случаях лучше не заниматься домыслами, просто используем обозначения без подстрочных индексов.
Вообще, задачи на экономическую и промышленную тематику – самые популярные в статистике, и в моей коллекции их сотни. Но все они до ужаса однотипны, и поэтому я предлагаю их в терапевтической дозировке 🙂
Выполнить расчёты в Экселе – числа уже там, ну а инструкцию я на этот раз не привёл, поскольку люди вы уже опытные.
Краткое решение и ответ в конце урока, который подошёл к концу.
Следующее занятие не за горами, а уже за кочкой:
Пример 17. Решение:
а) Используем формулу . По условию,
,
. Таким образом:
б) Используем формулу . По условию,
,
. Таким образом:
Ответ: а) , б)
Пример 18. Решение: вычислим сумму вариант и сумму их квадратов:
Найдём среднюю:
тонны – среднемесячный объем производства за полугодие.
Дисперсию вычислим по формуле:
Среднее квадратическое отклонение:
тонн.
Коэффициент вариации:
Ответ: тонны,
тонн,
Краткие выводы: за первое полугодие среднемесячный объём производства труб составил тонны. Низкие показатели вариации говорят о стабильной ситуации на производстве.
Автор: Емелин Александр
(Переход на главную страницу)
Zaochnik.com – профессиональная помощь студентам
cкидкa 15% на первый зaкaз, прoмoкoд: 5530-hihi5
Tutoronline.ru – онлайн репетиторы по математике и другим предметам