Что такое выборочная дисперсия
Выборочная дисперсия
Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения.
Если все значения признака выборки различны, то
Выборочным средним квадратическим отклоненим называют квадратный корень из выборочной дисперсии:
Замечание: если выборка представлена интервальным вариационным рядом, то за xi принимают середины частичных интервалов.
Выборочная ковариаци величин
и
определяется формулой
где , а
,
— выборочные средние величин
и
. При небольшом количестве экспериментальных данных
удобно находить как полный вес ковариационного графа:
Если — независимые случайные величины, то:
Но обратное утверждение, вообще говоря, неверно: из отсутствия ковариации не следует независимость.
Пример:
Пусть случайная величина принимает значения
, каждое с вероятностью
. Тогда
будет принимать значения −1, 0 и 1, каждое с вероятностью
, а
. Тогда
, но
Ковариация случайной величины с собой равна дисперсии: .
.
В силу линейности математического ожидания, ковариация может быть записана как
.
Пусть случайные величины, а
их две произвольные линейные комбинации. Тогда
.
В частности ковариация (в отличие от коэффициента корреляции) не инвариантна относительно смены масштаба, что не всегда удобно в приложениях.
Если и
— числа, то
.
Неравенство Коши-Буняковского: если принять в качестве скалярного произведения двух случайных величин ковариацию , то квадрат нормы случайной величины будет равен дисперсии
, и Неравенство Коши-Буняковского запишется в виде:
.
ковариация (Y;X) = коэффициент корреляции (Х;Y)* ско(X)*СКО(Y)
Если ковариация положительна, то с ростом значений одной случайной величины, значения второй имеют тенденцию возрастать, а если знак отрицательный — то убывать.
Однако только по абсолютному значению ковариации нельзя судить о том, насколько сильно величины взаимосвязаны, так как её масштаб зависит от их дисперсий. Масштаб можно отнормировать, поделив значение ковариации на произведение стандартных отклонений (квадратных корней из дисперсий). При этом получается так называемый коэффициент корреляции Пирсона, который всегда находится в интервале от −1 до 1.
Случайные величины, имеющие нулевую ковариацию, называются некоррелированными. Независимые случайные величины всегда некоррелированы, но не наоборот.
Выборочный коэффициент корреляции находится по формуле
где — выборочные средние квадратические отклонения величин
и
.
Выборочный коэффициент корреляции показывает тесноту линейной связи между
и
: чем ближе
к единице, тем сильнее линейная связь между
и
.
Корреляционной зависимостью от
называют функциональную зависимость условной средней
от
.
представляет уравнение регрессии
на
, а
— уравнение регрессии
на
.
Корреляционная зависимость может быть линейной и криволинейной. В случае линейной корреляционной зависимости выборочное уравнение прямой линии регрессии на
имеет вид:
Параметры и
уравнения прямой
линии регрессии
на
можно находить по методу наименьших квадратов из системы уравнений
Точечные оценки параметров распределения.
Пусть требуется изучить количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак. Возникает задача оценки параметров, которыми определяется это распределение.
Итак, статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин.
Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять определенным требованиям: оценка должна быть несмещенной, эффективной и состоятельной.
Поясним каждое из понятий.
Смещенной называют оценку, математическое ожидание которой не равно оцениваемому параметру.
Эффективной называют статистическую оценку, которая (при заданном объеме выборки п) имеет наименьшую возможную дисперсию.
При рассмотрении выборок большого объема (n велико!) к статистическим оценкам предъявляется требование состоятельности.
Состоятельной называют статистическую оценку, которая при п®¥ стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при п®¥ стремится к нулю, то такая оценка оказывается и состоятельной.
Интервальные оценки параметров распределения.
Пусть найденная по данным выборки статистическая характеристика Q* служит оценкой неизвестного параметра Q. Будем считать Q постоянным числом (Q может быть и случайной величиной). Ясно, что Q* тем точнее определяет параметр Q, чем меньше абсолютная величина разности |Q- Q*|. Другими словами, если d>0 и |Q- Q*|
Таким образом, положительное число d характеризует точность оценки.
Итак:
и доверительный интервал имеет вид
Требуется оценить неизвестную генеральную дисперсию и генеральное среднее квадратическое отклонение по исправленной дисперсии, т.е. найти доверительные интервалы, покрывающие параметры D и s с заданной надежностью g.
Потребуем выполнения соотношения
.
Раскроем модуль и получим двойное неравенство:
.
.
Обозначим d/s = q (величина q находится по «Таблице значений q»и зависит от надежности и объема выборки), доверительный интервал для оценки генерального среднего квадратического отклонения имеет вид:
.
Выборочная средняя и выборочная дисперсия
Пусть для изучения генеральной совокупности относительно количественного признака Х произведена выборка объёма n.
Выборочной средней называется среднее арифметическое значение выборки.
Если все значения х1, х2, …, хn выборки различны, то
| (7.1) |
| (7.2) |
Иногда бывает целесообразным выборочные значения случайной величины разбить на отдельные группы. Для каждой группы можно найти её среднюю.
Групповой средней называется среднее арифметическое значений выборки, принадлежащих группе.
По групповым средним можно найти среднее для всей выборки.
Общей средней называется среднее арифметическое значение групповых средних.
Пример 7.1.Найти общую среднюю на основе выборки.
Решение: Находим групповые средние:
Если варианты хi – большие числа, то для облегчения вычисления выборочной средней используют следующий приём. Пусть С – константа.
, то формула (7.1) преобразуется к виду:
| (7.3) |
Пример 7.2.Имеется выборка:
х1=71,88 | х2=71,93 | х3=72,05 | х4=72,07 | х5=71,90 |
х6=72,02 | х7=71,93 | х8=71,77 | х9=71,77 | х10=71,96 |
Найти выборочную среднюю.
Решение: Берем С=72 и вычисляем разности
α1=-0,12 | α2=-0,07 | α3=0,05 | α4=0,07 | α5=-0,10 |
α6=0,02 | α7=-0,07 | α8=-0,23 | α9=0,11 | α10=-0,04 |
Их сумма: α1+α2+…+α10=-0,38; их среднее арифметическое: ; выборочная средняя:
.
Для того, чтобы охарактеризовать рассеяние наблюдаемых значений количественного признака выборки относительно выборочного среднего вводят понятие выборочной дисперсии.
Выборочной дисперсией Dв называется среднее арифметическое квадратов отклонений наблюдаемых значений признака Х от выборочной средней .
Если все значения х1, х2, …, хn признака выборки объёма n различны, то
| (7.4) |
| (7.5) |
Пример 7.3.Выборочная совокупность задана таблицей распределения:
xi | 1 | 2 | 3 | 4 |
ni | 20 | 15 | 10 | 5 |
Найти выборочную дисперсию.
Решение: Согласно формулам (7.2) и (7.5) имеем:
.
Выборочным средним квадратическим отклонением называется квадратный корень из выборочной дисперсии:
Можно доказать, что
| (7.6) |
| (7.7) |
Исправленная дисперсия (7.7) является несмещенной оценкой генеральной дисперсии
|
Если варианты хi – большие числа, то для облегчения вычисления выборочной дисперсии Dв формулу (7.4) преобразуют к следующему виду:
| (7.8) |
где С – ложный нуль.
Пример 7.4.Через каждый час измерялось напряжение тока в электросети. Результаты измерений в вольтах представлены в таблице 7.1:
i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
xi | 222 | 219 | 224 | 220 | 218 | 217 | 221 | 220 | 215 | 218 | 223 | 225 |
i | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 |
xi | 220 | 226 | 221 | 216 | 211 | 219 | 220 | 221 | 222 | 218 | 221 | 219 |
Найти оценки для математического ожидания и дисперсии результатов измерений.
Решение: Оценки для математического ожидания и дисперсии найдем по формулам (7.3) и (7.8), положив С=220. Все необходимые вычисления приведены в таблице 7.2:
Выборочная несмещенная дисперсия
Приветствую посетителей блога statanaliz.info. В данной статье рассмотрим, что такое «выборочная несмещенная дисперсия».
Понятие о сплошном и выборочном наблюдении
С точки зрения охвата объекта исследования, статистический анализ можно разделить на два вида: сплошной и выборочный. Сплошной статанализ предполагает изучение генеральной совокупности данных, то есть всего явления во всем его многообразии без распространения выводов на другие элементы, не входящие в анализируемую совокупность. Из названия данного типа явствует, что наблюдению подвергаются тотально все элементы. Результат анализа распространяется на всю генеральную совокупность без каких-либо допущений и поправок на ошибку. Данный тип статистического исследования является наиболее полным и точным, так как дополнительные знания почерпнуть уже неоткуда – информация собрана со всех элементов объекта исследования. Это бесспорный плюс.
Отличным примером сплошного наблюдения является перепись населения. «Всесоюзная перепись населения» — красиво звучало! Кстати, советская статистика, как и наука в целом, была одной из самых лучших в мире. Денег на проведение сплошных обследований не жалели, так как при СССР статистика выполняла свою прямую функцию – исследовала реальность, без чего невозможно было строить «светлое будущее». При этом советские ученые-статистики справедливо критиковали буржуазную статистику за то, что те скрывают от народа реальное положение дел и используют статистику для промывки мозгов. Об этом, кстати, писали и сами буржуи. Более практичный пример сплошного наблюдения – опрос жителей многоэтажного дома на предмет заваривания мусоропровода. Опрашиваются все, результат дает вполне однозначный ответ об отношении жителей к мусоропроводу. Ошибки в выводах маловероятны.
Как бы там ни было, у сплошного наблюдения есть отрицательное качество: на организацию и проведение исследования могут потребоваться значительные ресурсы. Одно дело взять пробу из партии товаров, другое – проверять всю партию. Одно дело опросить тысячу прохожих на улице, совсем другое – организовать перепись населения.
В противовес сплошному придумали выборочное наблюдение. Название метода точно отражает его суть: из генеральной совокупности отбирается и анализируется только часть данных, а выводы распространяют на всю генеральную совокупность. Отбор данных происходит таким образом, чтобы выборка была репрезентативной, то есть, сохранила внутреннюю структуру и закономерности генеральной совокупности. Если это условие не соблюдено, то дальнейший анализ во многом теряет смысл.
Сам анализ выборочных данных происходит так же, как и при сплошном наблюдении (рассчитываются различные показатели, делаются прогнозы и т.д.), только с поправкой на ошибку. Это значит, что рассчитывая тот или иной показатель, мы понимаем, что при повторной выборке его значение будет другим. К примеру, провели опрос общественного мнения. Опрос показал, что за кандидата N желают проголосовать 60% опрошенных. Если провести еще один такой же опрос, даже в том же месте, то результат будет отличаться. То есть, взяв первое значение 60%, следует понимать, что с той или иной вероятностью оно могло быть, скажем, и 58%, и 62%. Точность и разброс выборочных показателей зависят от характера данных и их количества.
У выборочного наблюдения есть один существенный плюс и один минус, однако по сравнению со сплошным наблюдением крайности меняются местами. Плюс заключается в том, что для проведения выборочного обследования требуется гораздо меньше ресурсов. Минус – в том, что выборочное наблюдение всегда ошибочно. Поэтому основная задача проведения выборочного наблюдения – добиться максимальной точности при приемлемых затратах на его проведение.
Выборочная несмещенная дисперсия
И вот, стало быть, дисперсия. Дисперсия, как и доля или средняя арифметическая, также меняет свое значение от выборки к выборке, но здесь есть интересная особенность. Дисперсия ведь рассчитывается от средней величины, а она в свою очередь, тоже рассчитывается по выборке, то есть является ошибочной. Как же это обстоятельство влияет на саму дисперсию?
Если бы мы знали истинную среднюю величину (по генеральной совокупности), то ошибка дисперсии была бы связана только с нерепрезентативностью, то есть с тем, что данные в выборке оказались бы ближе или дальше от средней, чем в целом по генеральной совокупности. При этом при многократном повторении данные стремились бы к своему реальному расположению относительно средней.
Выборочный показатель, который при многократном повторении выборки стремится к своему теоретическому значению, называется несмещенной оценкой. Почему оценкой? Потому что мы не знаем реальное значение показателя (по генеральной совокупности), и с помощью выборочного наблюдения пытаемся его оценить. Оценка показателя – это есть его характеристика, рассчитанная по выборке.
Теперь смотрим внимательно на выборочную среднюю. Выборочная средняя – это несмещенная оценка математического ожидания, так как средняя из выборочных средних стремится к своему теоретическому значению по генеральной совокупности. Где она расположена? Правильно, в центре выборки! Средняя всегда находится в центре значений, по которым рассчитана – на то она и средняя. А раз выборочная средняя находится в центре выборки, то из этого следует, что сумма квадратов расстояний от каждого значения выборки до выборочной средней всегда меньше, чем до любой другой точки, в том числе и до генеральной средней. Это ключевой момент. А раз так, то дисперсия в каждой выборке будет занижена. Средняя из заниженных дисперсий также даст заниженное значение. То есть при многократном повторении эксперимента выборочная дисперсия не будет стремиться к своему истинному значению (как выборочная средняя), а будет смещена относительно истинного значения по генеральной совокупности.
Отклонение выборочной средней от генеральной показано на рисунке.
Несмещенность оценки – одна из важных характеристик статистического показателя. Смещенная оценка показателя заранее говорит о тенденции к ошибке. Поэтому показатели стараются оценивать таким образом, чтобы их оценки были несмещенными (как у средней арифметической). Чтобы решить проблему смещенности выборочной дисперсии, в ее расчет вносят корректировку – умножают на n/(n-1), либо сразу при расчете в знаменатель ставят не n, а n-1. Получается так.
Выборочная смещенная дисперсия:
Выборочная несмещенная дисперсия:
Под выборочной дисперсией понимают, как правило, именно несмещенный вариант.
Теперь посмотрим на практическую сторону отличия смещенной и несмещенной дисперсии. Соотношение между выборочной и генеральной дисперсией составляет n/n-1. Несложно догадаться, что с ростом n (объема выборки) данное выражение стремится к 1, то есть разница между значениями выборочной и генеральной дисперсиями уменьшается.
Так, в выборке из 11 наблюдений относительная разница составляет 11/10 = 10%. При 21 наблюдениях, отличие сокращается до 5%, при 31 наблюдении – до 3,3%, при 51 – до 2%, при 101 – до 1%. Короче, при достаточно большой выборке данных (50 и выше наблюдений) относительная разница между смещенной и несмещенной дисперсией практически исчезает. Оценка параметра, когда с ростом выборки его отклонение от теоретического значения уменьшается, называется асимптотически несмещенной оценкой.
При переходе к среднеквадратичном отклонению по выборке (корень из выборочной дисперсии) разница становится еще меньше.
Таким образом, эффект смещенной дисперсии проявляется в небольших выборках. В больших выборках можно использовать генеральную дисперсию, что как бы не усложняет и не упрощает жизнь. Вручную сейчас никто не считает. Все легко посчитать в Excel. Но понимать различие в терминологии и в сути показателей все же следует.
Из данной статьи неплохо бы усвоить следующее.
1. Формула генеральной дисперсии в выборке дает смещенную оценку.
2. В знаменателе несмещенной оценки n-1 вместо n.
3. При большом объеме выборки (от 100 наблюдений) разница между смещенной и несмещенной дисперсиями практически исчезает.
4. Стандартное отклонение по выборке – это корень из выборочной дисперсии.