Интегрированный урок (теория вероятностей и статистика + информатика) по теме «Отклонения. Дисперсия». 7-й класс
Класс: 7
Цель: познакомить учащихся с понятиями “отклонение” и “дисперсия” и их применением в реальных статистических исследованиях с использованием средств табличного процессора Excel.
На предыдущих уроках мы рассмотрели так называемые средние характеристики числового ряда, позволяющие оценить его поведение “в среднем”. Повторим их определения и способы нахождения.
Слайд 2 – задание на повторение (комментарии учителя, проверка ответов учеников с помощью слайда).
2. Объяснение нового материала, практикум.
Средние характеристики числового ряда (среднее арифметическое, медиана), позволяют оценить поведение ряда “в среднем”. Но это не всегда наиболее полно характеризуют выборку. Чтобы получить полное представление о поведении числового ряда, помимо средних характеристик надо знать характеристики разброса, показывающие, насколько сильно значения ряда отличаются друг от друга, как сильно они разбросаны вокруг средних.
Рассмотрим следующий пример.
Слайд 4 – задание 1 (комментарий учителя).
(Ученикам открыть файл с заданиями (приложение 2) и выбрать лист “Задание 1”).
День недели
Дневная выработка
1-й рабочий (Х)
2-й рабочий (Y)
(кол-во деталей)
(кол-во деталей)
Понедельник
Рассчитаем, сколько деталей изготовил каждый из рабочих за 5 дней.
(Ученики выполняют задание, руководствуясь п. 1 “Подсчёт итога”).
(кол-во деталей)
Понедельник
Вывод: количество деталей одинаково.
Рассчитаем, сколько деталей в день производил в среднем каждый рабочий (среднюю производительность труда). Для этого найдём среднее арифметическое числовых наборов Х и Y.
(Ученики выполняют задание, руководствуясь п. 2 “Расчёт среднего арифметического”).
День недели
Дневная выработка
1-й рабочий (Х)
2-й рабочий (Y)
(кол-во деталей)
(кол-во деталей)
Понедельник
250
Среднее арифметическое
Производительность труда за день у обоих рабочих тоже одинаковая.
Найдём медианы числовых наборов X и Y.
(Ученики выполняют задание, руководствуясь п. 3 “Расчёт медианы”).
(кол-во деталей)
Понедельник
250
Среднее арифметическое
Медианы тоже получились одинаковые.
На данном примере мы увидели, что с помощью средних характеристик сравнение выполнить не всегда возможно.
В данном случае критерием сравнения может выступать стабильность работы токарей – у какого токаря количество произведённых им деталей в день менее отличается друг от друга, тот работает стабильнее.
Если количество производимых в день деталей сильно разнится, то в какие-то дни токарь работает не в полную силу, производит меньше деталей, а в какие-то дни навёрстывает упущенное, а это всегда сказывается на качестве продукции.
Стабильность можно оценивать с помощью отклонений элементов числового набора от среднего значения (отклонение – это разность между числом из данного набора и средним арифметическим этого набора)
Слайд 5 – пример вычисления отклонений (комментарии учителя).
Логично предположить, что чем меньше будет разброс (отклонения от среднего значения) – тем стабильнее работает токарь.
Но когда набор чисел велик, рассматривать отклонения практически неудобно, нужно описать разнообразие чисел в наборе одним числом.
Попробуем найти сумму отклонений.
Слайд 5 – пример вычисления суммы отклонений (комментарии учителя, вывод).
В сумме получилось 0 (т.к. при вычислении “среднего разброса” часть отклонений входит в сумму со знаком “+”, часть со знаком “-” и в сумме всегда получается 0). Следовательно сумма отклонений не может нести информацию о разбросе.
Можно суммировать квадраты отклонений (они всегда неотрицательны).
Слайд 6 – пример вычисления квадратов отклонений (комментарии учителя)
Чем меньше сумма квадратов отклонений, тем меньше разброс чисел относительно среднего значения, тем более стабилен набор.
Итак, рассчитаем сумму квадратов отклонений для нашего примера.
(Ученики выполняют задание, руководствуясь п. 4 “Расчёт суммы квадратов отклонений”).
День недели
Дневная выработка
1-й рабочий (Х)
2-й рабочий (Y)
(кол-во деталей)
(кол-во деталей)
Понедельник
250
Среднее арифметическое
50
Сумма квадратов отклонений
Вывод: первый токарь работает более стабильно, у него меньше сумма квадратов отклонений. Вероятно, работодатель предпочтёт взять на работу его.
В данном примере рабочие работали одинаковое количество дней. А если они количество дней неодинаково?
Тогда стабильность работы каждого можно было бы оценить по величине среднего арифметического квадратов отклонений от среднего значения – дисперсии.
Слайд 7 – пример вычисления дисперсии (комментарии учителя).
Рассмотрим следующий пример.
Слайд 8 – задание 2 (комментарии учителя).
(Ученикам открыть лист “Задание 2” файла с заданиями).
День недели
Дневная выработка
1-й рабочий (Х)
2-й рабочий (Y)
(кол-во деталей)
(кол-во деталей)
Понедельник
Аналогично заданию 1 рассчитаем, сколько деталей произвёл каждый рабочий и сумму квадратов отклонений.
(Ученики выполняют задание, руководствуясь п. 1-2).
День недели
Дневная выработка
1-й рабочий (Х)
2-й рабочий (Y)
(кол-во деталей)
(кол-во деталей)
Понедельник
200
Сумма квадратов отклонений
Т.к. токари работали разное количество дней, рассчитаем и сравним дисперсии числовых наборов X и Y.
(Ученики выполняют задание, руководствуясь п. 3).
День недели
Дневная выработка
1-й рабочий (Х)
2-й рабочий (Y)
(кол-во деталей)
(кол-во деталей)
Понедельник
200
Сумма квадратов отклонений
Вывод: второй токарь работает стабильнее первого.
3. Самостоятельная практическая работа (при наличии времени).
Статистика, в частности, оперирует рядами данных, характеризующих какой-либо признак, явление. Интересует их изменение.
Вариация представляет собой отличие величин одинакового показателя у разных предметов. Ее изучение позволит понять причины отклонений от нормы, анализировать их и в какой-то мере прогнозировать. Также станет возможным выявить факторы, влияющие на значения, отсеяв случайные.
Характеристики равномерного распределения представлены на картинке:
При значительном объеме статистики, средняя величина очевидно близка к нормальной. Об этом говорят и законы распределения. Отклонения от нее будут являться объективной характеристикой.
Только вот отрицательные значения этих разбросов будут сбивать с толку при расчетах, погашая положительные. А оставлять лишь модули – для математика не корректно. Напрашивается возвести в четную степень, а именно – во вторую.
Решение оказалось не только удобным. Оно открыло бо́льшие возможности в изучении отклонений. А важны именно они, поскольку сама по себе средняя мало что дает.
В качестве одного из важных показателей вариации, вводится понятие «дисперсия» – усредненный квадрат отклонений численных значений каких-либо событий от средней величины.
Никакого наглядного смысла величина не несет. Другое дело, среднее квадратическое отклонение – корень квадратный из дисперсии.
Виды дисперсии дискретной случайной величины
Для анализа данных цифр в таком виде недостаточно. Гораздо больше можно выжать из последовательности, если разбить ее на группы по определенному признаку.
Общая дисперсия
Как можно заметить, вычисленная по приведенному выше определению величина характеризует отклонения в целом. Без учета определяющих вариацию факторов. Вернее, с учетом всех, включая совершенно случайные. Поэтому и называется «общей» и рассчитывается по формулам, указанным ниже.
Простая дисперсия, без разделения на группы:
Или в несколько преобразованном виде:
Взвешенная дисперсия, для вариационного ряда:
где xi – значение из ряда;
fi – частота, количество повторений;
n – число вариантов.
Черта сверху указывает на среднюю величину.
Межгрупповая дисперсия
Характеризует систематическое отклонение, возникающее из-за фактора, по которому производилось выделение признаков в группы. Поэтому также называется «факторной».
Как найти данную дисперсию? По формуле:
где k – количество групп;
nj – элементов в группе с индексом j.
Внутригрупповая дисперсия
Возникает по хаотичной причине, не связанной с причиной сделанной выборки. Неучтенный фактор. Еще обозначается как «остаточная».
Например, рассматривается количество выпущенных деталей за месяц каждым фрезеровщиком цеха.
В качестве критерия отбора в группу выбираем возраст оборудования. Он-то и не будет влиять на производительность внутри подборки: там станки у всех практически одинаковые.
Если вычислить среднюю величину от всех групповых,
то получим характеристику случайного разброса. Иными словами, составляющую вариации, зависящую от чего угодно, кроме фактора отбора.
Взаимосвязь
В соответствии с правилом сложения, общая D[X] включает средние выражения остаточной и факторной. И это логично, поскольку учитывает и случайное изменение в группе, и систематическое в факторной.
Свойства дисперсии
Если последовательность состоит из одинаковых чисел, то D[X] будет нулевой.
Уменьшение всех значений на постоянную величину на дисперсию не влияет. Иначе говоря, рассчитать σ 2 можно по отклонениям от фиксированного числа.
Уменьшение всех цифр в k раз приведет к падению D[X] в k 2 раз. Можно, например, иметь в виду значения в метрах, а результат вычислить в футах. Достаточно учесть один раз то, на что следует умножить.
Показатели вариаций
Кроме размаха (разницы максимального и минимального значений), среднего линейного и дисперсии, изменения описываются коэффициентом вариации:
Оценить масштаб разброса проще по относительной величине. Тем более, что измеряются в одних единицах.
Пример расчета дисперсии
Компания объявила конкурсный отбор для приема сотрудников. В качестве критерия принят стаж работы по специальности. Приведем исходные данные и расчеты.
По альтернативной формуле:
Заключение
Статистика оперирует значительными объемами данных. Вариация, как одно из основных понятий – не исключение. И дисперсия в качестве основной характеристики.
Для упрощения расчетов существует масса онлайн калькуляторов. Имеется упомянутый инструмент в MS Excel.
Дисперсия свойства, формула вычисления дисперсии дискретной случайной величины, виды, правило и примеры расчетов, онлайн-калькулятор
В различных научных дисциплинах словосочетание «дисперсия это» характеризует мало схожие понятия. С латыни «dispersio» переводится как «рассеяние».
В физике, например, означает связь фазовой скорости волны с частотой. В химии описывает несмешиваемые субстанции. В биологии – многообразие признаков популяции.
В данной статье речь пойдет о математической трактовке. Рассматривается как одно из свойств случайных величин.
Что такое дисперсия в статистике
Статистика, в частности, оперирует рядами данных, характеризующих какой-либо признак, явление. Интересует их изменение.
Вариация представляет собой отличие величин одинакового показателя у разных предметов. Ее изучение позволит понять причины отклонений от нормы, анализировать их и в какой-то мере прогнозировать. Также станет возможным выявить факторы, влияющие на значения, отсеяв случайные.
Характеристики равномерного распределения представлены на картинке:
При значительном объеме статистики, средняя величина очевидно близка к нормальной. Об этом говорят и законы распределения. Отклонения от нее будут являться объективной характеристикой.
Только вот отрицательные значения этих разбросов будут сбивать с толку при расчетах, погашая положительные. А оставлять лишь модули – для математика не корректно. Напрашивается возвести в четную степень, а именно – во вторую.
Решение оказалось не только удобным. Оно открыло бо́льшие возможности в изучении отклонений. А важны именно они, поскольку сама по себе средняя мало что дает.
В качестве одного из важных показателей вариации, вводится понятие «дисперсия» – усредненный квадрат отклонений численных значений каких-либо событий от средней величины.
Никакого наглядного смысла величина не несет. Другое дело, среднее квадратическое отклонение – корень квадратный из дисперсии.
Виды дисперсии дискретной случайной величины
Для анализа данных цифр в таком виде недостаточно. Гораздо больше можно выжать из последовательности, если разбить ее на группы по определенному признаку.
Общая дисперсия
Как можно заметить, вычисленная по приведенному выше определению величина характеризует отклонения в целом. Без учета определяющих вариацию факторов. Вернее, с учетом всех, включая совершенно случайные. Поэтому и называется «общей» и рассчитывается по формулам, указанным ниже.
Простая дисперсия, без разделения на группы:
Или в несколько преобразованном виде:
Взвешенная дисперсия, для вариационного ряда:
где xi – значение из ряда;
fi – частота, количество повторений;
n – число вариантов.
Черта сверху указывает на среднюю величину.
Межгрупповая дисперсия
Характеризует систематическое отклонение, возникающее из-за фактора, по которому производилось выделение признаков в группы. Поэтому также называется «факторной».
Как найти данную дисперсию? По формуле:
где k – количество групп;
nj – элементов в группе с индексом j.
Внутригрупповая дисперсия
Возникает по хаотичной причине, не связанной с причиной сделанной выборки. Неучтенный фактор. Еще обозначается как «остаточная».
Например, рассматривается количество выпущенных деталей за месяц каждым фрезеровщиком цеха.
В качестве критерия отбора в группу выбираем возраст оборудования. Он-то и не будет влиять на производительность внутри подборки: там станки у всех практически одинаковые.
Если вычислить среднюю величину от всех групповых,
то получим характеристику случайного разброса. Иными словами, составляющую вариации, зависящую от чего угодно, кроме фактора отбора.
Взаимосвязь
В соответствии с правилом сложения, общая D[X] включает средние выражения остаточной и факторной. И это логично, поскольку учитывает и случайное изменение в группе, и систематическое в факторной.
Свойства дисперсии
Если последовательность состоит из одинаковых чисел, то D[X] будет нулевой.
Уменьшение всех значений на постоянную величину на дисперсию не влияет. Иначе говоря, рассчитать σ 2 можно по отклонениям от фиксированного числа.
Уменьшение всех цифр в k раз приведет к падению D[X] в k 2 раз. Можно, например, иметь в виду значения в метрах, а результат вычислить в футах. Достаточно учесть один раз то, на что следует умножить.
Показатели вариаций
Кроме размаха (разницы максимального и минимального значений), среднего линейного и дисперсии, изменения описываются коэффициентом вариации:
Оценить масштаб разброса проще по относительной величине. Тем более, что измеряются в одних единицах.
Пример расчета дисперсии
Компания объявила конкурсный отбор для приема сотрудников. В качестве критерия принят стаж работы по специальности. Приведем исходные данные и расчеты.
По альтернативной формуле:
Заключение
Статистика оперирует значительными объемами данных. Вариация, как одно из основных понятий – не исключение. И дисперсия в качестве основной характеристики.
Для упрощения расчетов существует масса онлайн калькуляторов. Имеется упомянутый инструмент в MS Excel.
Числовые характеристики распределения вероятностей. Математическое ожидание, дисперсия и стандартное отклонение
п.1. Закон распределения дискретной случайной величины
п.2. Математическое ожидание
Свойства математического ожидания 1) Размерность математического ожидания равна размерности случайной величины. 2) Математическое ожидание может быть любым действительным числом: положительным, равным 0, отрицательным. 3) Математическое ожидание постоянной величины равно этой постоянной:
5) Математическое ожидание произведения двух независимых случайных величин равно произведению математических ожиданий:
6) Постоянный множитель можно вынести за знак математического ожидания:
Например: Пусть в результате экспериментов получено следующее распределение случайной величины X – числа появления белых шаров (см. пример 1, §40 данного справочника):
Число белых шаров, xi
0
1
2
3
4
5
pi
\(\mathrm\)
\(\mathrm\)
\(\mathrm\)
\(\mathrm\)
\(\mathrm\)
\(\mathrm\)
0,0074
0,0618
0,2060
0,3433
0,2861
0,0954
Найдём математическое ожидание для данного распределения:
п.3. Дисперсия
Свойства дисперсии 1) Размерность дисперсии равна квадрату размерности случайной величины. 2) Дисперсия может быть любым неотрицательным действительным числом. 3) Дисперсия постоянной величины равна нулю:
4) Дисперсия суммы независимых случайных величин равна сумме дисперсий:
5) Постоянный множитель можно вынести за знак дисперсии:
Например: Продолжим исследование и найдём дисперсию для распределения случайной величины X – числа появления белых шаров. Составим расчётную таблицу:
Получаем: D(X) = 10,9375 – 3,125 2 ≈ 1,1719.
п.4. Среднее квадратичное отклонение
Свойства СКО 1) Размерность СКО равна размерности случайной величины. 2) СКО может быть любым неотрицательным действительным числом. 3) СКО постоянной величины равно нулю:
4) Постоянный множитель можно вынести за знак СКО:
п.5. Правило трёх сигм
Большое количество случайных величин, измеряемых в экспериментах (например, в школьных лабораторных работах), имеет так называемое нормальное распределение. В частности, при больших n, биномиальное распределение можно с хорошей точностью описывать как нормальное с M(X) = np и \(\mathrm<\sigma(X)=\sqrt>\). График плотности нормального распределения p(x) похож на колокол, с максимумом, соответствующим M(X) = Xcp – среднему значению измеряемой величины. Величина СКО σ(X) характеризует степень отклонения X от среднего значения M(X).
п.6. Примеры
Пример 1. Найдите математическое ожидание, дисперсию и СКО при бросании кубика.
Закон распределения величины X – очки на верхней грани при бросании кубика и расчётная таблица:
Пример 2*. Найти математическое ожидание, дисперсию и СКО суммы очков при бросании двух кубиков.
Пример 3*. Докажите, что в опытах по схеме Бернулли математическое ожидание M(X)=np, а дисперсия D(X)=npq.
Проведем один опыт. В нём может быть только два исхода: «успех» и «неудача». Составим расчётную таблицу:
Мат.ожидание первого опыта \(\mathrm\). Общее число успехов при n опытах складывается из числа успехов при каждом опыте, т.е. \(\mathrm\). Все опыты между собой независимы. По свойству мат.ожидания суммы независимых событий: \begin \mathrm< M(X)=M(X_1+X_2+. +X_n)=M(X_1)+M(X_2)+. +M(X_n)= >\\ \mathrm<=\underbrace
_>=np > \end Дисперсия первого опыта \(\mathrm\) По свойству дисперсии суммы независимых событий: \begin \mathrm< D(X)=D(X_1+X_2+. +X_n)=D(X_1)+D(X_2)+. +D(X_n)= >\\ \mathrm<=\underbrace_>=npq > \end Что и требовалось доказать.
Пример 4. 100 канцелярских кнопок высыпали на стул. Вероятность, что кнопка упала острием вверх, равна 0,4. Найдите среднее количество, дисперсию и СКО для числа кнопок, упавших острием вверх. Найдите интервал оценки для количества этих кнопок по правилу «трёх сигм».
По условию n = 100, p = 0,4. Для каждой кнопки может быть два исхода: упасть острием вверх или вниз. Таким образом, это испытание Бернулли с биномиальным распределением случайной величины. \begin \mathrm< M(X)=np=100\cdot 0,4=40 >\\ \mathrm\\ \mathrm<\sigma(X)=\sqrt=\sqrt<24>\approx 4,9> \end Интервал оценки «три сигмы»: \begin \mathrm< M(X)-3\sigma(X)\lt X\lt M(X)+3\sigma(X) >\\ \mathrm<40-3\cdot 4,9\lt X\lt 40+3\cdot 4,9 >\\ \mathrm<25,3\lt X\lt 54,7>\\ \mathrm <26\leq X\leq 54>\end Скорее всего (99,7%), от 26 до 54 кнопок будут острием вверх. Ответ: \(\mathrm\)
Пример 5*. В тесте 10 задач с 4 вариантами ответов. Ответы выбираются наугад. Постройте распределение величины X = «количество угаданных ответов», найдите числовые характеристики этого распределения. Найдите интервал оценки для количества угаданных ответов по правилу «трёх сигм». Какова вероятность угадать хотя бы 1 ответ? Хотя бы 5 ответов? Угадать все 10 ответов?
\(\mathrm\)
\(\mathrm\)
\(\mathrm<3^k>\)
\(\mathrm\)
\(\mathrm\)
\(\mathrm\)
\(\mathrm\)
0
1
1
0,0563135
0,0000000
0
0,0000000
1
10
3
0,1877117
0,1877117
1
0,1877117
2
45
9
0,2815676
0,5631351
4
1,1262703
3
120
27
0,2502823
0,7508469
9
2,2525406
4
210
81
0,1459980
0,5839920
16
2,3359680
5
252
243
0,0583992
0,2919960
25
1,4599800
6
210
729
0,0162220
0,0973320
36
0,5839920
7
120
2187
0,0030899
0,0216293
49
0,1514053
8
45
6561
0,0003862
0,0030899
64
0,0247192
9
10
19683
0,0000286
0,0002575
81
0,0023174
10
1
59049
0,0000010
0,0000095
100
0,0000954
Σ
1
2,5
8,125
Вероятность угадать хотя бы один ответ: \begin \mathrm< P(X\geq 1)=1-p_0\approx 1-0,0563=0,9437 >\end Очень хорошие шансы – 94,37%. Вероятность угадать хотя бы 5 ответов: \begin \mathrm< P(X\geq 5)=1-\left(\sum_^<4> \right)\approx 1-(0,0563+0,1877+. +0,1460)=0,0781 >\end Шансов мало – 7,81%. Т.е. «средний балл» при сдаче тестов мало достижим методом научного тыка. Вероятность угадать все 10 ответов: p10≈ 0,000001. Шанс – один из миллиона.