Что такое выброс в статистике

Блог об аналитике, визуализации данных, data science и BI

Дашборд первых 8 месяцев жизни малыша

Анализ рынка вакансий аналитики и BI: дашборд в Tableau

Анализ альбомов Земфиры: дашборд в Tableau

Гайд по современным BI-системам

Обнаружение статистических выбросов в R

Этот материал — перевод статьи «Outliers detection in R». А ещё у нас есть материал про обнаружение выбросов в Python.

Что такое выброс в статистике. Смотреть фото Что такое выброс в статистике. Смотреть картинку Что такое выброс в статистике. Картинка про Что такое выброс в статистике. Фото Что такое выброс в статистике

Выбросы — значения или наблюдения, отклоняющиеся от других данных. Всегда нужно сравнивать наблюдение с другими значениями, полученными тем же способом, прежде чем называть их выбросами. Действительно, человек с ростом 200 см, скорее всего, будет считаться отклонением по сравнению с остальным населением, но этот же человек не будет считаться статистическим выбросом, если мы измерим рост баскетболистов.

Выбросы могут быть вызваны изменчивостью, присущей наблюдаемому явлению. Например, при сборе данных о заработной плате часто возникают выбросы, поскольку некоторые люди зарабатывают гораздо больше остальных. Выбросы также могут возникать из-за экспериментальной ошибки, ошибки измерения или кодирования. Например, вес человека 786 кг явно является ошибкой при кодировании веса объекта. Её или его вес, скорее всего, составляет 78,6 кг или 7,86 кг в зависимости от того, был измерен вес взрослого человека или ребёнка.

По этой причине иногда имеет смысл формально выделять два класса выбросов: экстремальные значения и ошибки. Экстремальные значения интереснее, потому что они возможны, но маловероятны.

В этой статье я представлю несколько подходов к обнаружению выбросов в R от простых методов, таких как описательная статистика (включая минимальные, максимальные значения, гистограмму, прямоугольную диаграмму и процентили), до более формальных методов, таких как фильтр Хэмпеля, тесты Граббса, Диксона и Рознера.

Не существует строгого и однозначного правила насчет того, следует ли удалять выбросы из набора данных перед проведением статистического анализа. Довольно часто переменные значения, вызванные экспериментальной ошибкой или ошибкой измерения удаляются или заменяются на новые значения. Некоторые статистические тесты требуют их отсутствия, чтобы сделать обоснованные выводы, но удаление выбросов рекомендуется не во всех случаях и должно выполняться с осторожностью.

Эта статья поможет обнаружить и проверить выбросы, но вы не узнаете, следует ли удалять, изменять или оставлять такие значения. После проверки вы можете исключить их или включить в свой анализ (а это обычно требует вдумчивого размышления со стороны исследователя). Удаление или сохранение выбросов, в основном, зависит от трех факторов:

Мы будем использовать набор данных mpg из библиотеки ggplot2, чтобы проиллюстрировать различные подходы к обнаружению выбросов в R, и в частности, мы сосредоточимся на работе с переменной hwy (пробег в милях на галлон израсходованного топлива).

Минимальные и максимальные значения

Первое, что необходимо для обнаружения выбросов в R — начать с описательной статистики, и, в частности, с минимальных и максимальных значений.

В R это легко сделать с помощью функции summary():

Минимум и максимум — первое и последнее значения в выходных данных выше. В качестве альтернативы, их также можно вычислить с помощью функций min() и max():

Явная ошибка кодирования, такая как, например, человеческий вес в 786 кг уже будет легко обнаружена с помощью этой простой техники.

Другой базовый способ обнаружения выбросов — построение гистограммы данных.

Источник

Как использовать статистику для выявления выбросов в данных

Дата публикации 2018-04-25

При моделировании важно очистить выборку данных, чтобы убедиться, что наблюдения наилучшим образом представляют проблему.

Иногда набор данных может содержать экстремальные значения, которые выходят за пределы ожидаемого и отличаются от других данных. Они называются выбросами, и часто модели машинного обучения и навыки моделирования в целом могут быть улучшены путем понимания и даже устранения этих значений выбросов.

В этом руководстве вы узнаете больше о выбросах и двух статистических методах, которые можно использовать для идентификации и фильтрации выбросов из набора данных.

После завершения этого урока вы узнаете:

Что такое выброс в статистике. Смотреть фото Что такое выброс в статистике. Смотреть картинку Что такое выброс в статистике. Картинка про Что такое выброс в статистике. Фото Что такое выброс в статистике

Обзор учебника

Этот урок разделен на 4 части; они есть:

Что такое выбросы?

Это редко, или отчетливо, или не подходит в некотором роде.

Выбросы могут иметь много причин, таких как:

Не существует точного способа определения и идентификации выбросов в целом из-за специфики каждого набора данных. Вместо этого вы или эксперт в области должны интерпретировать необработанные наблюдения и решить, является ли значение выбросом или нет.

Тем не менее, мы можем использовать статистические методы для выявления наблюдений, которые кажутся редкими или маловероятными с учетом имеющихся данных.

Это не означает, что указанные значения являются выбросами и должны быть удалены. Но инструменты, описанные в этом руководстве, могут помочь пролить свет на редкие события, которые могут потребовать второго взгляда.

Тестовый набор данных

Прежде чем мы рассмотрим методы идентификации выбросов, давайте определим набор данных, который мы можем использовать для тестирования методов.

Мы сгенерируем 10 000 случайных чисел из гауссовского распределения со средним значением 50 и стандартным отклонением 5.

Числа, взятые из гауссовского распределения, будут иметь выбросы. То есть в силу самого распределения будет несколько значений, которые будут далеки от средних, редких значений, которые мы можем определить как выбросы.

Мы будем использоватьrandn ()функция для генерации случайных гауссовских значений со средним значением 0 и стандартным отклонением 1, затем умножьте результаты на наше собственное стандартное отклонение и добавьте среднее значение для смещения значений в предпочтительный диапазон.

Генератор псевдослучайных чисел засеян, чтобы гарантировать, что мы получаем одну и ту же выборку чисел при каждом запуске кода.

При выполнении примера генерируется образец, а затем выводится среднее значение и стандартное отклонение. Как и ожидалось, значения очень близки к ожидаемым.

Метод стандартных отклонений

Если мы знаем, что распределение значений в выборке является гауссовским или гауссовидным, мы можем использовать стандартное отклонение выборки в качестве предела для выявления выбросов.

Гауссово распределение обладает свойством того, что стандартное отклонение от среднего может использоваться для надежного суммирования процентного значения в выборке.

Например, в пределах одного стандартного отклонения среднее будет охватывать 68% данных.

Таким образом, если среднее значение равно 50, а стандартное отклонение равно 5, как в тестовом наборе данных выше, то все данные в выборке между 45 и 55 будут составлять около 68% выборки данных. Мы можем охватить большую часть выборки данных, если расширим диапазон следующим образом:

Значение, которое выходит за пределы 3 стандартных отклонений, является частью распределения, но это маловероятное или редкое событие приблизительно в 1 из 370 выборок.

Давайте сделаем это на конкретном примере.

Иногда данные сначала стандартизируются (например, до Z-показателя с нулевым средним и единичной дисперсией), чтобы обнаружение выброса можно было выполнить с использованием стандартных значений отсечения Z-показателя. Это удобно и не требуется вообще, и мы сделаем вычисления в исходном масштабе данных здесь, чтобы прояснить ситуацию.

Мы можем рассчитать среднее и стандартное отклонение для данной выборки, а затем рассчитать порог для определения выбросов как более 3 стандартных отклонений от среднего.

Затем мы можем определить выбросы как те примеры, которые выходят за пределы определенных нижних и верхних пределов.

Кроме того, мы можем отфильтровать те значения из выборки, которые не находятся в определенных пределах.

Мы можем собрать все это вместе с нашим образцом набора данных, подготовленным в предыдущем разделе.

Полный пример приведен ниже.

Выполнение примера сначала выведет количество идентифицированных выбросов, а затем число наблюдений, которые не являются выбросами, демонстрируя, как идентифицировать и отфильтровать выбросы соответственно.

До сих пор мы говорили только об одномерных данных с гауссовым распределением, например одна переменная. Вы можете использовать тот же подход, если у вас есть многомерные данные, например, данные с несколькими переменными, каждая с разным распределением Гаусса.

Вы можете представить границы в двух измерениях, которые бы определяли эллипс, если у вас есть две переменные. Наблюдения, которые выходят за пределы эллипса, будут считаться выбросами. В трех измерениях это будет эллипсоид и т. Д. В более высокие измерения.

С другой стороны, если вы знали больше о домене, возможно, можно определить выброс, превышая пределы одного или подмножества измерений данных.

Межквартильный метод

Не все данные являются нормальными или достаточно нормальными, чтобы рассматривать их как взятые из гауссовского распределения.

Хорошей статистикой для суммирования выборки негауссовых распределений данных является Interquartile Range, или IQR для краткости.

IQR рассчитывается как разница между 75-м и 25-м процентилями данных и определяет прямоугольник на графике прямоугольника и вискера.

Мы называем процентили квартилями («кварта4) потому что данные делятся на четыре группы через 25-е, 50-е и 75-е значения.

IQR определяет средние 50% данных, или тело данных.

IQR может использоваться для определения выбросов путем определения пределов значений выборки, которые являются факторомКIQR ниже 25-го процентиля или выше 75-го процентиля. Общее значение для фактораКэто значение 1,5. Коэффициент k, равный 3 или более, можно использовать для определения значений, которые являются экстремальными выбросами или «дальние выходы”, Когда описано в контексте рамок и усов.

На графике бокса и усов эти пределы изображены в виде заборов на усиках (или линиях), которые нарисованы из бокса. Значения, которые выходят за пределы этих значений, отображаются в виде точек.

Мы можем рассчитать процентили набора данных, используяпроцентиля ()Функция NumPy, которая принимает набор данных и спецификацию желаемого процентиля. Затем IQR можно рассчитать как разницу между 75-м и 25-м процентилями.

Затем мы можем рассчитать пороговое значение для выбросов как 1,5-кратное IQR и вычесть это пороговое значение из 25-го процентиля и добавить его к 75-му процентилю, чтобы получить фактические пределы данных.

Затем мы можем использовать эти пределы для определения значений выбросов.

Мы также можем использовать пределы, чтобы отфильтровать выбросы из набора данных.

Мы можем связать все это вместе и продемонстрировать процедуру на тестовом наборе данных.

Полный пример приведен ниже.

При выполнении примера сначала выводятся идентифицированные 25-й и 75-й процентили и вычисленный IQR. Печатается число выявленных выбросов, а затем число наблюдений, не связанных с выбросами.

Подход может быть использован для многомерных данных путем расчета пределов для каждой переменной в наборе данных по очереди и с учетом выбросов в качестве наблюдений, которые выходят за пределы прямоугольника или гипер-прямоугольника.

расширения

В этом разделе перечислены некоторые идеи по расширению учебника, которые вы, возможно, захотите изучить.

Если вы исследуете какое-либо из этих расширений, я хотел бы знать.

Дальнейшее чтение

Этот раздел предоставляет больше ресурсов по теме, если вы хотите углубиться

Сообщений

статьи

Резюме

В этом руководстве вы обнаружили выбросы и два статистических метода, которые можно использовать для идентификации и фильтрации выбросов из набора данных.

В частности, вы узнали:

У вас есть вопросы?
Задайте свои вопросы в комментариях ниже, и я сделаю все возможное, чтобы ответить.

Источник

5 способов обнаружить выбросы / аномалии, которые должен знать каждый специалист по данным (код Python)

Дата публикации Mar 5, 2019

Что такое выброс в статистике. Смотреть фото Что такое выброс в статистике. Смотреть картинку Что такое выброс в статистике. Картинка про Что такое выброс в статистике. Фото Что такое выброс в статистике

Что такое аномалия / выброс?

Что такое выброс в статистике. Смотреть фото Что такое выброс в статистике. Смотреть картинку Что такое выброс в статистике. Картинка про Что такое выброс в статистике. Фото Что такое выброс в статистике

Например, вы можете ясно увидеть выбросы в этом списке: [20,24,22,19,29,18,4300, 30,18]

Это легко идентифицировать, когда наблюдения представляют собой просто набор чисел, и он одномерный, но когда у вас есть тысячи наблюдений или многомерных измерений, вам понадобятся более умные способы обнаружения этих значений. Это то, что эта статья будет освещать.

Почему мы заботимся об аномалиях?

Обнаружение выбросов или аномалий является одной из основных проблем интеллектуального анализа данных. Появляющееся расширение и продолжающийся рост данных и распространение устройств IoT заставляют нас переосмыслить подход к аномалиям и варианты использования, которые могут быть построены с учетом этих аномалий.

Теперь у нас есть умные часы и браслеты, которые могут определять сердцебиение каждые несколько минут. Обнаружение аномалий в данных сердцебиения может помочь в прогнозировании сердечных заболеваний. Аномалии в схемах движения могут помочь в прогнозировании аварий. Его также можно использовать для выявления узких мест в сетевой инфраструктуре и трафика между серверами. Следовательно, варианты использования и решения, основанные на обнаружении аномалий, безграничны.

Еще одна причина, по которой нам необходимо обнаруживать аномалии, заключается в том, что при подготовке наборов данных для моделей машинного обучения действительно важно обнаружить все выбросы и либо избавиться от них, либо проанализировать их, чтобы понять, почему они были у вас в первую очередь.

Теперь давайте рассмотрим 5 распространенных способов обнаружения аномалий, начиная с самого простого.

В статистике, если распределение данных приблизительно нормальное, то около 68% значений данных находятся в пределах одного стандартного отклонения от среднего, а около 95% находятся в пределах двух стандартных отклонений, иоколо 99,7%лежат в пределах трех стандартных отклонений

Что такое выброс в статистике. Смотреть фото Что такое выброс в статистике. Смотреть картинку Что такое выброс в статистике. Картинка про Что такое выброс в статистике. Фото Что такое выброс в статистике

Поэтому, если у вас есть какая-либо точка данных, которая более чем в 3 раза превышает стандартное отклонение, то эти точки, скорее всего, будут аномальными или выбросами.

Давайте посмотрим код.

Что такое выброс в статистике. Смотреть фото Что такое выброс в статистике. Смотреть картинку Что такое выброс в статистике. Картинка про Что такое выброс в статистике. Фото Что такое выброс в статистике

Графики представляют собой графическое изображение числовых данных через их квантили. Это очень простой, но эффективный способ визуализации выбросов. Думайте о нижнем и верхнем усиках как о границах распределения данных. Любые точки данных, которые показывают выше или ниже усов, могут считаться выбросами или аномальными. Вот код для построения прямоугольного графика:

Приведенный выше код отображает график ниже. Как вы можете видеть, он считает все, что выше 75 или ниже

-35, как выброс. Результаты очень близки к методу 1 выше.

Что такое выброс в статистике. Смотреть фото Что такое выброс в статистике. Смотреть картинку Что такое выброс в статистике. Картинка про Что такое выброс в статистике. Фото Что такое выброс в статистике

Boxplot Анатомия:

Что такое выброс в статистике. Смотреть фото Что такое выброс в статистике. Смотреть картинку Что такое выброс в статистике. Картинка про Что такое выброс в статистике. Фото Что такое выброс в статистике

Что такое выброс в статистике. Смотреть фото Что такое выброс в статистике. Смотреть картинку Что такое выброс в статистике. Картинка про Что такое выброс в статистике. Фото Что такое выброс в статистике

Что такое выброс в статистике. Смотреть фото Что такое выброс в статистике. Смотреть картинку Что такое выброс в статистике. Картинка про Что такое выброс в статистике. Фото Что такое выброс в статистике

Вывод вышеуказанного кода94.Это общее количество шумных точек. SKLearn помечает шумные точки как (-1). Недостатком этого метода является то, что чем выше размер, тем менее точным он становится. Вы также должны сделать несколько предположений, таких как оценка правильного значения дляEPS Wкоторый может быть сложным.

Этот метод работает по-другому. Он явно выделяет аномалии вместо того, чтобы профилировать и строить нормальные точки и области, назначая оценку каждой точке данных. Он использует тот факт, что аномалии являются точками данных меньшинства и что они имеют значения атрибутов, которые сильно отличаются от значений в обычных случаях. Этот алгоритм отлично работает с наборами данных очень большого размера, и он оказался очень эффективным способом обнаружения аномалий. Поскольку в этой статье основное внимание уделяется реализации, а не ноу-хау, я не буду подробно останавливаться на том, как работает алгоритм. Тем не менее, полная информация о том, как это работает, рассматривается в этомбумага,

Теперь давайте рассмотрим код:

Самое замечательное в этом алгоритме то, что он работает с данными очень большого размера. Он также может работать с потоковыми данными в режиме реального времени (встроенными в AWS Kinesis Analytics), а также с автономными данными.

Я объясняю концепцию более подробно в видео ниже:

В документе приведены некоторые показатели производительности по сравнению с Isolation Forest. Вот результаты из статьи, которая показывает, что RCF намного точнее и быстрее, чем Isolation Forests.

Что такое выброс в статистике. Смотреть фото Что такое выброс в статистике. Смотреть картинку Что такое выброс в статистике. Картинка про Что такое выброс в статистике. Фото Что такое выброс в статистике

Полный пример кода можно найти здесь:

awslabs / амазонки-sagemaker-примеры

Примеры блокнотов, в которых показано, как применять машинное обучение и глубокое обучение в Amazon SageMaker…

github.com

Вывод:

Источник

Выброс (статистика)

Что такое выброс в статистике. Смотреть фото Что такое выброс в статистике. Смотреть картинку Что такое выброс в статистике. Картинка про Что такое выброс в статистике. Фото Что такое выброс в статистике

Что такое выброс в статистике. Смотреть фото Что такое выброс в статистике. Смотреть картинку Что такое выброс в статистике. Картинка про Что такое выброс в статистике. Фото Что такое выброс в статистике

Выброс (англ. outlier ) — в статистике результат измерения, выделяющийся из общей выборки.

Статистический метод, способный действовать в условиях выбросов, называется робастным. Медиана является робастной характеристикой, а выборочное среднее — нет. Существует пример (квартет Энскомба), демонстрирующий, насколько неробастные методы обработки статистических данных способны «врать», даже если выброс всего один на 10 «обычных» результатов.

Причины выбросов

Определение выбросов

Поскольку множество статистических методов «буксуют» на выборках с выбросами, выбросы приходится обнаруживать (желательно — автоматически) и исключать из выборки. Простейшие способы основаны на межквартильном расстоянии — например, всё, что не попадает в диапазон

Что такое выброс в статистике. Смотреть фото Что такое выброс в статистике. Смотреть картинку Что такое выброс в статистике. Картинка про Что такое выброс в статистике. Фото Что такое выброс в статистике,

Более тонкие критерии — критерий Шовене, тест Граббса, критерий Пирса, Q-тест Диксона.

См. также

Полезное

Смотреть что такое «Выброс (статистика)» в других словарях:

Выброс — Выброс: Выбросы неутилизуемые отходы. Выброс (статистика) (англ. outlier) результат измерения, не подпадающий под общее распределение. Выброс (фигурное катание) элемент парного фигурного катания … Википедия

Бензин — (Petrol) Бензин это самое распространенное топливо для большинства видов транспорта Подробная информация о составе, получении, хранении и применении бензина Содержание >>>>>>>>>>>>>> … Энциклопедия инвестора

Список статей по статистике — Это служебный список статей, созданный для координации работ по развитию темы. Данное предупреждение не ус … Википедия

Буэнос-Айрес — Это слово имеет Буэнос Айрес (значения) Город, столица Аргентины Буэнос Айрес Ciudad Autónoma de Buenos Aires … Википедия

Новая судейская система (фигурное катание) — Новая судейская система (англ. New Judging System (NJS), также Судейская система ИСУ, англ. ISU Judging System[1]) действующая система оценок для мужского и женского одиночного фигурного катания, парного катания, спортивных танцев … Википедия

Автомобильный рынок — Автомобильный рынок это совокупность экономических отношений, благодаря которым происходит взаимодействие субъектов рынка с целью обмена готовых автомобилей на денежные средства или их эквиваленты. Под автомобильным рынком в народе также… … Википедия

Канадский хоккей — Хоккей с шайбой Хоккей с шайбой спортивная игра, подвид хоккея, заключающаяся в противоборстве двух команд, которые, передавая шайбу клюшками, стремятся забросить её наибольшее количество раз в ворота соперника и не пропустить в свои. Побеждает… … Википедия

Сборные на чемпионате мира по хоккею с шайбой 2008 — Основная статья: Чемпионат мира по хоккею с шайбой 2008 Александр Сёмин празднует первый гол в ворота Канады. Сёмин лидер сборной России по количеству набранных очков … Википедия

Чемпионат мира по хоккею с шайбой 2008 (составы) — Основная статья: Чемпионат мира по хоккею с шайбой 2008 … Википедия

АВТОМОБИЛЬ ЛЕГКОВОЙ — самодвижущееся четырехколесное транспортное средство с двигателем, предназначенное для перевозок небольших групп людей по автодорогам. Легковой автомобиль, обычно вмещающий от одного до шести пассажиров, именно этим, в первую очередь, отличается… … Энциклопедия Кольера

Источник

Что такое выброс в статистике

Что такое выброс в статистике. Смотреть фото Что такое выброс в статистике. Смотреть картинку Что такое выброс в статистике. Картинка про Что такое выброс в статистике. Фото Что такое выброс в статистике

Что такое выброс в статистике. Смотреть фото Что такое выброс в статистике. Смотреть картинку Что такое выброс в статистике. Картинка про Что такое выброс в статистике. Фото Что такое выброс в статистике

Бюджет мы считаем по среднему арифметическому. То есть для данной выборки среднее составит 29 231 руб. Но кандидат 11 с зарплатными ожиданиями 55 000 рублей выделяется. Если его убрать, то среднее значение снизится до 27 083 руб.

Как находить и убирать такие выбросы в данных?
Выбросы – это очень большие или очень маленькие значения. Как определить, является ли значение выбросом и следует ли его удалять?

Для расчетов мы используем такое понятие, как квартиль. Любой набор данных можно разделить на 4 равных отрезка. Квартили – это значения, делящие упорядоченный ряд данных на 4 равные части.

Что такое выброс в статистике. Смотреть фото Что такое выброс в статистике. Смотреть картинку Что такое выброс в статистике. Картинка про Что такое выброс в статистике. Фото Что такое выброс в статистике

Алгоритм расчета выбросов
1. Нам нужно определить первый (Q1) и третий (Q3) квартили. Для этого используем функцию Excel КВАРТИЛЬ.ВКЛ. Для расчета Q1 используем формулу КВАРТИЛЬ.ВКЛ (массив данных;1), для расчета Q3 – формулу КВАРТИЛЬ.ВКЛ (массив данных;3).
2. Рассчитаем расстояние между третьим и первым квартилем (межквартильный
размах МР). Считается как разность значений, получившихся при расчете Q3 и Q1.
3. Определяем внутреннюю нижнюю границу для выброса: Q1 – 1,5*МР
4. Определяем внутреннюю верхнюю границу для выброса: Q3+1,5*МР
Если у нас есть значения, выходящие за верхние и нижние границы, мы удаляем их из нашей выборки и считаем среднее значение без учета выбросов.

Если вы хотите со мной пройти путь познания статистики и применения ее в работе, приглашаю на онлайн-курс «HR-статистика».

Что такое выброс в статистике. Смотреть фото Что такое выброс в статистике. Смотреть картинку Что такое выброс в статистике. Картинка про Что такое выброс в статистике. Фото Что такое выброс в статистике

© 2020 Все права защищены

ИП Дейнекина Галина Игоревна
ИНН 231408484160
ОГРНИП 318505300003952

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *