Что такое выборка социология

Простыми словами о выборке

Что такое выборка социология. Смотреть фото Что такое выборка социология. Смотреть картинку Что такое выборка социология. Картинка про Что такое выборка социология. Фото Что такое выборка социология

Привет. Я UX-исследователь в СКБ Контур. Чаще всего в работе я использую качественные методы исследований — глубинные интервью и модерируемые юзабилити-тестирования. Количественные исследования без подготовленной инфраструктуры со стороны разработки более ресурсозатратные, поэтому самостоятельно их провести сложнее.

Но самое сложное для меня в проведении количественного исследования — это выборка. Мне ближе гуманитарная сторона исследовательской работы, поэтому разобраться в выборке сложнее, чем в техниках ведения интервью. Если у тебя такая же проблема, эта статья будет полезна.

Ниже я попробовала просто рассказать о выборке, репрезентативности и методах отбора при проведении количественного исследования.

Что такое выборка социология. Смотреть фото Что такое выборка социология. Смотреть картинку Что такое выборка социология. Картинка про Что такое выборка социология. Фото Что такое выборка социология

Выборка и репрезентативность

Опрос — это количественный метод, направленный на получение точной, объективной и статистически значимой информации. Если качественные методы помогают в формулировке гипотез, то количественные — масштабируют и проверяют эти гипотезы на всей целевой аудитории.

Поэтому важно проводить отбор респондентов таким образом, чтобы выборочная совокупность отражала состав всей генеральной совокупности.

В социологии есть термин — единица наблюдения. Это может быть один человек, группа или сообщество в зависимости от целей исследования.

Генеральная совокупность — это вся совокупность единиц наблюдения, имеющих отношение к теме исследования.

Например, если ты проводишь продуктовое исследование, то скорее всего твоя генеральная совокупность — это все пользователи сервиса или определенный сегмент.

Выборочная совокупность — часть генеральной совокупности, которую вы изучаете в ходе исследования с помощью разработанных вами инструментов (анкета, гайд и прочее).

Например, в ходе исследования было опрошено 400 респондентов среди всех пользователей сервиса. Это твоя выборочная совокупность.

Выборка должна быть репрезентативной, иначе результаты количественного исследования будут сомнительными.

Репрезентативность — обеспечение в выборочной совокупности наличия всех видов единиц генеральной совокупности в достаточном количестве.

Репрезентативность имеет качественное и количественное выражение. Качественная репрезентация обязывает включить в выборку все возможные варианты респондентов, особенно, если какой-то признак влияет на опыт использования сервиса.

Например, выборка не будет репрезентативной если ты опросишь только новых пользователей (если это не оправдано целями исследования). Особенно это исказит результаты исследования, если длительность использования напрямую влияет на проверку гипотезы.

Что такое выборка социология. Смотреть фото Что такое выборка социология. Смотреть картинку Что такое выборка социология. Картинка про Что такое выборка социология. Фото Что такое выборка социология

На практике, особенно в онлайн-опросах, качественная репрезентативность может страдать. Ею можно пренебречь, если вы уверены, что на проверку гипотезы не повлияет принадлежность респондента к той или иной группе. Онлайн-опросы предполагают стихийную выборку и поэтому предусмотреть присутствие всех типов респондентов сложно. Про стихийную выборку подробнее я расскажу ниже.

Чтобы соблюсти количественную репрезентацию нужно обеспечить достаточное число респондентов, в том числе по каждой группе внутри выборки.

Например, если ты пригласишь на опрос 80% новых пользователей и лишь 20% пользователей с опытом — это тоже исказит результаты (опять же если это не предусмотрено дизайном исследования).

И, конечно, для того, чтобы масштабировать результаты опроса на всю генеральную совокупность (в нашем примере — на всех пользователей), нужно в целом рассчитать количество человек, которое ты планируешь пригласить для прохождения опроса.

Что значит «достаточное» количество человек для выборки.

К примеру, если проводить исследование на выборке в 50–100 человек, то погрешность в репрезентативности полученной информации будет выше, чем при опросе 800–1000 человек.

Но увеличивать до бесконечности число опрашиваемых нет смысла. После определенного количества респондентов ошибка выборки остановится на одном уровне.

Ошибка выборки — разность между характеристиками выборочной и генеральной совокупности. Это отклонение средних характеристик выборочной совокупности от средних характеристик генеральной совокупности.

Где-то после 400 респондентов ошибка выборки не меняется. Поэтому обычно в опросах выборочная совокупность составляет 300–400 человек. При таком значении ты можешь уверенно переносить результаты исследования на всю аудиторию при соблюдении качественной репрезентации и корректно составленной анкеты.

Если генеральная совокупность небольшая, то и выборочная совокупность будет меньше стандартных 300–400 респондентов.

Если хочешь разобраться с формулой расчета выборки подробнее про нее можно узнать здесь.

Также ты можешь провести сплошной опрос. При сплошном опросе ты опрашиваешь всю генеральную совокупность.

Например, если есть интересный и немногочисленный сегмент пользователей (30–100 человек), ты можешь опросить их всех. Или это стартап и уже есть первые пользователи. В таком случае тоже можно провести опрос по всей генеральной совокупности.

На практике требованиями количественной репрезентации иногда пренебрегают в силу нехватки ресурсов на обзвон (если это телефонный опрос) или времени на сбор ответов. Или если опрос проводят для сбора гипотез, а не для принятия конечного решения.

Здесь важно понимать, какое решение должно быть принято на основе исследования. Если это важный продуктовый или бизнес-вопрос, то лучше потратить время и деньги на проверку гипотезы с репрезентативной выборкой, чтобы не получить неверные выводы. А если, это, к примеру, опрос для сбора отклика по новой фиче, то можно остановиться на 30–60 респондентах. Основные выводы ты сделаешь, а пользователи по мере работы в сервисе расскажут о том, что ты мог пропустить.

Методы отбора

В количественном исследовании по сравнению с качественным не важно кто перед тобой, потому что все выводы строятся по совокупности ответов респондентов и материал собирается в обезличенном виде. Поэтому в идеале в выборку респонденты должны попадать случайным образом, чтобы сделать результаты максимально свободными от искажений.

Чтобы этого достичь можно использовать один из методов формирования выборки.

Случайные выборки

Они предполагают, что в выборке каждый элемент генеральной совокупности имеет заранее заданную вероятность быть отобранным в исследование.

Простая случайная выборка. Сначала нужно присвоить каждому потенциальному респонденту идентификационный номер. Дальше с помощью генератора случайных чисел определить номера, которые будут включены в выборку для опроса.

Механическая выборка. Как и в простой выборке пользователям присваивается порядковый номер. Только отбор происходит не с помощью генератора случайных чисел, а с шагом равным n. Например, каждый сотый.

Стратифицированная выборка. Для такой выборки нужно поделить генеральную совокупность на сегменты или страты. После чего респонденты внутри каждой группы отбираются случайным образом. Из каждого сегмента выделяют пользователей пропорционально их доле в генеральной совокупности.

Кластерный отбор или гнездовая выборка. Группа потенциальных респондентов отбирается случайным образом из всей генеральной совокупности. Далее внутри этой группы опрашиваются все пользователи. Например, можно опросить всех пользователей, которые зарегистрировались в сервисе в прошлом квартале.

При таком отборе риск искажений выше и важно учитывать внешние и внутренние факторы. Может быть в прошлом квартале в жизни пользователей произошло что-то важное, что повлияло на их желание воспользоваться сервисом. Тогда эта группа будет сильно отличаться от генеральной совокупности.

Неслучайные выборки

Обычно такие методы отбора применяют, если нет возможности или ресурсов для формирования случайной выборки. Например, у тебя мало времени на опрос или нет данных о генеральной совокупности или респонденты труднодоступны.

Квотная выборка. Такой метод можно применять, если у вас есть знания о составе генеральной совокупности. Например, вы знаете, как ваши пользователи распределяются в разрезе по должности, отрасли компании, возрасту и так далее. Тогда можно пропорционально этим долям сформировать выборку: в каждом разрезе выбрать такое число респондентов, которое будет отображать статистику по всей аудитории.

Стихийная выборка. Это метод без особых правил. В опрос попадают все, кто захочет пройти опрос. Такая выборка типична для онлайн-опросов, размещенных в свободном доступе.

«Снежный ком». Тоже достаточно популярная и простая методика. Каждого респондента просят порекомендовать нового среди его друзей, коллег и знакомых, которые подходили бы под параметры исследования. Такая выборка часто применяется когда самостоятельно найти интересующих респондентов затруднительно. Например, пользователи, занимающие высокую должность или с высоким доходом.

«Типичный представитель». Из генеральной совокупности отбираются респонденты с типичными признаками целевой аудитории. Только определить, что взять за такой признак, обычно сложно.

Отдельно стоит сказать про многоступенчатые выборки. На практике чаще всего (иногда интуитивно) исследователи используют как раз многоступенчатый метод. Такой отбор предполагает наличие двух или более этапов формирования выборки. Проще говоря, это микс нескольких методов отбора.

Например, ты собрал статистику по своей аудитории и знаешь, что большинство пользователей находятся в Москве. Это будет первая ступень отбора по «типичному представителю». Далее среди пользователей-москвичей ты приглашаешь на опрос каждого сотого (механическая выборка).

Проводя количественное исследование, не забывай о репрезентативности и продумывай подходящий метод отбора респондентов. Хорошая подготовка — половина успеха.

Источник

Алгоритмы формирования выборки социологического опроса

Журнальная версия опубликована:

Ильясов Ф.Н. Алгоритмы формирования выборки социологического опроса //

Социальные исследования. 2017. №2.

В статье уточняются термины, связанные с понятиями выборки и репрезентативности. Описывается классификация выборок, принятая в социологии. Предлагается и описывается классификация выборок по месту нахождения респондента и по методу контакта с ним.

1. Введение

Проблема выборки в социальных обследованиях имеет очень большое значение, тем не менее, эта тема остается не в полной мере разработанной и проясненной. Особенно это касается не-вероятностных, рандомных выборок (англ. random sample). Ред Бейкер с коллегами отмечают: «В отличие от вероятностной выборки, нет единого основания, которое позволило бы адекватно классифицировать и описать все виды не-вероятностных выборок. Не-вероятностные выборки представляет собой набор, коллекцию методов, и трудно, если не невозможно, описать особенности и алгоритмы, применяемые во всех видах не-вероятностных выборок» [Baker et al., 2013: 3].

Целью настоящей статьи является уточнение имеющихся классификаций и описаний алгоритмов отбора в социальных исследованиях.

2. Уточнение понятий

Генеральные совокупности, формируемые респондентами – это совокупности респондентов, находящихся по своей воле, и в силу сходной детерминации поведения, в определенных местах или осуществляющих определенные онлайн-контакты. Это могут быть:

Выборка, выборочная совокупность – часть генеральной совокупности, отобранная для первичных измерений. Первичные измерения в социологии это измерение свойств первичного объекта измерения – отдельных респондентов, через измерение свойств которых измеряются свойства изучаемой группы (выборки). Конечный объект измерения в отдельном социологическом исследовании – это специфическая группа, выборка или генеральная совокупность.

Репрезентативность выборки – это её свойства точно отражать исследуемые характеристики генеральной совокупности. Строго говоря, репрезентативность – это не единое, общее свойство всей выборочной совокупности, а это характер распределения ответов на тот или иной конкретный вопрос анкеты. То есть репрезентативным являются распределение ответов на определенный вопрос. Характер рассеяния разных свойств респондентов в генеральной совокупности может быть различным, оттого в одном опросе уровень репрезентативности ответов может быть различным по разным вопросам. Порой используют не совсем корректное выражение «репрезентативный опрос», на самом деле имея в виду репрезентативность выборки, либо репрезентативность результатов опроса, тогда как сам опрос – это процесс сбора эмпирической информации.

Иногда репрезентативной называют выборку, которая по социально-демографическим характеристикам опрошенных воспроизводит генеральную совокупность, при этом репрезентативность ответов на содержательные вопросы может оставаться неизвестной. Порой под репрезентативной понимают выборку, которая с точки зрения теории математической статистики, «должна быть» репрезентативной. Однако в данном случае речь идет только о гипотезе, которая, как правило, сохраняет статус непроверяемой.

Репрезентативность выборки может определяться только эмпирически:

Параметры выборки – определение объема выборки и того, какие параметры генеральной совокупности должна репрезентировать выборка. Это могут быть пол, возраст, доход, профессия, социальное положение, обладание определенными предметами, потребление определенных товаров и т.д.

Проектирование выборки – разработка алгоритма отбора и определение количества опрашиваемых респондентов.

Формирование выборки – реализация алгоритма отбора. Целью формирования выборки часто является создание репрезентативной выборки.

Ошибка выборки. Как отмечал Геннадий Батыгин: «Практически ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выборочными средними. …В качестве контрольных параметров обычно применяются социально-демографические признаки» [Батыгин, 2008: 149]. Важно указать – показатель «статистическая погрешность», описываемый в терминах доверительного интервала и уровня доверия, является теоретическим понятием математической статистики и никак не характеризует реальную выборочную совокупность. О доверительном интервале и статистической погрешности подробнее см., например: [Антонов, 2013]. Также некорректными следует признать построения, основанные на идее нормального распределения, т.к. нет социологического свойства, относительного которого были бы получены достоверные эмпирические данные, подтверждающие нормальное распределение величин его свойств.

Удобная выборка (англ. convenience sampling) – это виды выборок, в которых отбор осуществляется в генеральных совокупностях, формируемых респондентами.

Размер, объем выборки – количество отбираемых респондентов. Как указывается в известном издании: «Выборочный метод не дает универсального решения относительно необходимого в каждом конкретном случае объема выборки, обязательного соотношения объемов генеральной и выборочной совокупностей» [Рабочая книга…, 1977: 266]. На практике размер выборки определяется эмпирически, исходя из результатов анализа ранее проведенных опросов. Следует указать, что, как известно, так называемый «расчет объема выборки по специальной формуле», основанный на показателе дисперсии величин некоторого свойства (признака), возможен только при известности дисперсии в генеральной совокупности, однако если дисперсия известна, опрос проводить не имеет смысла.

Квотное задание – сформулированное для конкретного интервьюера на основе параметров выборки, задание опросить конкретное число лиц с определенными свойствами, признаками. Это может быть, например, число женщин и число мужчин заданного возраста.

Тип отбора респондентов – при самом общем подходе можно выделить следующие типы отборов:

В первом случае отбор основан на строгом алгоритме с использованием основы выборки, таблицы или генератора случайных чисел. Во втором случае речь идет об использовании алгоритмов отбора, эмпирически показавших свою возможность обеспечивать репрезентативность выборки. В третьем и четвертом случаях строго алгоритма отбора нет, и вопрос репрезентативности может оставаться открытым.

В настоящем тексте используется термин «рандомная», чтобы не применять многозначное слово «случайная» и не совсем точное «вероятностная» (отбор основан на вероятности, однако производится случайным образом).

Шаг, ступень выборки – элемент алгоритма отбора.

3. Виды выборок

Выражение «виды выборки» используется в разных смыслах, например:

Соответственно, классификации выборок отражают многозначный характер этого понятия, описывая, как правило, один или два ключевых критерия, подхода, алгоритма.

В литературе выделяются, в частности, следующие виды выборок:

Более подробно о классификации видов выборок см., например: [Рабочая книга…, 1977: 258-297; Могильчак, 2015; Alvi, 2016].

Понятия «квотная, кластерная, районированная, стратифицированная» являются в определенной мере сходными и обозначают выделение некоторых непересекающихся групп, страт по отдельным основаниям, определяемым исследователем.

Иногда стратами называют разные подвыборки, формируемые в рамках одного исследования из двух или более сравниваемых генеральных совокупностей, к их числу относятся:

Сходными являются также понятия гнездовой и серийной выборки, они обозначают процесс выбора групп (семья, школьный класс, подразделение в организации), подлежащих сплошному опросу.

Не во всех случаях термин выборка обозначает алгоритм отбора респондентов. А в тех случаях, когда речь идет об алгоритмах отбора, указывается, как правило, лишь один или два алгоритма, в соответствии с которыми виду выборки дается наименование. По сути, указание вида выборки, обычно представляет собой лишь маркирование, обозначение некоторого концепта. Основная проблема в понимании вида выборки – это нередкое отсутствие описания полного алгоритма отбора. В виду указанного обстоятельства названия видов выборок в большей мере представляют собой метафоры, в которые исследователи вкладывает некоторое, порой не до конца раскрываемое содержание.

4. Рандомный, случайный отбор

С точки зрения теории статистики, случайный выбор – это выбор одного варианта из нескольких равновозможных. Рандомный, статистически случайный отбор – это алгоритм отбора респондентов, при котором каждая из единиц генеральной совокупности имеет равные шансы, одинаковую вероятность, попасть в выборку. При рандомном отборе есть возможность посчитать теоретическую вероятность попадания каждого респондента в выборку, потому она называется также вероятностной. Более подробно о рандомных (вероятностных, случайных) выборках см., например: [Чуриков, 2007].

Надо заметить, использование рандомного, вероятностного отбора не гарантирует репрезентативность выборки. Репрезентативность в данном случае – это просто предположение, вытекающее из теории математической статистики, некоторая априорная предпосылка, которая может реализоваться в конкретном отборе, а может и не реализоваться.

Рандомной может считаться, например, выборка, в которой основой выборки является полный список всех единиц генеральной совокупности. Это может быть список избирателей, список адресов, список работников организации и т.д. В соответствии с принятым объемом выборки, отбор может осуществляться через определенный интервал, шаг выборки. Рандомный отбор может быть осуществлен с помощью компьютерной программы, с использованием генератора случайных чисел. В программу вносятся два показателя – размер генеральной совокупности и размер выборки. Эта процедура реализуема и с использованием известных статистических пакетов.

В варианте с территориальной выборкой рандомность обеспечивается случайным выбором каждого элемента на каждом шаге выборки.

Из выборок, которые могут считаться рандомными, довольно распространенными становятся выборки с использованием таких основ выборки как списки стационарных и мобильных, домашних и корпоративных телефонов.

5. Эмпирические выборки

На практике алгоритм строго рандомного отбора реализовать сложно. Потому все чаще используются так называемые «эмпирические» выборки, под которыми понимаются различные совокупности алгоритмов рандомного и «стихийного», «произвольного» отбора, которые, как ожидается исследователем, обеспечивают репрезентативность. Эмпирическими они называются потому, что оптимальный алгоритм отбора в них определяется эмпирически, через апробацию тех или иных алгоритмов и нахождения наиболее точного, оптимального.

Эмпирические выборки также называют не-вероятностными, неслучайными. Однако они называются не-вероятностными, строго говоря, не потому, что не осуществляется рандомный отбор, а лишь потому, что вероятность попадания каждой единицы отбора в выборку неизвестна.

Иногда эмпирические выборки оценивают как не имеющие теоретического обоснования. Например, Ред Бейкер с коллегами отмечают: «Мы полагаем неприемлемыми для формулирования статистических выводов и предположений, используемые без теоретического обоснования методы сбора данных и сформулированные на их основе оценки» [Baker et al., 2013]. Однако теория лишь обобщает экспериментальные данные, а именно эмпирические данные являются основой позитивной науки. Критерием научности, как известно, является совпадение результатов повторяемых, воспроизводимых эмпирических процедур. Если проводится некая эмпирическая процедура, с хорошо прописанными алгоритмами действий, в итоге которой получается воспроизводимый и повторяемый результат, то этот результат может считаться научным. Например, феномен времени в физике не имеет признанного теоретического обоснования, однако это не делает неприемлемыми эмпирические данные и оценки, полученные на основе измерения времени (длительности).

Большинство выборок представляют собой некий алгоритм – последовательность определенных действий, шагов (ступеней), направленных на нахождение и отбор респондентов. Такие выборки называются многоступенчатыми. При этом нередко выборка представляет собой комбинацию различных видов отбора, такая выборка называется комбинированной. Значительная часть эмпирических выборок содержат в себе элементы рандомного и стихийного отбора.

Таким образом, в реальности эмпирическая выборка часто представляет собой алгоритм, состоящий из нескольких неоднородных, последовательных процедур отбора, имеющих рандомный, не строго рандомный и «стихийный» характер. Иными словами, на практике часто используется многоступенчатая, комбинированная выборка, использующая рандомные и стихийные принципы отбора.

Как представляется акцент на количестве ступеней и на комбинации методов отбора, как классифицирующих признаках, в некоторой степени заслоняет собой основную цель выборки – нахождение и отбор респондентов.

Каждая из эмпирических выборок представляет собой алгоритм отбора, состоящий из двух элементов:

Соответственно, можно выделить два основания для классификации видов выборок, алгоритмов отбора:

6. Эмпирические виды выборок по месту нахождения респондента

По основанию локации респондентов можно выделить следующие основные эмпирические виды выборок:

Объектом исследования в случае выборки по месту жительства могут являться генеральные совокупности – территориальные общности разного уровня: страна, область, город, район. Построение выборки начинается с локации нужного масштаба. Определяется размер и параметры выборки. Алгоритм формирования выборки по месту жительства респондента приведен на рис. 1. На первых пяти ступенях отбора, от региона до наименования улицы, отбор может производиться либо рандомным образом, либо отбираются типичные на взгляд исследователя локации, соответствующие целям изучения.

Для каждой из ступеней отбора могут формироваться свои квоты. Они могут быть пропорциональными – отражать социально-демографические и иные пропорции генеральной совокупности, т.е. воспроизводить структуру генеральной совокупности.

Квоты могут быть «аналитическими», т.е. соответствовать аналитическому плану исследования. Они создаются таким образом, чтобы минимальная, запланированная для анализа группа, была не менее 30-40 респондентов. Например, это может быть группа: женщины, возраст 40-45 лет, доход средний, с определенным видом поведения. Различные случаи выделения квот, страт, см., например: [Могильчак, 2015: 39-53].

Рис. 1. Алгоритм формирования выборки по месту жительства респондентов

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *