Типы вероятностных выборок и их реализация
Во-первых, списки, пригодные для составления основы выборки, могут храниться либо централизованно, либо децентрализованно, «вразброс», в различных территориальных органах власти, статистических учреждениях и т.п. Естественно, что в первом случае затраты на получение доступа к основе будут значительно ниже, чем во втором. Фактически при децентрализованном хранении исследователь должен самостоятельно составить единый список-основу, собрав необходимые данные в результате обхода (или объезда) всех соответствующих институций.
Во-вторых, используемые в качестве основы выборки списки могут обладать различной степенью точности. Точность списка, в свою очередь, зависит от его полноты, частоты его обновления. Эти качества (полнота списка и высокая частота его пересмотра) редко встречаются одновременно. Как правило, самыми полными оказываются именно те основы, которые реже всего обновляются. Таковы, конечно, данные переписей или эпизодически составляемые именные распределительные списки (типа списков на получение приватизационных чеков). К сожалению, чем больше времени отделяет планируемое вами исследование от последней переписи, тем больше вероятность возникновения ошибок и смещений в основе выборки.
Очень существенными достоинствами обладают списки паспортных столов милиции, жилищно-эксплуатационных контор и других местных административных органов.
Качество основы выборки оценивают уже на стадии планирования исследования. Особое внимание уделяют таким потенциальным угрозам валидности, как неполнота выборочной основы, «склеивание» единиц отбора, «пустые» элементы в списке. О неполноте говорят в тех случаях, когда список, используемый для построения выборки, не содержит в себе некоторые единицы, безусловно относящиеся к целевой совокупности. Например, списки жильцов могут не содержать сведений о тех жильцах, которые еще не зарегистрировались по новому месту жительства. В некоторых случаях проблему неполной основы можно решить за счет использования дополнительных основ. В нашем примере со списками жильцов такой дополнительной основой могут стать «листки прибытия-убытия», которые хранятся в паспортных столах отделений милиции (с помощью последних ведется учет прописки граждан). Примером «склеивания» может служить ситуация, когда генеральная совокупность, определяемая объектом исследования, состоит из индивидов, а реальной основой отбора служит список квартир или домовладений, содержащий лишь сведения об ответственных квартиросъемщиках либо о собственниках недвижимости. «Пустые» цементы в основе выборки встречаются в тех случаях, когда исходный список содержит имена или адреса, за которыми не стоят реально существующие (или практически доступные) выборочные единицы. Эта проблема часто возникает при использовании устаревших списков, содержащих информацию о временно уехавших, выбывших, умерших и т. п.
Описанные выше трудности составления валидной, т.е. соответствующей объекту исследования (целевой совокупности), основы выборки носят и статистический, и «экономический» характер. Довольно часто исследователь сталкивается с ситуацией, когда временные и финансовые затраты на осуществление простой случайной выборки становятся неприемлемо высокими. Наиболее разумным выходом здесь является использование других, «компромиссных», процедур случайного отбора.
Систематическая выборка по качеству часто приближается к простой случайной. Систематическая выборка, как и простая случайная, требует полного списка или заданного упорядочения совокупности (см. ниже). Техника осуществления систематического отбора элементарна: сначала случайным образом отбирается первая единица, затем отбору подлежит каждый k-й элемент. Число k в данном случае называют шагом отбора. Можно, например, отбирать каждый 25-й или каждый 200-й элемент. Чтобы определить шаг отбора, нужно поделить известный объем генеральной совокупности (N) на предполагаемый объем выборки (n).
Пусть, например, нужно отобрать 200 человек из 20000 владельцев телефонов:
1) определим шаг отбора: N/n = 20000 : 200 = 100;
2) с помощью таблицы случайных чисел найдем первую выборочную единицу. Если, скажем, выпал номер «053», то из списка владельцев телефонов выпишем того, кто значится под этим номером;
3) с установленным шагом отбираем номера: 153, 253, 353, 453 и т. д. до исчерпания списка.
Иногда генеральная совокупность (и соответственно основа выборки) слишком велика либо исследователю известен не полный список, а лишь правило упорядочения элементов в генеральной совокупности. Предположим, что мы хотим составить представление о весе и формате книг, содержащихся в некой библиотеке, при том, что мы не располагаем полным каталогом, а лишь видим, как книги расставлены на стеллажах. При условии, что объем библиотечного собрания нам приблизительно известен, мы можем воспользоваться процедурой систематического отбора и отобрать, скажем, каждую 55-ю книгу. Очень важно отобрать «стартовую» единицу сугубо случайным образом. Именно в этом пункте кроется основная слабость систематического отбора. Если в способе упорядочения единиц совокупности имеет место некая цикличность, т. е. неизвестная нам «система» (систематический паттерн), а случайность в выборе «старта» должным образом не обеспечена, то полученная выборка может также оказаться смещенной (если о систематическом паттерне мы знаем заранее, то он не представляет собой угрозы валидности и может быть учтен в ходе отбора). Если воспользоваться примером с отбором книг в библиотеке, то легко представить себе такую гипотетическую ситуацию: исследователь выбирает в качестве стартовой первую книгу на нижней полке ближайшего стеллажа и далее двигается с шагом 250 единиц. Если на каждом стеллаже размещается около 500 книг, то приблизительно половина его выборки будет взята с нижних полок. Однако известно, что на нижних полках многих библиотек нередко размещают книги больших форматов — художественные альбомы, атласы и т. п. Если в нашем примере это правило упорядочения будет соблюдено хотя бы в половине случаев (т. е. половина нижних полок будет отведена под «неформатные» издания, под так называемые фолио), любые выборочные оценки «направленности» библиотечного собрания или формата представленных в нем книг окажутся невалидными. Аналогией примеру с библиотечными книгами может служить случай систематической выборки городских квартир. Если в результате осуществляемого непосредственно «в поле» интервьюерами систематического отбора в выборке будут сверхпредставлены квартиры, расположенные на первых и последних этажах, возникнет систематическая выборочная ошибка. На первых и последних этажах в российских городах часто живут люди из групп, имеющих более низкий социально-экономический статус и соответственно ограниченные финансовые ресурсы: квартиры, расположенные на «крайних» этажах и соприкасающиеся с системами коммунального водо- и теплоснабжения, обычно стоят дешевле, так как названные системы в России традиционно являются источником неприятностей и дисфункций в структуре жизнеобеспечения.