Типы вероятностных выборок и их реализация
Ясно, что оценка гомогенности часто становится важной практической задачей в планировании кластерной выборки. Основная проблема здесь заключается в том, что соответствующими данными о распределении признаков внутри кластеров исследователь располагает после завершения собственно полевой стадии. Практически при проектировании выборки обычно основываются на уже существующих данных предыдущих исследований, переписей и т. п.
Таблица 2
Значения мер гомогенности р для кластеров, состоящих из домовладений (для основных социально-демографических параметров)
Параметр |
Значение р для кластера, имеющего средний размер п | |||
п = 3 |
п = 9 |
n = 27 |
n = 62 | |
Доля домовладений: — находящихся в личной собственности; |
,170 |
,171 |
,161 |
,096 |
— наемных, с низкой квартплатой; |
,235 |
,169 |
,107 |
,062 |
— наемных, с высокой квартплатой; |
,430 |
,349 |
,243 |
,112 |
Среднее количество жильцов |
,230 |
,186 |
,142 |
,066 |
Доля среди жильцов: | ||||
— белых мужчин |
,100 |
,088 |
,077 |
,058 |
— безработных мужчин |
,060 |
,070 |
,045 |
,034 |
— мужчин в возрасте 25—34 лет |
,045 |
,026 |
,018 |
,008 |
Мера гомогенности р ведет себя так же, как соответствующий коэффициент корреляции. Величина р — это корреляция между значениями признака для всех возможных парных сочетаний элементов, входящих в кластер. Эта величина обычно положительна и возрастает с ростом гомогенности элементов внутри кластера. Если наблюдения внутри кластера абсолютно независимы (как в примере случайного распределения между разными кластерами), то р = 0. При использовании территориальной кластерной выборки городского населения, например при отборе кварталов или многоэтажных домов, р для признаков экономического статуса может быть весьма высоким из-за «пороговых» эффектов: в престижном кооперативном доме маловероятно встретить семьи с очень низкими доходами (верхний порог) и, наоборот, лишь немногие состоятельные люди обитают в коммуналках, подобно герою «Золотого теленка» Александру Ивановичу Корейко (нижний порог).
Ориентировочное представление о типичных значениях р и их изменении для кластеров разной величины для общенационального выборочного исследования дает табл. 2. В таблице показаны величины р для имеющих разные размеры кластеров, составленных из соседних городских домовладений (квартир и домов). Данные таблицы основаны на выборке городского населения США (N> 100000).
Еще одной немаловажной практической проблемой в планировании кластерной либо стратифицированной выборки является сравнение эффективности затрат на исследование при разных среднем размере кластера и количестве кластеров (заметим, что и кластеры, и страты часто обозначают общим термином — «первичные единицы отбора»). Функция, описывающая зависимость расходов от вышеперечисленных двух переменных, выглядит так: