Использование обследований домохозяйств для измерения благосостояния

Обследования домашних хозяйств являются единственным наиболее важным источником данных для проведения сравнения бедности; фактически, они являются единственным источником данных, который может непосредственно рассказать нам о распределении уровня жизни в обществе, например, о том, сколько домашних хозяйств не достигают заданного уровня потребления. Во Вставке 1.17 представлена основная идея обследования. Здесь мы рассмотрим её более глубоко, уделяя внимание тщательности, с которой необходимо подходить к сбору и интерпретации таких данных. В этом разделе рассматриваются основные вопросы, о которых следует знать. Во Вставке 3.6 кратко излагаются ключевые понятия из использованной при этом статистики.

Вставка 3.6 Некоторые ключевые статистические концепции для выборочных обследований

Выборочные обследования используются для снижения затрат на оценку параметров, представляющих интерес в отношении определённой группы населения, которая представляет собой набор людей, на которых и производится это обследование. Аналитик должен иметь четкое представление о том, что представляет собой соответствующий срез населения для исследования которое производится.

Выборочное обследование собирает данные о подмножестве (выборке) людей в популяции с целью получения надежных выводов о некоторых ключевых характеристиках, которые интересуют вас в этой популяции. Эти характеристики и являются статистическими данными, которые вас интересуют. Выборка составляется на основании типической выборки, которая может составлена из списка проживающих. (Если вы проводите опрос всего населения, то вы проводите перепись).

При использовании выборочного обследования для оценки параметров популяции, как правило, необходимо получить статистически несмещенные оценки, что означает, что в достаточно больших выборках оценка, основанная на обследовании, будет приближаться к истинному параметру в популяции. Обычно также стремятся гарантировать, что выборочные оценки являются достаточно точными, что означает, что их стандартная ошибка невелика по сравнению с оценкой параметров.

Важной концепцией является статистическая независимость. Два события считаются статистически независимыми (или просто "независимыми"), если вероятность наступления одного события в любом случае не изменяется тем фактом, который произошёл при другом событии. Мы можем распространить ту же идею на любые две переменные, которые можно назвать независимыми, если распределение вероятностей одной переменной не зависит от значений, принимаемых другой переменной. (Распределение вероятностей или просто "распределение" переменной дает вероятность того, что переменная примет каждое возможное значение).

Две выборки являются независимыми, если факт отбора для одной из них не влияет на вероятность отбора для другой. Независимость в отборе выборок обеспечивается рандомизацией. Существует много способов сделать это, но самый простой - назначить число каждой потенциальной точке выборки в кадре выборки и случайным образом нарисовать подмножество этих чисел с помощью генератора случайных чисел. Программное обеспечение для составления случайных выборок легко доступно как в рамках существующих пакетов статистических программ (таких как Stata, SPSS или SAS), так и в автономных продуктах (таких как рандомизатор исследований).

Рандомизация является важным примером метода выборки. Простая случайная выборка это именно то, что слышится в названии: в пределах выборки выделяется один список который образует единственную случайную выборку, содержащую тех, к кому затем обратятся для собеседования. Более сложная форма выборки включает в себя стратификацию. Здесь вы разбиваете население на четко определенные подгруппы (страты), а затем выполняете простую случайную выборку внутри каждой страты, но с разным коэффициентом. Идея заключается в том, что вы проводите избыточную выборку определенных типов людей, например, тех, кто живет в домашних хозяйствах, которые участвовали в проводимой государственной программе.

При расчете сводной статистики по выборке обычно требуется хорошая оценка совокупности, из которой была взята выборка. Требуется, чтобы каждое наблюдение из выборки взвешивалось в соответствии с тем, сколько людей оно представляет в популяции. По сути, влияния позволяют преобразовать фактическую выборку (какой бы сложной ни была её конструкция) в случайную выборку. (Обратная величина частоты дискретизации называется коэффициентом расширения, определяющим количество людей в популяции, представленной этой точкой выборки). Эти веса сами по себе являются важными данными и всегда должны быть доступны пользователям для чего угодно, кроме простой случайной выборки (в которой все точки выборки могут иметь одинаковый вес). Веса необходимы для получения объективных оценок описательной статистики для населения. (При оценке регрессионной модели случай взвешивания менее очевиден; во вставке 5.12 мы вернёмся к этому случаю).

Применение простой случайной выборки для большой географической области может увеличить стоимость обследования, поскольку в итоге может получиться очень разрозненная выборка. И если у кого-то нет обновленной переписи, может оказаться невозможным провести простую случайную выборку. В таком случае может помочь кластерная выборка (также называемая двухэтапной выборкой). С помощью этого метода сначала случайным образом отбираются кластеры домохозяйств, такие как деревни или городские кварталы; их можно назвать первичными единицами выборки (ПЕ). Блоки питания выбираются с вероятностью, пропорциональной их размеру, как обычно, на основе последней переписи. Затем производится случайная выборка домохозяйств в выбранных кластерах после составления полного списка домохозяйств в каждом выбранном кластере. Если использовалась кластерная выборка, часто важно знать, как это было сделано; например, если в каждом регионе был выбран только один кластер, то региональная карта бедности может ввести в заблуждение. И следует остерегаться слишком большого количества этапов выборки, поскольку точность оценки параметров популяции может значительно снизиться.

Единицы в пределах одного кластера нельзя считать независимыми, поскольку они вполне могут иметь некоторые общие атрибуты (например, связанные с проживанием в одной деревне). Важное различие между стратификацией и кластеризацией заключается в том, что первая обычно повышает точность ваших оценок по выборке, в то время как вторая снижает эту точность. В случае кластеризации оценки дисперсии выборки необходимо скорректировать (в сторону увеличения). Степень корректировки зависит от того, насколько сильно коррелируют результаты, представляющие интерес, внутри кластеров (часто называемые "внутрикластерной корреляцией"). При оценке регрессионной модели (Вставка 1.19) необходимо сосредоточиться на внутрикластерной корреляции условия ошибки регрессии.

Один из ключевых вариантов замысла выборочного обследования заключается в том, сколько домохозяйств нужно опросить в каждой первичное единице (ПЕ) по сравнению с количеством ПЕ для выборки. Если кто-то хочет оценить средние значения для ПЕ, то ему явно нужны адекватные образцы на уровне ПЕ. Однако для данного совокупного размера выборки более крупные выборки на уровне ПЕ снижают точность оценки характеристик популяции. Выбор зависит от того, насколько велика разница между ПЕ и целями обследований, в частности, требует ли исследование оценок на уровне ПЕ.

Ошибки ожидаемы в небольших выборках, даже если они случайны. Хотя вы не можете ожидать, что получите точность в небольшой выборке, по мере увеличения размера выборки вы должны приближаться к истине. Если нет, то что-то должно быть не так в методе оценки. Например, ваша выборка, возможно, на самом деле не была составлена случайным образом, поэтому она не является репрезентативной для населения. При использовании выборочного опроса для измерения бедности происходит смещение большой выборки, если богатые люди отказываются участвовать в опросе - они просто слишком заняты или никогда не бывают дома, или, возможно, ваши интервьюеры не могут пройти мимо их сторожевых собак! Значит, вы переоцениваете уровень бедности. Этот тип проблемы иногда называют предвзятостью ответов на опрос. Хотя ошибка выборки возникает из-за того, что у вас нет большой выборки, эта форма ошибки не исчезает по мере увеличения размера выборки.

Даже если все, кто обобранные случайным образом, могут быть опрошены, ошибка измерения по-прежнему вызывает озабоченность в обследованиях (и переписях). Например, некоторые люди (вероятно, более богатые, чем бедные) могут делать далеко не точные предположения о ключевых компонентах своего дохода или потребления. Большие выборки помогают усреднить некоторые типы ошибок, но не все. Например, если (как часто утверждают) богатые люди намеренно занижают свои доходы в ходе опроса, то это сохраняться и в больших выборках.

При анализе данных опросов часто используется идея статистической значимости. Она учитывает как размер статистики, так и стандартную ошибку выборки, измеряя точность оценки. Если оценка считается "значимой на уровне 5%", обычно подразумевается, что вероятность того, что истинное значение на самом деле равно нулю, составляет всего 5%.

Дополнительная литература: Классическую обработку выборки можно найти у Kish (1965). Более поздние введения в эту тему можно найти у Iarossi (2006) и Bryman (2012). Полный обзор методов обследования можно найти у Bethlehem (2009).

Обследования домашних хозяйств, проводимые на практике, можно классифицировать по четырем параметрам:

1. Структура выборки: Опрос может представлять население страны или некоторую более узко определенную подгруппу, такую как жители региона. Уместность выборки опроса, естественно, зависит от выводов, которые исследователь хочет из нее сделать.

2. Единица наблюдения: это может быть само домашнее хозяйство или отдельные лица в домашнем хозяйстве или и то, и другое. "Домашнее хозяйство" обычно определяется как группа людей, которые едят и живут вместе. Структуры домашних хозяйств иногда могут быть сложными, например, в обществах, где практикуется полигамия, или где распространено совместное проживание в жилых комплексах (например, в сельских районах региона Сахель в Африке), что затрудняет разграничение одного домохозяйства от другого (см Scott (1980a), UN (1989), and Rosenhouse (1990). Большинство обследований домашних хозяйств включают некоторые данные об отдельных лицах в домохозяйстве, хотя это редко включает их потребление, которое обычно агрегируется до уровня домашнего хозяйства; примеры включают Национальные выборочные обследования Индии (NSS), Национальные социально-экономические обследования Индонезии (SUSENAS) и обследования LSMS Всемирного банка. Примером обследования, в ходе которого были собраны данные об индивидуальном потреблении продуктов питания, является обследование сельских домашних хозяйств на Филиппинах, проведенное Международным научно-исследовательским институтом продовольственной политики (IFPRI) в 1980-х годах (см Bouis and Haddad (1992). При наличии многоэлементных домашних хозяйств (связанных с разными женами) требуются комплексные обследования (Де Врейер и др. (2008) разработали метод обследования многоэлементных домашних хозяйств и применили его в Сенегале. Также смотрите приложение к изучению неравенства между поколениями у Ламберта и др. (2014).

3. Количество наблюдений с течением времени: Наиболее распространенным является один срез, основанный на одном или двух интервью за короткий период. В панельном (также называемом продольном) обследовании члены одного и того же домохозяйства опрашиваются в течение длительного периода. Такие обследования проводить и дороже и сложнее, но имеют некоторые преимущества (Вставка 3.7).

4. Основной собирательный показатель уровня жизни: Наиболее распространенные показатели бедности, используемые на практике, основаны на потребительских расходах домашних хозяйств или доходах домашних хозяйств. Некоторые обследования собирают и то, и другое (например, SUSENAS Индонезии и LSM Всемирного банка), но другие имеют специализацию (например, NSS Индии не включает все источники дохода, в то время как большинство обследований домашних хозяйств, доступных для Латинской Америки, не включают потребление). Отсутствие как доходов по источникам, так и расходов по видам может быть серьезным препятствием для определенных целей, включая оценку последствий изменения цен для бедности. (Мы вернёмся к этому позже)

Вставка 3.7 Панельные данные и их применение

Большинство обследований предполагает опрос членов одного домохозяйства в течение короткого периода времени (несколько дней или, возможно, всего за одно посещение). Это единый перекрестный опрос - на сегодняшний день наиболее распространенная форма исследования. В отличие от этого, в рамках группового обследования собираются два или более посещений для получения данных обследования одного и того же домохозяйства. Между последовательными собеседованиями часто проходит достаточно длительный период (обычно год).

С помощью таких данных можно лучше понять динамику бедности - переходы в бедность и выход из неё. Рассмотрим таблицу 3.7.1, в которой население классифицируется на четыре группы, помеченные (курсивом).

Таблица 3.7.1 Динамика бедности

Бедные в течение 2-х лет	Вышедшие из бедности (т.е. бедные в первый год, но переставшие быть бедными во второй)	Бедные в первый год (сумма ряда)
Попавшие в бедность (т.е. не бедные в первый год, но бедные во второй)	Не бедные в оба года	Не бедные в первый год (сумма ряда)
Бедные во второй год (сумма столбца)	Не бедные во второй год (сумма столбца)	Население (сума всех четырёх ячеек)

С помощью двух обследований поперечного сечения можно поместить цифры в итоговые значения строк и столбцов, но никто не имеет представления о внутренних четырех ячейках (выделенных курсивом). Показатели бедности могут быть даже одинаковыми в эти две даты, однако это согласуется как с полным сохранением (одни и те же люди бедны в оба года), так и с полным "вспениванием" (все те, кто был беден в первый год, избежали нищеты, в то время как все, кто не был беден в первый год, впали в нищету во второй). Более вероятно, что истина находится где-то между этими двумя случаями. Только с помощью панельных данных можно доукомплектовать таблицу, заполнив четыре внутренних поля.

Другое применение заключается в изучении мобильности - перемещении людей вверх или вниз по доходной или иной лестнице. Например, можно изучить взаимосвязь доходов или образования между поколениями (например, когда спрашивают, сколько детей неграмотных родителей стали грамотными). Этот тип вопросов, безусловно, важен для измерения и понимания неравенства возможностей в обществе. При изучении мобильности доходов были предложены различные показатели, в том числе коэффициент корреляции между доходами на дату 1 и доходами на дату 2 и коэффициент ранговой корреляции. Не все эти показатели требуют панельных данных; например, можно задать вопрос о родителях респондента в ходе перекрестного опроса.

Хотя панельные данные имеют преимущества, их сбор обходится дороже, поскольку необходимо найти одни и те же домохозяйства. В любой изменяющейся популяции панельное обследование не может быть репрезентативным по всем датам; как правило, оно проводится только в начале. Также могут быть отклонения из-за истощения, в результате чего некоторые неслучайные подвыборки выпадают из панели. Это имело бы место в том случае, если сокращение численности происходит из-за домохозяйств с более высокой склонностью к миграции в поисках работы. И изменяющиеся во времени ошибки измерений могут вызывать беспокойство; по крайней мере, некоторые из этих "недиагональных" элементов в приведенном выше массиве (те, кто переехал в бедность или вышел из нее) будут ошибками измерения. (Например, если доход домохозяйства был занижен в периоде 1, это может быть исправлено в периоде 2).

Тремя хорошо известными примерами панельных наборов данных являются Панельное исследование Мичиганского университета динамики доходов в Соединенных Штатах, обследования на уровне деревень, проведенные Международным институтом исследований сельскохозяйственных культур для полузасушливых тропиков в Индии, и Исследование продольного мониторинга России, проведенное Университетом Северной Каролины за последние двадцать лет. Очень немногие обследования собирают данные об индивидуальном потреблении на продольной основе (исключением является вышеупомянутое обследование IFPRI для Филиппин). В некоторых обследованиях LSMS использовалась модифицированная версия классической панели, в соответствии с которой половина выборки каждого года пересматривается в следующем году. Это снижает затраты на формирование набора панельных данных, сохраняя при этом некоторые преимущества.

Есть несколько примеров наборов панельных данных, которые были созданы на основе существующих наборов данных, а не изначально задумывались как продольные обследования. Одним из примеров является Китай, где выборки для межсекторальных обследований городских и сельских районов, проводимых Национальным бюро статистики, не меняются каждый год. Таким образом, можно создавать панели для некоторых периодов (Chen и Ravallion 1996).

Вторым примером является исследование Четти и др. (2014) мобильности доходов между поколениями в Соединенных Штатах. Четти и др. использовал записи о подоходном налоге, чтобы связать детей с их родителями (которые, как правило, подавали документы на них в качестве иждивенцев до момента, когда они покидали дом). Они обнаружили, что показатели мобильности доходов были довольно стабильными с 1970-х годов. Например, по их оценкам, вероятность того, что ребенок, родившийся в нижнем квинтиле роста доходов, окажется в верхнем квинтиле в качестве взрослого, составила 0,08 для тех, кто родился в 1971 году, против 0,09 для тех, кто родился в 1986 году. Это кажется загадочным, учитывая рост неравенства в доходах, хотя (как отмечают Четти и др.) значительная часть этого роста была на самом верху распределения в Соединенных Штатах.

Дополнительная литература: См. Ashenfelter и др. (1986) об аргументах за и против сбора панельных данных. Об использовании панельных данных для изучения динамики бедности (в контексте тестирования эффективности системы социальной защиты) см. Ravallion et al. (1995). Об измерении мобильности см. Поля (2001, главы 6 и 7). О последствиях ошибки измерения в панельных данных см. Glewwe (2012).

Наиболее распространенным обследованием, используемым при анализе бедности, является единый срез для национально репрезентативной выборки, в котором домохозяйство является единицей наблюдения (хотя и с некоторой информацией, полученной от конкретных лиц), и оно включает данные либо о потреблении, либо о доходах. Ниже перечислены основные проблемы, о которых следует помнить при интерпретации данных о потреблении или доходах домашних хозяйств, полученных в результате такого обследования домашних хозяйств (Существует ряд других вопросов при разработке опроса, которые я здесь не буду рассматривать, включая разработку вопросника и организацию работы на местах. Полезные обзоры этих вопросов см. Iarossi (2006), Bethlehem (2009) и Bryman (2012). Также см. ООН (1989). Классический дизайн вопросника LSMS описан в Grootaert (1986) и Ainsworth and van der Gaag (1988).

оглавление

домой