OCA Учебник online                   

"Спросить - минутный стыд, не спросить - стыд на всю жизнь".
Японская пословица

Построение весов и взвешивание
(OCA for Windows)
Взвешивание представляет собой один из подходов к ремонту выборки. С помощью взвешивания, можно менять частотные соотношения признаков. Очень часто под взвешиванием подразумевают операцию построения и подключения компенсационных весов (весов для компенсации разницы между распределениями в нашей выборке и генеральной совокупности). Именно такой тип взвешивания мы рассмотрим здесь.

Предположим, что у нас есть результаты некого исследования (исследуемая генеральная совокупность: все население страны в возрасте старше 18 лет).
Построив таблицу одномерных распределений для признака "Пол" мы получили следующие результаты:

мужчины 39.6%
женщины 60.4%

Нам известно реальное распределение мужчин и женщин в стране (результаты переписи). Оно таково:

мужчины 45%
женщины 55%

Как мы видим в нашей выборке недобор мужчин и, как следствие, перебор женщин.
Поскольку выборку можно рассматривать как модель нашей генеральной совокупности, хотелось бы, чтоб она максимально была на нее похожа, хотя бы по тем параметрам, которые мы можем проверить.
Конечно, можно выкинуть часть анкет женщин, но это во-первых, уменьшит объем выборки; во-вторых, может быть ситуация при которой количество анкет подлежащих изъятию не целое (нельзя выкинуть полторы анкеты); в-третьих возникает вопрос какие именно анкеты изъять (хотя решением может быть случайный отбор изымаемых анкет).
Но лучше и проще каждой анкете дописать некое значение (вес) и при построении частотных распределений каждую анкету считать не за 1, а за 1*ВЕС. И сделать это весовое значение в нашем случае, для женщин чуть меньше 1 (поскольку их перебор), а для мужчин немного больше 1 (ведь их недобор). С изменением частотных распределений поменяются и все статистики, рассчитываемые на основе частот (проценты, моды, средние и т.п.). На расчет минимума, максимума, суммы и прочих, не зависящих от частоты статистик, взвешивание влияние не оказывает.
Итак, для нивелирования неточности в распределении по полу мы воспользуемся взвешиванием. Рассмотрим простое уравнение.

ДАННЫЕ СТАТИСТИКИ = ДАННЫЕ МАССИВА * ВЕС
как следствие
ВЕС = ДАННЫЕ СТАТИСТИКИ / ДАННЫЕ МАССИВА

Таким образом, мы получили формулу для расчета компенсационных весов. Теперь необходимо построить новый признак, который будет содержать весовое значение для каждой анкеты. Строить весовой признак мы будем на основе значений признака "Пол" (в нашем примере это признак номер 34). Для построения новго признака воспользуемся функцией условного вычисления.



Новый признак, назовем его "Вес", будет иметь метрический шкалу (а значит, у него отсутствует кодировочная схема) и будет рассчитываться по следующим формулам:

для мужчин (в нашем примере код 1 в признаке 34): 45/39.6
для женщин (в нашем примере код 2 в признаке 34): 55/60.4

Заполним поле условий. В условии мы должны записать условие, по которому отбирается анкета для присвоения ей того или иного весового значения. После условия следует поставить -> и указать значение или формулу для расчета значения, создаваемого признака. Соответственно для мужчин строка условия будет иметь вид:
#34#=1 -> 45/39.6
для женщин:
#34#=2 -> 55/60.4

Напоминаем, что число, записанное между двумя знаками диеза (#), интерпретируется как значение признака, номер которого равен указанному числу.
Осталось поле "иначе". Весовой признак не должен принимать значение НеОтвет (обозначаемое символом $), каждая анкета должна обязательно иметь вес. Таким образом, для анкет, в которых по каким-то причинам не отмечен пол респондента, лучше всего сделать вес равным 1 (фактически, не взвешивать их).
Наша заполненная форма вычисления нового признака:



Нажав на кнопку "ОК" мы построим новый признак (он будет добавлен в конец списка признаков массива), после чего форма условного вычисления автоматически закроется. Построение компенсационного веса для половой структуры нашей выборки закончено.

Обратите внимание, что в ОСА for Windows начиная с версии 5.5.8 появилась функция автоматического расчета весовых признаков по заданным распределениям (“Вычисления” -> “Вычисление весов”). Подробнее смотрите соответствующий раздел справочной системы.

Подключим наш вес. Для этого воспользуемся функций взвешивания.



В появившейся форме поставим галочку напротив флага "Взвешивать". А в поле "Вес: признак" укажем номер нашего весового признака (он будет последним в списке).



После нажатия на кнопку "ОК" вес будет подключен. Подключение веса фиксируется в нижней панели главной формы программы.



Также в заголовке к каждой таблице пишется номер весового признака, если взвешивание подключено. Соответственно для отключения веса необходимо на форме взвешивания убрать галочку напротив флага "Взвешивать" и нажать кнопку "ОК". Теперь, с подключеным весом, мы можем снова построить таблицу одномерных распределений для признака "Пол", чтоб посмотреть правильно ли мы все сделали, получаем ли мы при подключении весов необходимое соотношение мужчин и женщин.
Однако часто выборку необходимо взвесить по нескольким показателям. Например, не только по полу но и по возрасту. Веса для возраста обычно строят не для каждого варианта ответа (их слишком много), а для возрастных групп. Например таких:
1 18-29 лет
2 30-39 лет
3 40-49 лет
4 50-59 лет
5 60 и более лет
Хорошо если у нас есть статистика относительно процентного соотношения мужчин и женщин в каждой их таких групп. Тогда мы можем построить веса аналогично предыдущей процедуре (только условий будет больше, и в условии будет учитываться не только пол, но и возраст). Например (34 признак - Пол, 35 признак - Возрастная группа):
#34#=1 and #35#=1 -> 9/8.8
#34#=2 and #35#=1 -> 10.8/14.2
#34#=1 and #35#=2 -> 12.8/11.2
#34#=2 and #35#=2 -> 13.1/14
и т.д.

Но как быть, если такой статистики у нас нет (ведь взвешивание может проходить и по 3, 4 и более признакам и требовать слишком подробной статистики). В этом случае можно построить несколько независимых весов по рассмотренной нами методике (отдельно построить вес для пола и отдельно для возраста). А потом получить финальный вес, перемножив между собою, построенные ранее независимые веса. Для этого следует также воспользоваться процедурой условного вычисления.



В нашем примере вес для компенсации различий по полу содержится в признаке номер 59. Предположим, что весовой признак для исправления возрастной структуры находится в признаке номер 60. Для вычисления веса объединяющего эти два весовых признака следует воспользоваться формулой:
#59# * #60#
Таким образом, новый признак также будет иметь метрическую шкалу. Условие для его построения одинаково для всех анкет. Соответственно, это условие мы запишем в поле "иначе" (многострочное поле условий оставим пустым).



Конечно, результат такого сведения двух независимых весов будет несколько хуже, чем в случае с использованием подробной статистики, но все же вполне приемлемым.

Итак, компенсационные веса строятся для признаков:
1. Реальное распределение которых мы знаем. Например, количество мужчин и женщин, их возраст и ряд других социально-демографических показателей населения страны известны в результате переписи населения.
2. Которые имеют, по нашему мнению, существенное влияние на анализируемые признаки. Так политические взгляды часто связаны с возрастом человека, областью проживания; заинтересованность в том или ином товаре может зависеть от пола, возраста и образования.

Таким образом, компенсационные веса строятся обычно для социально-демографических признаков (пол, возраст, место проживания, образование и т.п.).
Также, количество объектов в выборке в целом и сумма всех весов не должны сильно отличаться, хорошо, когда они совпадают. Мы не должны увеличивать объем выборки за счет компенсационных весов. Если после подключения весов у Вас сильно увеличилось общее количество объектов в массиве (число, отмеченное в заголовке любой таблицы как "Всего"), скорее всего вы неправильно рассчитали весовые коэффициенты.
Также считается, что если самый маленький вес (минимум по весовому признаку) отличается от самого большого веса (максимума по весовому признаку) более чем в три раза, выборка не очень хороша и использование весов исправляет взвешиваемых признаки, но при этом скорее всего присутствуют достаточно сильные искажения других данных.

Также обращаем Ваше внимание на то, что, начиная с версии 5.5.8, OCA for Windows содержит функцию автоматического построения весов и их калибровки. Под калибровкой подразумевается функция сведения к минимуму отклонений возникающих при получении финального веса путем перемножения весовых коэффициентов полученных при взвешивании по разным параметрам, как в нашем примере с полом и возрастом.



Работа с данной функцией подробно описана в соответствующем разделе помощи к программе.