ИССЛЕДОВАНИЯ: ИСПОЛЬЗОВАТЬ ИНФОРМАЦИЮ ПО МАКСИМУМУ
Восполнение пропущенных данных часто становится проблемой при проведении исследований разных типов, не исключая маркетинговые. Небрежное отношение к этому этапу подготовки данных к обработке может привести к существенному искажению получаемой на выходе картинки, стать причиной недостоверности результатов. То есть, полученное в итоге представление об интересующих исследователя/заказчика взаимосвязях (например, при изучении потребительского поведения) может оказаться неадекватным. К этой проблеме обращается автор статьи.Каждый, кто хоть раз проводил исследования, в основе которых лежат результаты опросов, сталкивался с тем, что многие респонденты дают ответы не на все вопросы.
Это затрудняет проведение точного анализа полученных данных. В зависимости от конкретной ситуации то, как исследователь отнесется к таким «белым пятнам», по-разному скажется на достоверности конечного результата обработки собранных данных. Некорректное решение проблемы пропущенных данных может привести к критически неточным и неадекватным результатам. В целом, обобщая, можно выделить два основных подхода к обработке недополученных данных. Первый заключается в удалении из дальнейшего рассмотрения всех ответов каждого из респондентов, пропустивших хотя бы один вопрос. В тех случаях, когда опрос состоит всего из нескольких вопросов, и/или процент не полностью заполненных анкет достаточно низок (около 10%), этот подход весьма эффективен и позволяет получить достоверные результаты. Однако если респондентам предлагалось ответить на несколько десятков (или сотен) вопросов, некоторые из которых, возможно, вызывали предсказуемые затруднения (например, вопрос о доходе), и процент опрошенных, пропустивших часть ответов, велик, этот метод ведет к заметной и зачастую неоправданной потере данных, которая, в свою очередь, становится одной из причин некорректных выводов. В такой ситуации значительно более эффективными оказываются рациональные попытки восполнить пропущенные данные, то есть не удалять имеющуюся у нас, пусть даже не совсем полную, но все же весьма ценную информацию, а стараться максимально эффективно ее обработать.
Существует множество методов восполнения пропущенных данных (заполнения «белых пятен»), обычно основывающихся на усреднении имеющихся ответов других респондентов на ¬вопросы, по которым имеются пропуски. Эти действия усложняет, например, необходимость учитывать такие социальные черты опрошенных, как пол, возраст, социальная группа, образование и многое другое. Важность аккуратного учета таких факторов наглядно видна из упомянутого выше примера с пропусками в графе «Доход»: обычно этот пункт пропускают люди с очень низким или очень высоким заработком, и приписывать им среднестатистический доход – значит терять часто принципиально важные крайние значения. На самом деле, методов восполнения пропущенных данных на сегодняшний день разработано изрядное количество, однако подбор наиболее адекватного в каждой конкретной ситуации остается существенной проблемой. Автор подчеркивает, что распространение и расширение охвата, глобализация исследований заставляет все более пристально относиться к обозначенной выше проблеме. Можно выделить три важных тенденции в развитии исследований, делающих вопрос восполнения пропущенных данных все более релевантным:
• Расширение перечня используемых способов сбора данных, в частности, проведения опросов, интенсивное использование сети интернет не только в качестве средства коммуникации с респондентами, но и как прямого источника информации;
• Интеграция различных баз данных;
• «Глобализация» исследований, попытки сопоставить разнообразные данные, выявить глубокие взаимосвязи.