Повна версія

Головна arrow Психологія arrow Експериментальна психологія

  • Увеличить шрифт
  • Уменьшить шрифт


<<   ЗМІСТ   >>

Проблема пропущених даних у психологічних дослідженнях

Якщо в експериментальному, кореляційному або квазіекспериментального дослідженні використовується декілька виміряних змінних, багато завдань або умов, то виникає проблема, чи все випробовувані пройшли через всі плановані умови дослідів і маються для кожного з них дані за всіма методиками.

Наявність пропущених даних в матриці, що відбиває "сирі" результати проведеного дослідження, вкрай рідко згадується дослідниками при поданні результатів проведених досліджень.

Пропущені дані (ПД) з'являються, коли для випробовуваних не надана інформація по одній і більше змінним.

Це часто відбувається, зокрема, коли змінні є результатом застосування психодіагностичних тестів (виникають пропуски відповідей як на рівні завдань у тестах або анкетах, так і заповнення не всіх запропонованих випробуваному опитувальників). Імпліцитним правилом, якому слід більшість дослідників, є видалення ПД і проведення статистичного аналізу на повній матриці, що містить дані по всім змінним для всіх випробовуваних. У реальності ігнорування ПД має важливі наслідки для валідності та надійності отриманих дослідником результатів, найбільш очевидним з яких є зниження потужності статистичного критерію через зменшення вибірки ("викидання" випробовуваних, які відповіли не на всі питання / взяли участь не у всіх експериментальних процедурах / вийшли з лонгитюдного дослідження). Менш очевидною є зв'язок ПД з надійністю вимірювань, конструктной валидностью і валидностью дослідження.

Види пропущених даних та їх вплив на надійність і валідність

У випадку, коли психолог використовує тільки один показник цікавить його властивості (так званий монометод), пропуск відповіді на відповідне питання або відсутність рішення відповідної задачі призводить до повної відсутності даних за вказаною властивості. Використання безлічі вимірів властивості (мультіметод) дозволяє частково подолати це обмеження. Проте навіть у разі використання безлічі індикаторів (наприклад, у разі використання опитувальника з безліччю питань) припущення дані ведуть до зниження якості одержуваної інформації про властивість. Так, в класичній теорії тестів надійність вимірювального інструмента прямо пов'язана з кількістю завдань і запитань, тому відсутність показників може призвести до зниження надійності операціоналізіровать змінних, збільшенню несистематической варіативності в даних і, як наслідок, зниження потужності дослідження, тобто зниження ймовірності виявлення ефекту. Крім впливу на надійність діагностичного інструментарію ПД чинять негативний вплив на його конструктної валідність, оскільки наявність ПД може призводити до неповного поданням в матриці даних сторін цікавить конструкту.

Наявність ПД має безліч наслідків і для внутрішньої валідності дослідження, а також для можливості узагальнення результатів. Наявність систематичних ПД може виникнути, коли випробовувані, які надали і не надали відповідь на зазначене питання, систематично відрізняються по цікавого дослідника чи іншого властивості. Іншим прикладом є систематичні відмінності між тими, хто закінчив дослідження і тими, хто відмовився від продовження дослідження. У цьому випадку результати дослідження можуть відображати систематичні відмінності між групами, не пов'язані з експериментальним впливом.

Відповідь на питання про потенційну загрозу валідності дослідження з боку ПД пов'язаний з вирішенням проблеми класифікації ПД в конкретному дослідженні як систематичних або несистематических. Найбільш широку популярність здобула схема Д. Рубіна, згідно з якою ПД можна розділити на три види: 1) абсолютно випадково пропущені дані - ССПД (missing completely at random, MCAR), 2) випадково пропущені дані - СПД (missing at random, MAR) і 3) невипадково припущення дані - НСПД (missing not at random, MNÄR). Ця схема пов'язана з оцінкою ймовірності ПД виходячи з інформації про конкретні змінних, коваріатах і гіпотетичних механізми, що лежать в основі ПД [Rubin, 1976].

В основі отримання МСЛЙ - даних лежать випадкові процеси, не пов'язані з важливими дослідника властивостями (це аналоги несистематических змішень з ПП в експерименті). Так, ПД будуть вважатися абсолютно випадково пропущеними, якщо патерн ПД систематично не пов'язаний як з не пропущеними даними (показниками інших змінних), так і з самими значеннями ПД (наприклад, коли випробуваного відволік випадковий звук, коли був втрачений протокол і т.д .).

Випадково припущення дані (СПД - дані) пов'язані з спостерігаються - вимірюваними змінними і можуть бути змодельовані виходячи зі значень, пов'язаних з ПД систематичних змішень зі змінними, які виступають у якості коваріат.

Наприклад, якщо проводиться лонгитюдне дослідження лідерських навичок нових співробітників, що відбираються в організацію, у тому числі на основі балів IQ, ненанятие співробітники матимуть ПД ii щодо показників лідерських навичок, пов'язані не з самими лідерськими навичками, але систематично пов`язані з попаданням в зону критеріального відкидання на основі бала IQ.

НСПД - дані, у свою чергу, пов'язані безпосередньо з пропущеними значеннями, інтерес дослідників (наприклад, пропуск відповіді на завдання в тесті на інтелект випробуваними, мають низький рівень розвитку аналітичних здібностей).

Зазначене розрізнення трьох видів ПД вимагає різних підходів до аналізу даних. Оскільки в основу абсолютно випадково пропущених даних (MCAR) покладаються випадкові механізми, такі ПД можуть бути проігноровані в статистичному аналізі, тоді як ігнорування СПД - даних може привести до помилкових висновків. Таким чином, ПД вимагають від дослідника прийняття рішення про механізм, що лежить в основі патернів ПД. У разі невипадково пропущених даних ймовірне виникнення систематичних змішень, які можуть призвести до спотворення результатів дослідження.

 
<<   ЗМІСТ   >>