валидность теста что это
Надежность и валидность тестов
В любом эмпирическом исследовании по психологии используются психологические тесты. Часто от студентов требуют указывать данные об их надежности и валидности.
Надежность психологических тестов
В обычной жизни надежность человека или какого-либо предмета означает уверенность в том, что на него можно положиться. Как же проверяют, что на психологический тест можно положиться?
Первый способ проверки надежности психологического теста – анализ устойчивости результатов теста. Действительно, если результаты использования теста на одной и той же выборке существенно не меняются при нескольких тестированиях, то это может служить критерием его надежности.
Повторное тестирование называется ретест. Его проводят с интервалом от недели до года. Затем анализируют корреляции нескольких замеров. Если корреляции между результатами ретестов не ниже 0,76, то такой тест считается надежным.
Недостатки ретестовой проверки надежности психологического теста.
1. Некоторые психологические показатели неустойчивы и изменчивы. Например, измеряя настроение, самочувствие в разное время дня или в разные дни, можно получить разные результаты, и это не будет следствием ненадежности теста.
2. При неоднократном заполнении одного и того же теста испытуемые к нему «привыкают». Они могут помнить свои ответы и отвечать так же. Могут, наоборот, менять ответы в сторону социальной желательности. Таким образом, ретестовая надежность не будет в полной мере отражать надежность теста.
Второй способ проверки надежности психологического теста – анализ согласованности различных частей теста. Например, в тесте один показатель, который диагностируется 10-ю вопросами. Согласованность данного теста определяется высокой корреляцией ответов на каждый вопрос с общим результатом по шкале.
Часто для определения согласованности психологического теста его расщепляют на две части. Можно это сделать, отбирая вопросы через один. Можно разделить первую и вторую половину теста. Далее анализируют корреляции ответов двух расщепленных частей теста. Чем выше корреляция, тем выше согласованность теста и его надежность.
Итак, надежность психологического теста – это характеристика его формальной пригодности для диагностики психологических показателей. Например, если тест диагностики тревожности надежен, то это значит, что при его использовании на разных выборках, в разное время вы будете получать схожие результаты. Но будут ли эти результаты характеризовать именно тревожность испытуемых? Надежность психологического теста этого не гарантирует. За это отвечает другой показатель – валидность психологического теста.
Валидность психологических тестов
Валидность психологических тестов отражает соответствие их результатов сущности измеряемых психологических феноменов. Например, насколько результат теста агрессивности отражает реальный уровень агрессивности респондента.
Можно выделить два основных способа определения валидности психологических тестов.
Первый способ выявления валидности психологического теста предполагает соотнесение результатов теста с аналогичными показателями других тестов. Например, для проверки валидности теста на самооценку можно сделать следующее:
Такой способ позволяет выявить так называемую конструктную валидность. Она отражает соответствие выявляемого психологического показателя психологическому конструкту.
Второй способ выявления валидности психологического теста предполагает соотнесение результатов теста с внешними критериями. Такая валидность называется критериальная валидность психологического теста.
Например, показателем критериальной валидности теста склонности к отклоняющемуся поведению может быть реальное число правонарушений подростка. Применительно к тесту мотивации достижений показателем критериальной валидности может быть успешность выполнения той или иной деятельности.
Соотношение надежности и валидности психологических тестов
Надежность теста отражает его качество как метода диагностики, с точки зрения формальных показателей. Без учета содержательного анализа результатов.
Валидность оценивает именно содержательные результаты теста. Насколько они соответствуют реальным психологическим феноменам.
Надежный тест может не быть валидным. Например, тест инициативности может показывать высокую ретестовую надежность и согласованность частей. Однако, с содержательной точки зрения, результаты теста отражают не столько инициативность, сколько силу воли. То есть, надежность данного теста высокая, а валидность низкая.
В практике психологического тестирования надежность тестов с помощью ретеста. Валидность психологических тестов, как правило, проверяется с помощью анализа взаимосвязей с показателями других тестов, измеряющих аналогичные или схожие психологические показатели.
Примеры заключений о надежности и валидности психологически тестов
Тест смысложизненных ориентаций (СЖО)
Надежность теста СЖО проверялась с помощью ретестирования с интервалом в 2 недели (испытуемые — 76 студентов МГУ). Результаты по тесту оказались устойчивы на уровне значимости 5% (р
Автором теста СЖО, Д.А. Леотьевым, была проведена проверка конструктной валидности СЖО. Для этого была сформирована выборка, включавшая студентов московских ВУЗов общей численностью 24 человека (мужчин и женщин).
Было проведено тестирование испытуемых по тестам: СЖО, УСК (уровень субъективного контроля) и САТ (тест на уровень самоакутализации). Далее был проведен корреляционный анализ показателей СЖО с показателями тестов УСК и САТ.
Все шесть показателей теста СЖО значимо положительно коррелируют с общей интернальностью и с интернальностью в области достижений, а также (кроме третьей субшкалы) — с интернальностью в области семейных отношений. Отмечены также значимые корреляции пятой субшкалы СЖО с интернальностью в производственной сфере и по отношению к здоровью-болезни.
Показатели теста СЖО положительно значимо коррелируют со следующими шкалами теста САТ: шкалой опоры и познавательных потребностей — все шесть показателей; шкалами компетентности во времени, самоуважения и представления о природе человека — все, кроме первой субшкалы; шкалой ценностных ориентации — все, кроме общего показателя, и шкалой спонтанности — третья, четвертая и пятая субшкалы. С остальными шкалами CAT значимых корреляций обнаружено не было.
Достаточно высокий уровень взаимосвязи показателей теста смысложизненных ориентаций (СЖО) с показателями интернальности (тест УСК) и показателями самоакутализации (тест САТ) позволяет говорить о конструктной валидности теста СЖО.
Леонтьев Д.А. Тест смысложизненных ориентаций (СЖО). 2-е изд. М.: Смысл, 2000, 18 с.
Методика Ш. Шварца для изучения ценностей личности
Методика Ш. Шварца для изучения ценностей личности была адаптирована в России В.Н. Карандашевым.
Согласно автору русскоязычной адаптации валидность и надежность опросника Шварца обеспечивается:
— тем фактом, что в основе данной психодиагностической методики лежит четкая и теоретически обоснованная концепция ее автора, содержащая операционализированные характеристики ценностей;
— тем, что что при разработке оригинальной версии опросника использовались данные исследований по 54 странам.
Методика «Уровень соотношения Ценности и Доступности в различных жизненных сферах» (УСЦД) (Е.Б.Фанталова)
В методике Е.Б. Фанталовой «Уровень соотношения Ценности и Доступности в различных жизненных сферах» используется список из 12 ценностей, взятых из списка терминальных ценностей методики М. Рокича.
Таким образом, надежность и валидность методики Е.Б. Фанталовой определяется надежностью и валидностью списка ценностей М. Рокича.
Надежность теста ценностных ориентаций М.Рокича проверялась автором через устойчивость ценностной структуры к ретестированию через временные интервалы от 3 недель до 14-16 месяцев на выборках студентов колледжей. Для отдельных ценностей при ретестировании с интервалом 3-7 недель показатель устойчивости варьируется от 0,51 до 0,88 (терминальные ценности) и от 0,45 до 0,70 (инструментальные ценности). Для русскоязычного варианта методики при ретестировании с интервалом в 2 недели были получены средние показатели надежности 0,82 (для терминальных ценностей) и 0,79 (для инструментальных).
О валидности методики ценностных ориентаций М. Рокича (а, следовательно, и методики Е.Б. Фанталовой) косвенно свидетельствуют результаты, полученные при обследовании различных социальных групп. Различия в оценках одних и тех же ценностей мужчинами и женщинами достигают статистически значимых пределов для 12 из 18 терминальных ценностей и для 8 инструментальных.
Фанталова Е.Б. Об одном методическом подходе к исследованию мотивации и внутренних конфликтов // Психологический журнал, т. 13, 1992, N 1. С. 107-117.
Методика «Свободный выбор ценностей» Фанталовой Е.Б.
Методика «Свободный выбор ценностей» является составной частью ценностно-ориентированной системы автора «Диагностика внутреннего конфликта» (ДВК).
В данной методике Е.Б. Фанталова расширила список ценностей от 12 до 72. При этом надежность данной ценностной структуры и ее валидность автором не проверялась.
Фанталова Е.Б. Диагностика и психотерапия внутреннего конфликта. Самара, 2001.
Надеюсь, эта статья поможет вам написать работу по психологии самостоятельно. Если понадобится помощь, обращайтесь (все виды работ по психологии; статистические расчеты). Заказать
Валидность теста (или история о том, что нужно читать написанное мелким шрифтом)
Но если Вы не испытуемый, а тестирующий (не больной, а врач), то ВЫ ОБЯЗАНЫ вдумываться и вчитываться глубже. Ибо, увы, ту же самую окаянную ВАЛИДНОСТЬ можно измерить десятками разных способов и половина из этих способов будет в случае данного теста совсем не корректной. К сожалению, слишком редко даже известные западные производители вполне честно реализуют исследование валидности своих собственных инструментов.
Главный редактор ht.ru А.Г.Шмелев*
У меня есть давний интерес к российскому рынку психодиагностики/психометрики. В свое время даже обзорную статью по сабжу подготовил, по-моему она до сих пор не потеряла актуальность.
Сегодня хочу поделиться одним интересным наблюдением, иллюстрирующим текущее состояние рынка. Сразу предупреждаю: (1) я буду ёрничать; (2) всё изложенное ниже моё ИМХО как частного лица, интересующегося темой.
Питер Сэвилл умеет делать качественный продукт, тут ничего не скажешь. В анамнезе у него вся продуктовая линейка SHL (версии до 2000 года). И с маркетингом у него тоже всегда было ОК. Тот же SHL, будучи публичной компанией, кормит акционеров бутербродами с икрой, давно и стабильно.
На сайте российского дистрибьютора инфы нет, поэтому идем к Сэвиллу и ищем тех.отчеты по Wave (они обязательно должны быть, это общеевропейский стандарт EFPA). После возни с регистрацией находим нужный документ и читаем. Мануал к тесту внушительный, несколько томов. Видно, что работало много людей и работали они долго. Данных набрали очень много, хотя количество не всегда переходит в качество. Не вдаваясь в подробности, опишу несколько ключевых выводов по прочтении:
Соответственно, к прочитанному возникает несколько комментариев:
Вывод: нажатие на «болевые точки» пока что выглядят немножко как развод не очень просвещенной и ленивой до информации публики. Важно и нужно выстраивать пиар оценочных технологий вокруг их качества, но сначала нужно немножко разобраться с этим самым качеством. Что оно такое и как его измерить? И публике объяснить. А то получается как в анекдоте про Петьку с Василий Иванычем про приборы и «17».
Получается, что рынок уже готов потреблять инфу про валидность (и это гуд), но что это такое конкретно, пока ни для кого не имеет значения. Магия цифр, и всё на мази. Нужно с этим что-то делать.
Я искренне надеюсь, что у ребят хватит смелости и денег провести российский ресерч. Это правда сложная задача, особенно в отношении опросников. Но до этого времени я бы порекомендовал несколько поубавить пыл и подписать, что это 0,57 означает (ну или вообще убрать это до поры).
P.S. Друзья, требуйте от производителя:
1. Исследования качества их инструментов.
2. Проведенные на российских выборках с помощью российских инструментов.
3. Свежие и честные данные о валидности и надежности.
4. Тех.мануал, в котором подробно описано всё про п. 1-3.
В вашей почте раз в неделю. А еще: новости, акции и мероприятия для HR.
Валидность (психология)
Вали́дность (англ. validity ) — мера соответствия того, насколько методика и результаты исследования соответствуют поставленным задачам. В частности, валидность считается фундаментальным понятием экспериментальной психологии и психодиагностики.
Как в экспериментальной психологии, так и в статистике валидное измерение — такое измерение, которое измеряет то, что оно должно измерять. То есть, к примеру, при валидном измерении интеллекта измеряется именно интеллект, а не что-то другое. Безупречный эксперимент (возможный лишь в теории) будет обладать безупречной валидностью: он будет точно показывать, что экспериментальный эффект был вызван изменением независимой переменной, он будет полностью соответствовать реальности, его результаты можно обобщить без ограничений.
Когда говорят о степени валидности, рассматривается то, насколько результаты исследования соответствуют поставленным задачам (однако при этом валидность не измеряется в каких-либо условных единицах).
Содержание
Способы установления валидности теста
Существуют четыре основных способа установления валидности теста.
I. Оценка очевидной валидности.
Очевидная валидность – валидность, при которой оценивается общее соответствие теста его назначению.
II. Оценка содержательной валидности.
Содержательная валидность предполагает, что тест обнаруживает в себе полный набор заданий для измерения определенной черты.
III. Оценка конструктной валидности.
Этот способ проверки заключается в проведении продуманных экспериментов. Подход первый — «конвергентная валидизация» — это проверка ожидаемой связи тестовых оценок с другими показателями. Например, если для измерения какой-либо черты существует несколько методик, целесообразным было бы провести эксперименты по хотя бы двум, и тогда при обнаружении высокой положительной корреляции их результатов между собой можно говорить о валидности. Основной целью конвергентной валидизации является определение того, будут ли оценки теста варьироваться в соответствии с ожиданиями. Подход второй — «дивергентная валидизация» (англ.). Проверка валидности здесь заключается в том, что тест не должен измерять никакой черты, с которой он теоретически и не должен быть связан.
IV. Оценка прогностической валидности.
Прогностическая валидность заключается в том, что психологический тест часто используется для прогноза поведения. Соответственно, если прогноз оправдывается с течением времени, это говорит о том, что тест был валидным. Но для характеристики многих видов деятельности этого метода не достаточно.
валидность теста
(от англ. valid – пригодный) – критерий качества теста, используемый при выяснении степени достоверности измерения того психического свойства, качества, явления, которое хотят измерить с помощью данного теста. Различают несколько видов в.т.: в.т. конструктивная, в.т. по критерию, в.т. по содержанию, прогностическая в.т. и др. Валидность лучших тестов, выраженная коэффициентами корреляции (линейными, ранговыми и др.) составляет 0,3-0,8. К сожалению, есть случаи, когда тесты применяются без проверки их на в. В результате оказывается, что они бесполезны или даже вредны. В. т. – это показатель степени его эффективности. Она, естественно, меняется в зависимости от контингента людей, которые подвергаются тестированию, и характера их будущей деятельности. Один и тот же тест может быть высоковалидным для одной ситуации, бесполезным для другой и вредным для третьей.
* * *
(от англ. valid – действительный, пригодный, действенный) – один из основных (наряду с надежностью, репрезентативностью, объективностью, достоверностью и эффективностью) критериев оценки тестовых результатов. Понятие В. т. отражает идею обязательной практической (применительно к науке, эмпирической) проверки качества измерения. Если раньше понятие «В. т.» чаще др. ассоциировалось с понятием «качество теста», то в последние годы все больше обозначается роль интерпретации тестовых результатов. Таким образом, В. т. – это, прежде всего, адекватность интерпретации тестовых результатов по отношению к цели тестирования. В контексте прикладной задачи В. т. представляет собой не столько критерий качества теста, сколько показатель меры соответствия теста цели тестирования. В. т. – критерий его доброкачественности, действительной оценки с его помощью того свойства, для определения которого тест создан. Напр., В. т. к. Томаса определяется тем, насколько результаты тестирования соответствуют реальному выбору человеком каждой из 5 стратегий поведения в проблемных ситуациях общения.
Полезное
Смотреть что такое «валидность теста» в других словарях:
валидность теста — (от англ. valid действительный, пригодный, действенный) один из основных (наряду с надежностью, репрезентативностью, объективностью, достоверностью и эффективностью) критериев оценки тестовых результатов. Понятие В. отражает прагматическую идею… … Большая психологическая энциклопедия
Валидность Теста — действительная способность теста измерять ту психологическую характеристику, для диагностики которой он заявлен. Количественно валидность теста может выражаться через корреляции результатов, полученных с его помощью, с другими показателями,… … Психологический словарь
Валидность теста — – адекватность и действенность теста, важнейший критерий его доброкачественности, характеризующий точность измерения исследуемого свойства, а также насколько тест отражает то, что он должен оценивать, насколько отдельные составляющие его пробы… … Словарь-справочник по социальной работе
валидность теста — testo validumas statusas T sritis Kūno kultūra ir sportas apibrėžtis Svarbiausias kokybinis testo požymis, rodantis tiriamosios savybės matavimų tikslumą, testavimo rodiklių atitikimą norimai ypatybei, vyksmui įvertinti. atitikmenys: angl. test… … Sporto terminų žodynas
ВАЛИДНОСТЬ ТЕСТА — ВАЛИДНОСТЬ (от лат. validus – крепкий, здоровый) ТЕСТА. Адекватность и действенность теста. Критерий доброкачественности теста, характеризующий точность измерения исследуемого свойства, характеристики, а также позволяющий оценить, насколько… … Новый словарь методических терминов и понятий (теория и практика обучения языкам)
Валидность теста — (отангл. valid действительный, пригодный, действенный) 1) адекватность и действенность теста важнейший критерий его доброкачественности, характеризующий точность измерения исследуемого свойства, а также насколько тест отражает то, что он должен… … Словарь-справочник по педагогической психологии
Валидность теста — (отангл. valid действительный, пригодный, действенный) 1) адекватность и действенность теста важнейший критерий его доброкачественности, характеризующий точность измерения исследуемого свойства, а также насколько тест отражает то, что он должен… … Словарь по педагогической психологии
валидность теста по критерию — критерий качества теста, с помощью которого можно судить об интересующем нас аспекте психики индивида в настоящем и будущем. Для его определения необходимо сопоставить результаты тестирования с уровнем развития измеряемого признака, качества… … Энциклопедический словарь по психологии и педагогике
валидность теста по содержанию — критерий качества теста, используемый при вывяснении соответствия его области измеряемых психических явлений. В.т.к. показывает, насколько полно тест охватывает исследуемое множество измеряемых параметров. Если, например, нужно проверить с… … Энциклопедический словарь по психологии и педагогике
валидность теста конструктивная — критерий качества теста, используемый при измерении какого либо сложного психического феномена, имеющего иерархическую структуру, измерить который из за этого одним актом тестирования невозможно. Так, психодиагностика интеллекта невозможна без… … Энциклопедический словарь по психологии и педагогике
Особенности определения валидности педагогического теста
Педагогические науки
Похожие материалы
Педагогический тест сегодня стал одним из наиболее распространенных инновационных педагогических инструментов контроля качества образовательного процесса. Так или иначе, в своей деятельности педагоги сталкиваются с необходимостью разработать педагогический тест. Созданный тест необходимо проверить на его качество. Одним из показателей качества теста является проверка его на валидность.
Понятие «валидность» произошло от анг. слова «valid», что в переводе означает «годный». Валидность — один из базовых показателей качества созданного теста, характеризует пригодность результатов полученных после тестирования именно для той цели, ради которой и проводилось само тестирование.
Аванесов В.С. в своей статье «Тесты: история и теория» пишет: «Валидность характеризует пригодность теста для измерения определенной величины, но нельзя говорить о валидности не указав его применения» [2]. Приведем пример для понимания смысла валидности. Два лучника стреляют по мишеням. Первый лучник набрал 70 очков, а второй 80 из 100. На первый взгляд кажется, что второй лучник лучше первого. Но при уточнении результатов оказалось, что второй лучник поразил чужую мишень. Поэтому, второй стрелок является «не валидным», он не может достигнуть цели, которая перед ним ставилась.
В научной работе Майорова А. «Теория и практика создания тестов для системы образования» говорится «Валидность — должна определять насколько тест может отражать то, что он должен оценивать» [6].
Валидизация теста, это ни что иное, как процесс накопления подтверждений для доказательства его валидности. В теории тестирования существует несколько классификаций валидности. Майоров А. выделяет три вида валидности: конструктная, критериальная и содержательная [6].
Конструктная валидность — определяется в тех случаях, когда представление об измеряемом свойстве существует в форме абстрактного образа. В критериальной или эмпирической валидности оценивается величина связи теста с независимыми критериями. Для оценки степени связи используются средства математической статистики (корреляция двух рядов значений: баллов по тесту и показателей по внешним параметрам). При этом можно выделить два подвида: текущая и прогностическая валидность. Текущая валидность рассматривает корреляцию с критерием существующим в настоящее время (например, тест по предмету сравнивается со школьными оценками). Прогностическая валидность определяется на основе сравнения результатов с критериями которые предположительно появятся в будущем (например, результаты прошлого года переносим на следующий год).
Содержательная валидность характеризует тест по степени его соответствия предметной области, глубина и проработка соответствия. Анна Анастази пишет «Содержательная валидность означает систематическую проверку содержания теста, с тем чтобы установить соответствует ли оно репрезентативной выборке измеряемой области» [4].
Согласно Клайну П., тест с высокой содержательной валидностью можно определить следующим образом [5]:
Вычислить числовой коэффициент валидности теста означает эмпирически установить, как выполнение теста испытуемыми соотносится с другими независимо опредленными оценками их знаний. Для определения валидности требуется независимый внешний критерий, то есть оценка эксперта (преподавателя). За коэффициент валидности принимают коэффициент корреляции результатов тестовых измерений и критерия. Если экспертная оценка знаний испытуемых, полученная независимо от процедуры тестирования, представлена числовой последовательностью Y1,Y2, …, Yn, то коэффициент валидности теста может быть рассчитан по формуле, предложенной в своих работой Анастази А., Аванесовым В.С [1, 3, 4, 7]:
где n — количество испытуемых, Y_i
— экспертная оценка i-го учащегося, \bar
— средняя арифметическая экспертных оценок, S_Y
— стандартное отклонение экспертных оценок, y_i
— количество правильных ответов у i-го учащегося, — \bar
средняя арифметическая количества правильных ответов, S_y
— стандартное отклонение количества правильных ответов.