Тесты ситуационных суждений: преимущества и сложности | блог Новая
Развитие людей

SJT. Разработка инструмента оценки

Какие «подводные камни» встречаются в процессе разработки тестов ситуационного суждения

9 мин
155

SJT. Разработка инструмента оценки

Такой инструмент оценки, как SJT (Situational Judgement Tests), или же тесты ситуационных суждений, в постпандемийное время нарастил свою популярность и вышел за пределы «узких экспертных кругов», где его эффективность многократно была доказана в ходе практического применения, том числе экспертами BITOBE.

Значение термина SJT со временем не поменялась – это по-прежнему метод оценивания посредством моделирования рабочих ситуаций и различных подходов к их решению.

О том, как с его помощью оценивать будущие действия сотрудников, прогнозировать поведение руководителей и диагностировать ценностные разрывы, было подробно рассказано в соответствующих статьях блога «Новая эпоха управления».

Новый материал посвящен вопросу разработки и запуска инструмента – тому, с какими «подводными камнями» придется столкнуться в этих процессах разработчикам и заказчикам. И почему, несмотря на все эти особенности, SJT достоин внимания и того интереса, который к нему возникает.

«Подводные камни»

Зачем нужно об этом знать? Для того чтобы решение о внедрении тестов ситуационного суждения было обоснованным, а понимание о том, с чем придется столкнуться, максимально четким и понятным.

1. Модель компетенций/ценностей нуждается в доработке для задач оценки

Обычно модель компетенций/ценностей, с которой приходит заказчик, нуждается в доработке. Это связано с тем, что подобные модели иногда могут содержать пересекающиеся либо противоречивые смыслы.

Бывает такое, что индикаторы, заложенные в компетенции, к сожалению, не поддаются оценке с помощью SJT. Это важно учитывать.

«На заре моей работы с SJT как раз сложилась такая ситуация, когда мы не закладывали в контур проекта проработку модели компетенций, поскольку была договоренность с заказчиком, что этим займутся другие консультанты.

Но в итоге все равно эту работу пришлось делать нам.  Потому что та модель компетенций, которая подходит для измерения с помощью SJT, выглядит чуть иначе».

Екатерина Белоуско, эксперт BITOBЕ в направлении исследований и тестовых технологий

2. Требуется включенность сотрудников заказчика

Второй камень преткновения – это то, что всегда требуется включенность сотрудников заказчика.  Мы, конечно, стараемся минимизировать их участие, но тем не менее этого редко удается избежать.

Включенность сотрудников нужна на нескольких этапах:


Разработка заданий, когда мы собираем информацию. Без этого невозможно создать кейсы, которые будут отражать их деятельность.

Верификация, когда нам важно сверить созданные кейсы, действительно ли такие ситуации возможны в этой компании, действительно ли эти варианты ответа здесь допустимы для правильных ответов или недопустимы для неправильных. Важно такую сверку с реальностью произвести.

«Пилот» заданий, когда мы апробируем задания на выборке заказчика. Мы просим заказчика предоставить именно своих сотрудников. Это связано с тем, что важно нормировать задания на выборке, приближенной к целевой аудитории. Это могут быть только сотрудники заказчика, поскольку в каждой компании все равно есть свои особенности относительно выборки. То же самое касается и модели компетенций.

3. Часть заданий может потребовать корректировок после «пилота»

После «пилота» часть заданий подвергается корректировке, несмотря на то что соблюдается технология разработки, обеспечивающая высокое качество заданий. Бывает, что задание оказывается слишком простым для участников. Либо, наоборот, слишком трудным, и тогда важно его упростить.

Или какой-то из вариантов ответа может показаться участникам непривлекательным, и они не будут его выбирать именно по этой причине. Мы на этапе «пилота» отслеживаем такие моменты и стараемся их скорректировать.

Обычно мы рекомендуем разрабатывать банк заданий, чтобы была возможность заменить задание. Либо мы закладываем повторное пилотирование по тем заданиям, которые подвергались корректировке после первого «пилота».

4. SJT сложно оценить посредством стандартных психометрических параметров качества

Стандартные психометрические параметры не позволяют в полной мере оценить качество тестов ситуационных суждений. Например, надежность Альфа-Кронбаха по результатам мета-анализа Catano, Brochu & Lamerson, 2012 составляет 0,46. Или же то, что в формате SJT эффект ситуации сильнее эффекта измеряемого конструкта (компетенции), из-за чего может страдать конструктная валидность.

На данный момент исследователи и те компании, которые активно используют данный инструмент, сходятся во мнении, что для оценивания его качества важно использовать более сложные психометрические модели.

Но здесь возникает другая проблема. Она связана с тем, что на этапе первого «пилота» очень сложно набрать выборку, которая будет соответствовать требованиям для проведения сложных моделей.  Это порядка 300 человек как минимум.

Поэтому мы применяем инструменты анализа классической теории тестирования, но с учетом поправки о том, что у SJT есть свои нормативы в тех или иных показателях.

5. Технические ограничения влияют на модель теста и скоринг

Сейчас редко кто использует бланковый вариант тестов. Все-таки все стараются перевести это в компьютерные версии. И здесь следует заранее обсудить, на какой именно платформе будет реализован оценочный инструмент.

Это важно, чтобы понимать, как будет выглядеть задание, можем ли мы использовать только один ответ либо можем оценить эффективность всех имеющиеся вариантов действий? Можем ли мы добавить, например, иллюстрацию к кейсу? Можем ли мы использовать сложный ключ к тесту? Все это влияет на дизайн модели теста, который определяется в самом начале.

6. Разработка SJT – долгосрочный и трудоемкий процесс

Как разработчикам, так и заказчикам стоит принять то, что разработка SJT – это долгосрочный трудоемкий процесс и от этого никуда не деться.

Как правило, минимальный срок разработки составляет не менее 3 месяцев. Почему так долго? Мы тратим достаточно большое количество времени на то, чтобы проработать теоретическую модель, собрать ситуации, провести проверку качества (перекрестная проверка экспертами). Затем нужно время на «пилот».

«У нас был кейс, когда необходимо было провести 30 интервью. Изначально мы ставили сроки в две недели, но оказалось, что физически невозможно такое количество интервью провести за это время, хоть дефицита в экспертах, разрабатывающих задания, и не было. Просто сотрудники заказчика физически не могли выделить время в течение двух недель. Процесс растянулся». 

Мы стараемся минимизировать срок разработки. Тем не менее важно учитывать, что следует закладывать на это достаточное количество времени, чтобы инструмент получился качественным и решающим задачи заказчика.

7. Создание теста предполагает непрерывную работу над ним

Работа над тестом должна вестись постоянно. Это живой продукт, и важно отслеживать психометрические показания отдельных заданий всего теста в целом. С чем это может быть связано?

Возможно, сотрудники иногда могут передавать друг другу верные варианты ответа, если им удалось их как-то где-то подсмотреть. Статистика в этом случае фиксирует, что тест все стали проходить намного лучше. Тогда мы понимаем, что необходимо его обновлять, менять задания.

Аргументы в пользу SJT

Если есть столько «подводных камней», то стоит ли уделять SJT столько внимания? Как показывает практический опыт применения инструмента, стоит. И вот почему.

Это связано с теми преимуществами, которые он несет для заказчиков. В первую очередь, благодаря этому формату можно существенно сократить бюджет на оценку.

Кейс BITOBE
«Когда заказчик использовал готовые решения, он тратил намного больше денег на ежегодную оценку сотрудников. Проведя соответствующие расчеты, он выяснил, что разработка своего инструмента и его поддержание будет стоить дешевле». 

Второе – SJT позволяет высвободить время специалистов на более важные задачи. К примеру, мы можем дифференцировать кандидатов и сокращать воронку кандидатов на основе теста по ценностям. Специалист-рекрутер будет тратить свое время только на тех кандидатов, которые имеют наибольшую степень сходства с ценностями компании.

Третье – мы можем с помощью данного инструмента оценить именно те критерии, которые важны заказчику.