D E M O C R A T O P I A

Técnicas Psicométricas

Tabla de contenidos

VERSIÓN 1.1

Introducción: Definición de test psicométrico

Los test psicométricos son herramientas de evaluación basadas en la Psicometría, una especialidad de la psicología enfocada en las mediciones mentales. Estos test se diseñan para medir características humanas y atributos. Originados en el inicio del siglo XX con la Escala Métrica de la Inteligencia de Binet y Simon, han evolucionado a lo largo de los años en paralelo con los avances en psicometría.

Los test se han convertido en instrumentos esenciales en la evaluación psicológica. Ayudan a capturar una muestra de la conducta de los individuos en contextos específicos, y al hacerlo de forma estandarizada, permiten comparaciones precisas entre individuos o a lo largo del tiempo para una sola persona.

El término «test» ha sido adoptado globalmente en psicología y educación, aunque se pueden encontrar términos similares como escala, cuestionario, inventario y batería, todos refiriéndose al concepto central de evaluación estandarizada.

Para que un instrumento de evaluación sea considerado un test psicométrico, debe cumplir ciertas características. Es esencial que el test sea estructurado, objetivo, estandarizado y que permita comparaciones basadas en un grupo de referencia preestablecido. Además, debe ser fiable y válido, es decir, producir resultados consistentes y medir lo que pretende medir.

Vale la pena mencionar que, aunque los test son herramientas poderosas, su uso indebido puede conducir a interpretaciones erróneas. Por lo tanto, es esencial que los profesionales utilicen y interpreten los test de manera responsable y fundamentada.

Por último, aunque los test psicométricos han sido tradicionalmente populares en áreas como la evaluación de la inteligencia y la personalidad, también se han desarrollado para evaluar rasgos y actitudes específicas. Ya sea en un contexto clínico, educativo o profesional, los test psicométricos siguen siendo una herramienta esencial en el campo de la psicología.

⭐Clasificación de los test

Los test psicométricos, herramientas valiosas para evaluar diversos aspectos del comportamiento humano, pueden ser categorizados de varias maneras dependiendo de su función, formato y aplicación. Siguiendo a Martínez-Arias, Hernández-LLoreda y Hernández-Lloreda (2006), las clasificaciones más usuales en contextos educativos y psicológicos incluyen:

  1. Consecuencias para el Sujeto:
  2. Planteamiento del Problema y Tipo de Respuesta:
  3. Área de Comportamiento Acotada:
  4. Modalidad de Aplicación:
    • Individual/Colectivo.
    • Autoinformado.
    • Papel y lápiz/Ordenador.
    • Adaptativo/No adaptativo.
    • Instrucciones orales/Escritas.
    • Corrección manual/Informatizada.
  5. Demandas Temporales:
    • Test de rapidez o velocidad.
    • Test de potencia.
  6. Grado de Aculturación o Demandas Específicas de una Cultura.
  7. Modelo Estadístico:
  8. Tipo de Interpretación de las Puntuaciones:
    • Test Referidos a la Norma (TRN): Comparan la actuación de un individuo con un grupo normativo.
    • Test Referidos al Criterio (TRC): Miden la puntuación de un sujeto en relación con un criterio de actuación predefinido.
  9. Otros Criterios de Clasificación:
    • Tipo de material: lápiz y papel, verbal, ejecución manual, aparatos especiales, etc.
    • Edades de aplicación: bebés, niños de infantil, niños escolares, adultos, tercera edad.

Esta clasificación proporciona una visión general y detallada de cómo se estructuran y aplican los test psicométricos, asegurando que los profesionales y educadores puedan seleccionar y aplicar el test adecuado para el propósito deseado.

⭐Diferentes usos de los test psicológicos

Los test psicométricos, como herramientas esenciales en la evaluación y la investigación, tienen múltiples aplicaciones en diversos contextos. Martínez-Arias, Hernández-Lloreda y Hernández-Lloreda (2006) sugieren varias maneras en que los psicólogos y otros profesionales utilizan estos test según diferentes necesidades:

  1. Determinar el Nivel de Instrucción o Habilidad: Identificar si una persona tiene dominio sobre ciertos conocimientos o habilidades. Estos test suelen ser referidos a criterio.
  2. Diagnóstico: Estos test identifican áreas problemáticas o deficiencias en el comportamiento, con el propósito de intervenir o aplicar un tratamiento adecuado.
  3. Selección: Están diseñados para identificar y seleccionar individuos basados en sus habilidades o aptitudes para una tarea específica, como en procesos de empleo.
  4. Asignación: Determinan el nivel adecuado o la categorización de un individuo dentro de un sistema, ya sea en un contexto laboral o educativo.
  5. Clasificación: Similar a la asignación, pero se centra en determinar la categoría más adecuada para un individuo, como en clasificaciones diagnósticas.
  6. Orientación o Consejo: Estos test proporcionan dirección y guía sobre comportamientos futuros o decisiones, como la orientación profesional en adolescentes.
  7. «Screening» o Cribado: Se usan para identificar rápidamente posibles problemas o trastornos. Son herramientas iniciales que, si detectan un problema, llevan a evaluaciones más detalladas.

Por otro lado, Urbina (2007) sugiere que los usos de los test pueden agruparse en tres categorías principales:

  • a) Toma de Decisiones: Enfocado en decisiones prácticas sobre individuos o grupos.
  • b) Investigación Científica: Para estudiar fenómenos y diferencias individuales.
  • c) Terapéutica: Ayudando en el proceso terapéutico para mejorar la autocomprensión y el ajuste psicológico.

Independientemente del enfoque o la clasificación, es evidente que los test psicométricos desempeñan un papel fundamental en la psicología y en áreas relacionadas, permitiendo una evaluación objetiva y estructurada de los individuos.

Fases en la elaboración de un test

El desarrollo de un test psicométrico es una tarea intrincada, que exige meticulosidad y rigor. Aunque la creación de un instrumento de alta calidad implica adherirse a protocolos específicos, existe una diversidad de opiniones entre los expertos respecto a la cantidad y naturaleza de los pasos necesarios en este proceso.

Downing (2006) y Lane, Raymond y Haladyna (2016) apuntan a un procedimiento de doce etapas, en contraste, Muñiz y Fonseca-Pedrero (2019) identifican diez fases cruciales para desarrollar y validar un test psicométrico. Según la perspectiva de estos últimos, los pasos son:

  1. Establecimiento del marco general.
  2. Definición de la variable medida.
  3. Especificaciones.
  4. Construcción de los ítems.
  5. Edición.
  6. Estudio piloto.
  7. Selección de otros instrumentos de medida.
  8. Aplicación del test.
  9. Evaluación de propiedades psicométricas.
  10. Desarrollo de la versión final del test.

A pesar de las variaciones en los enfoques, la necesidad de un marco estructurado es unánime, crucial para asegurar la validez, fiabilidad y aplicabilidad del instrumento. En esta línea, proponemos una estructura de ocho pasos, que aunque simplificada, se alinea con las recomendaciones más recientes de la American Educational Research Association (AERA), la American Psychological Association (APA) y el National Council on Measurement in Education (NCME) (2014).

Este procedimiento octagonal abarca desde la conceptualización inicial, la creación y revisión de ítems, hasta la validación y revisión final, asegurando que cada test psicométrico sea un instrumento preciso, confiable y éticamente sonoro para medir variables psicológicas específicas. El objetivo primordial es que cada test, independientemente del número de pasos seguidos en su construcción, sea un reflejo fidedigno de la rigurosidad, la integridad y la excelencia en la evaluación psicométrica.

Justificación teórica y definición

El proceso inicial en la elaboración de un test psicométrico requiere una clarificación detallada del propósito detrás de su creación. Es fundamental comprender no solo lo que se busca medir, sino también a quién se pretende evaluar y con qué finalidad. En este marco, se pueden identificar tres consideraciones esenciales:

a) Definición del Constructo a Medir: En la psicología, muchas veces nos enfrentamos al desafío de evaluar constructos abstractos, es decir, variables que no se pueden observar directamente, como la inteligencia, la atención o la ansiedad. Sin embargo, estos constructos se manifiestan a través de comportamientos específicos que sí pueden ser observados y medidos. Por ejemplo, si bien no podemos medir directamente el constructo de «memoria», podemos evaluar la capacidad de un individuo para recordar una serie de elementos después de un período de estudio. Estos comportamientos, que sirven como indicadores del constructo, deben ser consistentes en diferentes situaciones y momentos. Los ítems del test deben estar diseñados para capturar y reflejar estos comportamientos indicativos.

b) Determinación de la Población Objetivo: Es vital establecer claramente a quién está destinado el test. ¿Es para niños, adolescentes, adultos o ancianos? ¿Está diseñado para personas con un cierto nivel educativo o cultural? Identificar las características demográficas y psicosociales de la población objetivo asegura que el test sea relevante y apropiado para quienes está diseñado.

c) Propósito del Test: Es esencial determinar la finalidad principal del test. ¿Se busca evaluar el nivel de habilidad o conocimiento de un individuo en un área específica? ¿O es para diagnosticar algún trastorno o condición particular? Otros usos comunes incluyen la selección de candidatos para un puesto o programa, la asignación de individuos a categorías específicas, la orientación vocacional o académica, o la detección temprana de condiciones o trastornos (screening). Conocer la finalidad del test ayuda a garantizar que se diseñe de manera que proporcione información relevante y útil para la toma de decisiones.

En conjunto, estas consideraciones iniciales son fundamentales para garantizar que el test sea válido, confiable y útil para los propósitos previstos. Se busca asegurar que el instrumento mida con precisión lo que se pretende medir, sea aplicable a la población adecuada y proporcione información valiosa para las decisiones basadas en los resultados del test.

Definición operativa de la variable o constructo que se quiere medir

La conversión de un constructo abstracto a un término operativo es un paso crítico en el desarrollo de un test psicométrico. Es esencial poder medir empíricamente lo que, en un inicio, es una idea conceptual. El proceso implica una serie de etapas cuidadosamente planificadas para garantizar que el constructo sea evaluado con precisión y validez.

Pasos para Definir Operativamente un Constructo:

  1. Revisión de la Literatura:
    • Objetivo: Obtener una comprensión profunda y comprensiva del constructo.
    • Proceso: Analizar estudios previos, teorías existentes y otros recursos académicos relevantes.
    • Resultado: Identificación de las definiciones existentes, dimensiones y aspectos asociados del constructo.
  2. Delimitación del Constructo:
    • Objetivo: Refinar y especificar claramente lo que se va a medir.
    • Proceso: Identificar y describir las dimensiones clave y los aspectos del constructo.
    • Resultado: Un constructo bien definido, con sus componentes claramente delineados.
  3. Identificación de Comportamientos Indicadores:
    • Objetivo: Seleccionar los comportamientos observables que representan el constructo.
    • Proceso: Usar métodos como el análisis de contenido, la observación directa o el juicio de expertos.
    • Resultado: Una lista de comportamientos específicos que son indicativos del constructo.
  4. Definición Operativa:
    • Objetivo: Convertir la definición conceptual en una definición mensurable.
    • Proceso: Crear tareas, preguntas o situaciones específicas que permitan la observación y medición del constructo.
    • Resultado: Una definición que facilita la medición empírica y la evaluación.

Ejemplo: Creatividad

  • Definición Conceptual: Capacidad de generar ideas únicas y originales.
  • Definición Operativa: La cantidad y originalidad de las respuestas dadas a la tarea de listar diez usos alternativos para un objeto común, como un clip.

Estrategias Utilizadas:

  • Análisis de Contenido: Examinar documentos, registros y otros materiales escritos para identificar comportamientos y características asociadas con la creatividad.
  • Observación Directa: Observar a individuos en situaciones específicas para identificar comportamientos indicativos de creatividad.
  • Juicio de Expertos: Consultar a expertos en el campo para identificar comportamientos y características asociados con la creatividad.
  • Incidentes Críticos: Identificar eventos o situaciones donde la creatividad fue claramente demostrada para entender sus manifestaciones.

En resumen, la definición operativa de un constructo es crucial para garantizar que sea medible y evaluable de manera empírica. Permite la transición de una idea abstracta a un fenómeno observable y mensurable, facilitando así la creación de herramientas de evaluación efectivas y confiables.

Requerimientos para la aplicación del instrumento de medida

El proceso de desarrollar un test, especialmente uno de naturaleza psicométrica, es meticuloso y requiere atención a diversos aspectos para garantizar que sea válido, confiable y útil para su propósito específico. Algunas de las consideraciones primordiales al desarrollar y aplicar un instrumento de medición incluyen:

Requerimientos para la Aplicación del Instrumento:

  1. Restricciones Temporales:
    • ¿Cuánto tiempo se necesita para completar el test?
    • ¿Se necesita un tiempo fijo o puede variar según el participante?
  2. Modalidad de Aplicación:
    • ¿Se administrará el test de forma individual o en grupo?
    • ¿Será administrado por un profesional o será autoaplicado?
  3. Soporte de Administración:
    • ¿El test se administrará en papel y lápiz o en formato digital?
    • Si es digital, ¿se necesita un dispositivo específico o software especializado?
  4. Ubicación y Contexto:
    • ¿El test se realizará en un ambiente controlado como un laboratorio o en un entorno más abierto?
    • ¿Es necesario un ambiente silencioso o se pueden tolerar algunas distracciones?
  5. Requerimientos del Participante:
    • ¿El test tiene restricciones de edad, capacidad cognitiva o nivel educativo?
    • ¿Es necesario adaptar el test para participantes con discapacidades o necesidades específicas?

Características de los Ítems:

  1. Tipo y Formato:
    • ¿Serán preguntas de opción múltiple, verdadero/falso, escala Likert, respuesta abierta?
  2. Número de Ítems:
    • ¿Cuántas preguntas se incluirán en total?
  3. Longitud:
    • ¿Cuánto texto contendrá cada ítem? ¿Serán preguntas cortas o escenarios extensos?
  4. Contenido:
    • ¿Qué áreas del constructo medirán los ítems?
  5. Orden:
    • ¿Se presentarán en un orden específico o al azar?
  6. Formato de Respuesta:
    • ¿Cómo responderán los participantes a cada ítem?

El diseño y desarrollo de un test son tareas adaptativas. Aunque existen prácticas y directrices recomendadas en la literatura, como las señaladas por Muñiz y Fonseca-Pedrero (2008), las decisiones específicas dependerán del propósito del test, las características de la población objetivo y el contexto en el que se planea utilizar el instrumento.

Construcción y evaluación cualitativa de los ítems

La construcción y evaluación cualitativa de los ítems en un instrumento de evaluación es una etapa crucial en el desarrollo de pruebas psicométricas. Los ítems deben ser diseñados para capturar con precisión el constructo que se pretende medir.

La calidad de los ítems es esencial. Si un ítem es ambiguo o mal formulado, puede sesgar los resultados, afectar la validez del test y, en última instancia, llevar a interpretaciones erróneas. Por tanto, una construcción detallada y reflexiva es esencial para garantizar que el instrumento de medida sea válido y confiable.

Principios para la Construcción de Ítems:

  1. Representatividad: Los ítems deben ser una muestra representativa del dominio completo del constructo que se está midiendo.
  2. Relevancia: Cada ítem debe ser pertinente y significativo en relación con el constructo.
  3. Diversidad: Debe evitarse la monotonía en la presentación de los ítems.
  4. Claridad: Los ítems deben ser claros y directos, evitando ambigüedades.
  5. Sencillez: Se debe utilizar un lenguaje sencillo y directo, evitando jergas o terminologías complejas.
  6. Comprensibilidad: Los ítems deben ser fácilmente entendidos por la población objetivo.

Consideraciones Adicionales:

  • Formato de Respuesta: Escoger el tipo de respuesta (p.ej., elección múltiple, escala Likert) que mejor capture el constructo.
  • Evitar Redundancia: Aunque algunos ítems pueden medir aspectos similares, es crucial evitar la repetición innecesaria.
  • Ítems Positivos y Negativos: Intercalar estos ítems puede ayudar a reducir los sesgos de respuesta.

Adaptación de Ítems en Diferentes Idiomas: Al adaptar un instrumento a un nuevo idioma o cultura, es esencial garantizar que los ítems conserven su significado original y sean culturalmente apropiados. Las estrategias de traducción hacia delante y hacia atrás, como sugieren Hambleton (1996) y Muñiz y Hambleton (1996), pueden ayudar a lograr este equilibrio entre exactitud y relevancia cultural.

En resumen, la calidad y precisión de los ítems son fundamentales para la validez y fiabilidad de cualquier instrumento de medida. El proceso de diseño y evaluación de ítems es tanto un arte como una ciencia, y requiere tanto de habilidades analíticas como de sensibilidad hacia la población objetivo y el constructo que se mide.

⭐⭐Estudio piloto cualitativo y cuantitativo

La fase del estudio piloto en el desarrollo de un instrumento de medida es crucial para identificar posibles problemas en el diseño, formato o contenido del instrumento antes de su aplicación en una muestra más grande o en el estudio principal. Esta fase permite realizar ajustes necesarios y mejorar la calidad del instrumento.

Estudio Piloto Cualitativo: La perspectiva cualitativa en un estudio piloto se centra en obtener retroalimentación detallada sobre la experiencia de los participantes al completar el instrumento.

  1. Ítems problemáticos: Pueden ser aquellos ítems que los participantes encuentran confusos o ambiguos.
  2. Comprensión de las instrucciones: Es esencial que las instrucciones sean claras y fáciles de seguir para todos los participantes.
  3. Formato del instrumento: Problemas con el diseño visual, la disposición de los ítems o la facilidad de marcar respuestas.
  4. Errores semánticos: Palabras o frases que pueden ser malinterpretadas o que no se entienden claramente.
  5. Feedback general: Cualquier otro comentario o sugerencia que los participantes puedan ofrecer para mejorar el instrumento.

Estudio Piloto Cuantitativo: El aspecto cuantitativo del estudio piloto se centra en analizar las respuestas de los participantes utilizando técnicas estadísticas para evaluar el funcionamiento de cada ítem.

  1. Media y Varianza de cada ítem: Estos valores proporcionan una idea de cómo se distribuyen las respuestas y si hay una variabilidad adecuada en las respuestas.
  2. Índice de dificultad: Indica qué proporción de participantes respondió correctamente a un ítem. Es relevante principalmente para ítems de elección múltiple.
  3. Índice de discriminación: Muestra cómo un ítem discrimina entre participantes que obtuvieron puntajes altos y bajos en la prueba.
  4. Homogeneidad de los ítems: Evalúa si los ítems miden de manera coherente el mismo constructo.
  5. Correlación ítem-prueba: Evalúa la relación entre el rendimiento de un ítem individual y el rendimiento total en el test.
  6. Cargas factoriales: En un análisis factorial, estas cargas pueden ayudar a determinar qué ítems se agrupan juntos, indicando subdimensiones dentro del constructo principal.
  7. Funcionamiento diferencial de los ítems (FDI): Evalúa si un ítem funciona de manera diferente para diferentes grupos, por ejemplo, según género o etnia.

Tras realizar el estudio piloto, es esencial revisar y modificar el instrumento según sea necesario, basándose en los hallazgos cualitativos y cuantitativos. Esta revisión ayuda a garantizar que el instrumento final sea válido, confiable y adecuado para su propósito.

⭐Selección de otros instrumentos de medida convergentes

La selección de otros instrumentos de medida convergentes es esencial para establecer la validez convergente de un nuevo test o instrumento. Esta validez se refiere a la medida en que las puntuaciones de un test están relacionadas con las puntuaciones de otros tests que miden constructos similares o relacionados. Al comparar las puntuaciones de un nuevo instrumento con las de instrumentos establecidos y validados previamente, se pueden obtener evidencias sólidas sobre si el nuevo test mide de manera adecuada el constructo de interés.

Aspectos a considerar al seleccionar instrumentos convergentes:

  1. Validación previa: Es esencial seleccionar instrumentos que ya hayan sido validados y que hayan demostrado propiedades psicométricas sólidas en investigaciones anteriores. Esto garantiza que las comparaciones realizadas son fiables y válidas.
  2. Relevancia del constructo: Los instrumentos seleccionados deben medir constructos que sean teóricamente relevantes y relacionados con el constructo del nuevo test. Esta relación teórica es crucial para establecer validez convergente.
  3. Facilidad de administración: Es práctico seleccionar instrumentos que sean fáciles de administrar, especialmente si se planea administrar varios instrumentos a la vez. Esto ayuda a reducir la fatiga y la carga para los participantes y facilita la recopilación de datos.
  4. Tiempo de administración: Considerar el tiempo total necesario para administrar todos los instrumentos seleccionados. Es aconsejable elegir instrumentos que no sean demasiado largos para evitar sobrecargar a los participantes.
  5. Coherencia sustantiva: Esta es la relación lógica y teórica entre los constructos medidos por los diferentes instrumentos. Se debe poder justificar teóricamente por qué se espera que los constructos estén relacionados y cómo se espera que se relacionen.
  6. Costo y accesibilidad: Algunos instrumentos pueden tener costos asociados o requerir licencias para su uso. Es esencial considerar estos factores prácticos al seleccionar instrumentos.

En resumen, al seleccionar otros instrumentos de medida convergentes, es vital garantizar que estos instrumentos sean relevantes, confiables y válidos. Estas comparaciones proporcionan una base sólida para evaluar la validez del nuevo instrumento y ayudan a asegurar que esté midiendo el constructo de interés de manera adecuada.

⭐⭐Estudio de campo y estimación de las propiedades métricas del instrumento

La fase de estudio de campo y la estimación de las propiedades métricas del instrumento es crítica en la construcción de un test psicométrico. Esta etapa asegura que el instrumento es confiable, válido y generalizable para su población objetivo. Los siguientes puntos resumen y expanden la importancia y los procedimientos involucrados en esta fase:

  1. Muestra Representativa: Una muestra adecuada es esencial para generalizar los resultados a la población más amplia. Una muestra representativa asegura que las características demográficas, socioeconómicas y otras variables relevantes de la muestra reflejan las de la población en su conjunto.
  2. Muestreo Probabilístico: Siempre se prefiere el muestreo probabilístico al no probabilístico, ya que permite hacer inferencias estadísticas más robustas sobre la población. Esto significa que cada miembro de la población tiene una probabilidad conocida de ser seleccionado.
  3. Tamaño de la Muestra: El tamaño de la muestra debe ser lo suficientemente grande para ofrecer una estimación precisa de las propiedades métricas del instrumento. Es recomendable que por cada ítem administrado tengamos al menos 5 ó 10 personas, si bien los requisitos del tamaño de la muestra pueden variar dependiendo de la técnica estadística utilizada.
  4. Fiabilidad: Es esencial evaluar la consistencia interna del test, lo que indica qué tan coherentes son las respuestas a diferentes ítems que miden el mismo constructo.
  5. Validez: Es el grado en que un test mide lo que pretende medir. Se debe evaluar la validez de constructo, criterio y contenido del instrumento.
  6. Estructura Interna: Es vital evaluar cómo se relacionan los ítems dentro del test, lo que puede hacerse a través de técnicas como el análisis factorial.
  7. Normas y Baremos: Las normas proporcionan un marco de referencia para interpretar las puntuaciones del test. Los baremos se utilizan para convertir las puntuaciones crudas en puntuaciones estandarizadas que permiten comparaciones más fáciles.
  8. Puntos de Corte: En los test referidos a criterio, los puntos de corte determinan los distintos niveles de rendimiento o competencia.
  9. Elección del Modelo Estadístico: Dependiendo de las características del test y del propósito de la evaluación, se elegirá entre la Teoría Clásica de Test (TCT) o la Teoría de Respuesta al Ítem (TRI).
  10. Análisis Estadístico: El tipo de análisis que se elija dependerá de varios factores, pero siempre debe ser el adecuado para responder a las preguntas de investigación y los objetivos del test.

Para garantizar que un test es de alta calidad y proporciona información válida y confiable, es esencial llevar a cabo un estudio de campo robusto y evaluar meticulosamente sus propiedades métricas. La calidad de un test se refleja en su capacidad para proporcionar medidas precisas y consistentes del constructo que se pretende evaluar.

⭐⭐Construcción del manual del test y sus revisiones

El manual de un test psicométrico es esencial para asegurar que se aplique y se interprete adecuadamente. Es el documento que guía a los profesionales en la administración, puntuación e interpretación de la prueba. Así, cualquier test destinado a la comercialización debe venir acompañado de un manual exhaustivo y detallado que contenga:

  1. Introducción y Ficha Técnica: Aquí se resumen los objetivos del test, lo que mide y se ofrece una breve introducción al constructo subyacente.
  2. Fundamentación Teórica: Es crucial entender el marco teórico en el que se basa el test para garantizar su validez conceptual.
  3. Características Estructurales: Describe cómo está organizado el test, sus diferentes secciones o componentes.
  4. Usos del Test: Define para qué situaciones o contextos está diseñado el test, ya sea para diagnóstico, selección, investigación, etc.
  5. Población Objetivo: Especifica a quién va dirigido el test: niños, adultos, profesionales de cierto sector, etc.
  6. Instrucciones de Aplicación: Proporciona instrucciones detalladas sobre cómo administrar el test y sus posibles subtests, garantizando que se aplique de manera uniforme en todas las ocasiones.
  7. Proceso de Baremación o Estandarización: Describe cómo se desarrollaron y validaron las normas o escalas de puntuación.
  8. Normas de Interpretación: Ofrece guías sobre cómo interpretar las puntuaciones, ayudando a los profesionales a entender lo que significa un puntaje en particular.
  9. Propiedades Psicométricas: Presenta información sobre la confiabilidad y validez del test, fundamentales para determinar su utilidad y precisión.
  10. Tablas de Normas o Baremos: Proporciona las escalas de puntuación, permitiendo convertir las puntuaciones crudas en puntuaciones estandarizadas.

El mundo científico y las sociedades cambian, lo que implica que nuestros tests y herramientas de evaluación también deben hacerlo. Por ello, es vital que, con el tiempo, se revisen y actualicen tanto el test como su manual. Esta actualización puede responder a nuevos descubrimientos científicos, cambios en las normativas o simplemente adaptaciones culturales y lingüísticas que reflejen con precisión la población actual. Además, los baremos y normativas pueden requerir ajustes conforme se obtengan más datos o la población cambie en sus características demográficas o culturales. Así, la revisión periódica asegura que el test sigue siendo válido, confiable y relevante en el contexto actual.

Algunos criterios para la valoración de un test

Cuando evaluamos un test psicométrico, es esencial considerar varios criterios para asegurarnos de su validez y fiabilidad. Los Estándares para los Test Educativos y Psicológicos proporcionan un conjunto de preguntas que deberíamos considerar:

  • 1. Marco Teórico y Especificaciones del Constructo:
    • ¿El test tiene un marco teórico sólido?
    • ¿Se han definido claramente las especificaciones del constructo o dominio que se está midiendo?
  • 2. Manual y Bibliografía:
    • ¿El manual proporciona referencias bibliográficas relevantes?
    • ¿Refleja el marco teórico y las especificaciones del constructo adecuadamente?
  • 3. Instrucciones Estandarizadas:
    • ¿Se proporcionan instrucciones claras y estandarizadas para la aplicación del test?
    • ¿Son adecuadas para la población objetivo?
  • 4. Orden de Dificultad de los Ítems:
    • Si el test tiene ítems de distinta dificultad, ¿están organizados de manera que reflejen un orden creciente de dificultad?
  • 5. Procedimientos de Muestreo de Ítems:
    • ¿Se han descrito claramente los métodos utilizados para seleccionar los ítems del test?
  • 6. Tratamiento de la Adivinación:
    • ¿Se han establecido procedimientos claros para manejar las respuestas aleatorias o las adivinanzas?
  • 7. Acogida del Test:
    • ¿El test es bien recibido por los sujetos a los que está dirigido?
  • 8. Propiedades Estadísticas:
    • ¿El manual proporciona información detallada sobre la validez y fiabilidad del test?
  • 9. Tiempo Límite de Aplicación:
    • ¿Se especifica claramente el tiempo necesario para completar el test?
  • 10. Corrección y Puntuación:
    • ¿Es el proceso de corrección y puntuación claro y fiable?
  • 11. Clarity de la Hoja de Respuestas:
    • ¿Es fácil de entender y utilizar la hoja de respuestas?
  • 12. Muestreo para Tipificación:
    • ¿Se ha detallado el método de muestreo utilizado para la selección de la muestra en la tipificación?

Estos criterios son vitales para evaluar la calidad y la aplicabilidad de un test psicométrico. Asegurar que un test cumple con estos estándares garantiza que los resultados serán válidos, fiables y aplicables a la población objetivo, asegurando así que los datos recogidos sean precisos y útiles para la investigación o la práctica clínica.

Definición y clasificación de los ítems

Los ítems, a menudo referidos como reactivos, son la esencia misma de cualquier instrumento de evaluación. Actúan como señales que buscan evocar una respuesta específica del evaluado, permitiendo a los profesionales medir diversas características o habilidades. Si bien es cierto que los ítems pueden variar enormemente en su estructura y propósito, todos tienen un objetivo común: capturar con precisión una faceta específica del comportamiento o pensamiento de un individuo.

Diversidad de Ítems

El término «ítem» abarca una amplia gama de formatos. Puede tratarse de una simple pregunta que espera una respuesta específica, un enunciado que el evaluado debe juzgar en función de su acuerdo o desacuerdo, un desafío matemático que resolver o incluso una tarea práctica que realizar. Esta diversidad refleja la vastedad y complejidad del comportamiento y cognición humanos.

Tipos Principales de Ítems

Básicamente, los ítems en tests psicológicos pueden categorizarse en función del tipo de respuesta que requieren:

  1. Ítems de Respuesta Cerrada: Estos ítems presentan al evaluado con opciones predeterminadas de respuesta. Un ejemplo común es el formato de elección múltiple, donde se le pide al sujeto que seleccione la respuesta correcta de entre varias opciones dadas.
  2. Ítems de Respuesta Abierta: En contraposición a los ítems de respuesta cerrada, estos requieren que el evaluado genere su propia respuesta. Por ejemplo, podría pedírsele a alguien que complete una frase o que escriba un ensayo corto en respuesta a una pregunta abierta.

Adaptabilidad de los Ítems

Si bien ciertos ítems pueden ser más adecuados para medir determinadas habilidades o características que otros, la belleza de los ítems radica en su versatilidad. Por ejemplo, tanto un test de inteligencia como uno de personalidad pueden usar ítems de elección múltiple, pero el contenido y propósito de esos ítems variarán drásticamente entre los dos tests.

Conclusión

Los ítems son herramientas fundamentales en el mundo de la evaluación psicológica. Aunque su estructura y propósito pueden variar enormemente, todos buscan medir aspectos específicos del comportamiento o pensamiento de un individuo de manera precisa y confiable. Al seleccionar o diseñar ítems para un test, es esencial considerar cuidadosamente el propósito del test, la naturaleza de lo que se está midiendo y la forma en que se espera que el evaluado responda. Es este equilibrio entre precisión, relevancia y adaptabilidad lo que hace que los ítems sean tan cruciales en la psicometría.

ítems de respuesta cerrada

En el ámbito de la psicometría, los ítems o reactivos desempeñan un papel crucial. Son las preguntas o tareas específicas que se les piden a los examinados, y sus respuestas ofrecen información valiosa sobre distintas habilidades o características. Dependiendo de lo que se quiera medir, y de la naturaleza de la evaluación, hay diferentes formatos de ítems. A continuación, se exploran los principales tipos de ítems de respuesta cerrada.

  1. Ítems de Dos Alternativas: Como su nombre indica, este tipo de ítem ofrece dos opciones, generalmente opuestas. Puede tratarse de afirmaciones como «verdadero o falso» o decisiones binarias como «sí o no». Estos ítems son versátiles y se pueden usar en una variedad de contextos, desde pruebas de conocimiento hasta cuestionarios de personalidad.
  2. Ítems de Elección Múltiple: Probablemente uno de los formatos más conocidos. Consiste en una pregunta o afirmación seguida de varias opciones de respuesta. Solo una de estas opciones es correcta. Este tipo de ítem es común en exámenes académicos y tests estandarizados.
  3. Ítems de Emparejamiento: Aquí, se le pide al examinado que relacione o empareje ítems de dos listas en función de alguna característica o criterio.
  4. Formato Cloze o Incompleto: En estos ítems, se presenta al examinado una oración o párrafo con palabras faltantes. El objetivo es seleccionar la palabra correcta de una lista de opciones para completar la frase.
  5. Escalas de Clasificación o Likert: Estos ítems piden al examinado que indique su nivel de acuerdo o desacuerdo con una afirmación. Se utilizan frecuentemente en cuestionarios de actitud o de opinión.
  6. Listados o Checklists: En este formato, se le pide al examinado que marque o seleccione ítems de una lista que correspondan a ciertos criterios o características.
  7. Ítems de Elección Forzosa: Estos ítems presentan al examinado con dos o más afirmaciones y se le pide que elija la que más lo describe. Aunque las opciones pueden parecer igualmente deseables, cada una representa un constructo diferente.

En el caso de tests que evalúan habilidades visuales o espaciales, también se pueden encontrar ítems en formato gráfico, donde se le pide al examinado que identifique patrones, complete figuras o resuelva problemas visuales.

Conclusión

La elección del tipo de ítem adecuado depende del propósito de la evaluación y de la naturaleza de la información que se desea obtener. Mientras que algunos ítems son ideales para medir conocimientos o habilidades específicas, otros son más adecuados para evaluar actitudes, intereses o características de la personalidad. Sin importar el formato, es esencial que los ítems sean claros, justos y relevantes para el constructo que se está midiendo.

⭐ítems de respuesta abierta

Los ítems de respuesta abierta permiten una exploración más profunda y abierta de las habilidades, conocimientos y características individuales de una persona. A diferencia de los ítems de respuesta cerrada, estos ítems no proporcionan opciones predefinidas de respuesta, dando al individuo la libertad de generar su propia respuesta. A continuación, se detalla la naturaleza, ventajas y limitaciones de estos ítems.

  1. Ítems de Respuesta Corta:
    • Naturaleza: En estos ítems, se pide al sujeto que complete una oración o frase con una palabra o frase corta. Son directos y buscan respuestas específicas.
    • Ejemplo: «La capital de Francia es ________».
    • Ventajas: Son útiles para medir conocimientos específicos y hechos concretos. La corrección es relativamente sencilla ya que la respuesta esperada suele ser única o limitada.
    • Limitaciones: No permite evaluar habilidades complejas o el razonamiento detrás de la respuesta.
  2. Ítems de Respuesta Extensa o Ensayo:
    • Naturaleza: Se pide al individuo que desarrolle una respuesta extensa, ya sea por escrito o verbalmente, en relación con un tema o pregunta propuesta.
    • Ejemplo: «Explique las causas y consecuencias de la Revolución Industrial».
    • Ventajas: Estos ítems permiten evaluar el pensamiento crítico, la capacidad de síntesis, la coherencia en la exposición, y proporcionar una visión más completa de la comprensión del individuo sobre un tema.
    • Limitaciones: La corrección es más subjetiva y puede variar entre evaluadores. La puntuación es más compleja y lleva más tiempo. Puede influir la capacidad del sujeto para expresarse por escrito o verbalmente más que su verdadero conocimiento o comprensión del tema.

Consideraciones Adicionales:

  • Subjetividad en la Evaluación: Es esencial que los evaluadores sean capacitados adecuadamente para minimizar la subjetividad en la corrección de ítems de respuesta abierta. Se deben establecer criterios claros de corrección y, si es posible, hacer correcciones dobles o múltiples para garantizar la fiabilidad.
  • Tiempo y Complejidad: Los ítems de respuesta extensa requieren más tiempo para ser completados por el individuo y para ser corregidos por el evaluador. Esto puede ser una limitación en contextos donde el tiempo es esencial.
  • Aplicaciones Específicas: A pesar de sus limitaciones, los ítems de respuesta abierta son especialmente útiles en contextos educativos, investigativos y clínicos, donde se busca una comprensión profunda de las habilidades, conocimientos y características de un individuo.

Conclusión:

Los ítems de respuesta abierta ofrecen una visión única y profunda de las capacidades individuales y son una herramienta valiosa en el arsenal de evaluación psicométrica. Sin embargo, es esencial usarlos de manera adecuada, siendo conscientes de sus ventajas y limitaciones, y garantizar una corrección y evaluación objetiva y coherente.

Principales modelos teóricos

La Teoría Clásica de Test (TCT) y la Teoría de Respuesta al Ítem (TRI) son dos enfoques distintos para evaluar y calificar los resultados de los tests. Aunque ambos buscan obtener información sobre una característica latente a través de la respuesta de los sujetos en ítems específicos, tienen enfoques metodológicos y teóricos diferentes.

Teoría Clásica de Test (TCT):

  1. Enfoque: Se basa en la puntuación total de un individuo, que se obtiene agregando las respuestas de todos los ítems.
  2. Puntuación Real: Cada individuo tiene una puntuación real y una puntuación observada. La puntuación observada es la suma de la puntuación real y el error.
  3. Independencia de la Muestra: La TCT presupone que las propiedades del test son invariantes y no dependen de la muestra específica de sujetos.
  4. Fiabilidad: Es una medida clave en la TCT. Indica la consistencia de las puntuaciones en repeticiones del test.

Teoría de Respuesta al Ítem (TRI):

  1. Enfoque: Considera la probabilidad de responder correctamente a un ítem específico en función del nivel del rasgo latente del individuo.
  2. Características del Ítem: La TRI se enfoca en las propiedades de cada ítem, como la dificultad y la discriminación.
  3. Curvas Características del Ítem (CCI): Para cada ítem se establece una curva que representa la probabilidad de responder correctamente en función del nivel del rasgo.
  4. Independencia del Test: A diferencia de la TCT, las propiedades de los ítems en la TRI no dependen del grupo particular de individuos evaluados.

Ambas teorías ofrecen herramientas valiosas para la construcción y evaluación de tests. La elección de usar TCT o TRI dependerá de las necesidades específicas de la evaluación, los recursos disponibles y el tipo de inferencias que se quieran realizar. Es fundamental que los profesionales entiendan las fortalezas y limitaciones de cada teoría para hacer evaluaciones precisas y efectivas.

Teoría Clásica de Test (TCT)

La Teoría Clásica de los Test (TCT) es una herramienta fundamental en la psicometría, aún con sus limitaciones. Se basa en la idea de que la puntuación observable en un test es la suma de la puntuación verdadera y el error de medida. A continuación, se describen sus aspectos clave y limitaciones.

Aspectos clave de la TCT:

  • 1. Modelo de la Puntuación:
    • Fórmula: Xi​=Vi​+Ei​, donde:
      • Xi​: Puntuación observable del individuo i.
      • Vi​: Puntuación verdadera del individuo i.
      • Ei​: Error de medida para el individuo i.
  • 2. Supuestos Principales:
    • Puntuación Verdadera: La puntuación que un individuo obtendría si se le administrara el test infinitas veces.
    • Independencia: No existe una correlación entre la puntuación verdadera y el error de medida, ni entre los errores de medida en tests diferentes.
  • 3. Limitaciones:
    • Invarianza del Instrumento: La TCT no garantiza que las mediciones sean invariantes respecto al instrumento utilizado; el resultado depende del test específico.
    • Invarianza de la Muestra: Las propiedades del test no son invariantes respecto a las personas utilizadas para estimarlas, lo que puede afectar la precisión y comparabilidad de los resultados.

Críticas y Desafíos. Aunque la TCT ha sido instrumental en el desarrollo y la aplicación de tests psicométricos, presenta desafíos significativos:

  • 1. Comparabilidad:
    • Los resultados de tests diferentes no son directamente comparables debido a escalas diferentes y a la dependencia de las muestras normativas.
  • 2. Error de Medida:
    • El modelo no ofrece una manera directa de desglosar o analizar el error de medida, una componente crítica para entender y mejorar la precisión del test.
  • 3. Flexibilidad y Precisión:
    • Los tests basados en la TCT pueden carecer de la flexibilidad y la precisión de los modelos más avanzados, como la Teoría de Respuesta al Ítem (TRI).

Hacia un Enfoque Más Avanzado: Aunque la TCT sigue siendo popular y ampliamente utilizada, la Teoría de Respuesta al Ítem (TRI) ha ganado terreno por su capacidad para analizar las propiedades de los ítems individuales y ofrecer medidas más precisas y flexibles. Esto es especialmente relevante en aplicaciones complejas y contextos donde la precisión, la comparabilidad entre diferentes tests y poblaciones, y la adaptabilidad son críticas.

Conclusión: La Teoría Clásica de los Test (TCT) ha desempeñado un papel crucial en el campo de la evaluación psicométrica. A pesar de sus limitaciones, ofrece un marco sólido y comprobado para entender y aplicar tests psicológicos y educativos. Sin embargo, la evolución hacia teorías más avanzadas y precisas, como la TRI, refleja un esfuerzo continuo para mejorar la calidad y la eficacia de la evaluación psicométrica.

⭐Otros modelos basados en las teorías clásicas

A partir de las teorías clásicas, se han desarrollado modelos adicionales que presentamos a continuación:

Teoría de la Generalizabilidad (Teoría G)

Esta teoría, propuesta por Cronbach y colaboradores (Cronbach, Gleser, Nanda y Rajaratnam, 1972), es compleja y utiliza principalmente el análisis de varianza para sus cálculos y estimaciones. Su fortaleza radica en la capacidad de cuantificar la relevancia de diversas fuentes de variabilidad, destacando el error como una faceta esencial en la medición.

Test Referidos a Criterio (TRC)

Los TRC representan un enfoque psicométrico que se origina en los modelos clásicos. Estos tests tienen como finalidad principal determinar si un individuo posee un dominio específico sobre un área o campo de conocimiento. A diferencia de buscar diferencias entre individuos, se enfocan en evaluar el nivel de conocimiento respecto a un criterio establecido, de ahí su denominación. Gleser (1963) es uno de los principales defensores de este enfoque, que ha ganado notable influencia tanto en el ámbito educativo como en el laboral. Es relevante señalar que los indicadores psicométricos tradicionales, derivados del modelo clásico, no se alineaban completamente con la filosofía detrás de estos tests. Por ello, se ha avanzado en la creación de herramientas psicométricas específicas, permitiendo calcular de manera más precisa la fiabilidad, validez y puntos de corte para determinar el dominio sobre el criterio evaluado (Berk, 1984; Cizek, 2001; Muñiz, 2010).

⭐⭐⭐Teoría de Respuesta al ítem (TRI)

La Teoría de Respuesta al Ítem (TRI) surge como una evolución en el ámbito de la medición psicológica, abordando limitaciones inherentes a las teorías clásicas. Su principal atractivo radica en la capacidad para establecer medidas invariantes entre diversas poblaciones, asegurando que dos individuos con el mismo nivel de un rasgo específico tendrán la misma probabilidad de responder a un ítem de manera similar, independientemente de su grupo de referencia.

Este avance se logra a expensas de modelos teóricos más complejos y menos intuitivos, aunque sin un grado de dificultad inmanejable. La TRI, como se le conoce, es un término paraguas que encapsula investigaciones psicométricas iniciadas por figuras prominentes como Rasch y Birnbaum. Centra su premisa en la existencia de una conexión directa entre la respuesta de un individuo a un ítem específico y el rasgo subyacente que informa esa respuesta.

En la TRI, se establece una relación matemática que correlaciona la probabilidad de seleccionar una respuesta específica con el nivel del rasgo latente del individuo. Esta correlación es ilustrada mediante la Curva Característica del Ítem (CCI), que siempre es ascendente, reflejando que a mayor nivel del rasgo, mayor es la probabilidad de elegir una respuesta particular.

curva1 tema 6 evaluacion
Curva Característica de un ítem con parámetros a = 1, b = 0 y c = 0 (tomada de Attorressi, Lozzia, Abal, Galibert y Aguerri, 2009).
curva2 tema 6 evaluacion
Curvas características de dos ítems de la escala Depresión del MMPl-2 (Childs, Dahlstrom, Kemp y Panter, 2000).

Los parámetros que definen la CCI se determinan mediante datos recopilados de una muestra amplia y representativa, y su análisis requiere el uso de herramientas computacionales avanzadas. Esto ha facilitado la expansión de la TRI en la era de la informática.

Además, la TRI introduce la Función de Información del Test, una métrica que indica la precisión de las estimaciones del rasgo en cuestión, reemplazando así el coeficiente de fiabilidad en la Teoría Clásica de Test. Esta función ofrece ventajas significativas, como la posibilidad de obtenerla a priori y su independencia de la población.

Es esencial reconocer la presencia de supuestos fundamentales en la TRI, como la unidimensionalidad y la independencia local de los ítems. Estos supuestos, aunque restrictivos, han sido mitigados en parte por el desarrollo de modelos multidimensionales.

En resumen, tanto la TRI como la Teoría Clásica de Test se centran en estimar el error asociado con la medición de fenómenos psicológicos. No son mutuamente excluyentes, sino complementarios, colaborando para enriquecer la comprensión y precisión en la medición psicométrica. Ejemplos de escalas desarrolladas bajo la TRI incluyen el Test de Inteligencia General Matrices y la Escala de Aptitudes Intelectuales BAS-II, demostrando su aplicabilidad y versatilidad en la evaluación psicológica moderna.

Procedimientos de construcción y aplicación de los test desde la TRI

La Teoría de Respuesta al Ítem (TRI) ha impulsado innovaciones significativas en la construcción y aplicación de tests psicométricos, principalmente por su habilidad para ofrecer medidas invariantes. Los instrumentos desarrollados bajo esta teoría no se ven afectados por las variaciones en los grupos de individuos evaluados ni por el instrumento específico utilizado para la medición. A continuación, se destacan varios procedimientos claves derivados de la TRI.

  • 1. Análisis del Funcionamiento Diferencial del Ítem (DIF)
    • Objetivo: Identificar si ítems específicos tienen diferentes probabilidades de ser respondidos correctamente por sujetos de diversos grupos pero con niveles similares en el rasgo evaluado.
    • Tipos de DIF:
      • Uniforme: No hay interacción entre el nivel del rasgo y la pertenencia grupal; la diferencia en las respuestas es constante en todos los niveles del rasgo.
      • No Uniforme: Existe interacción; la diferencia en las respuestas varía según el nivel del rasgo.
    • Importancia: Asegura la equidad métrica y evita sesgos, garantizando que los ítems son justos para todos los grupos de individuos.
  • 2. Bancos de Ítems
    • Descripción: Colecciones extensas de ítems calibrados para medir un rasgo específico, facilitando la creación de tests adaptativos y personalizados.
    • Proceso de Construcción:
      • Selección y categorización de ítems.
      • Aplicación a muestras variadas para la recopilación de datos.
      • Calibración utilizando modelos de la TRI.
      • Almacenamiento en una base de datos accesible.
    • Aplicación: Facilita la creación de tests adaptativos y personalizados, aumentando la eficiencia y precisión de la evaluación.
  • 3. Test Adaptativos
    • Características: Los ítems se seleccionan en tiempo real basándose en las respuestas previas del evaluado, maximizando la relevancia y precisión de cada ítem presentado.
    • Fases:
      • Inicio: A menudo comienza con un ítem de dificultad media o basado en una estimación inicial del nivel de habilidad del sujeto.
      • Continuación: Los ítems subsiguientes se seleccionan según las respuestas anteriores y criterios específicos.
      • Finalización: El test concluye cuando se alcanza un nivel predefinido de precisión o después de un número específico de ítems.
    • Variantes: Incluyen el Test Adaptativo Informatizado (TAi) y modalidades autoadaptativas donde los examinados seleccionan el nivel de dificultad de los ítems subsiguientes.
  • 4. Construcción Automática de Test
    • Descripción: Los ítems se seleccionan automáticamente basándose en especificaciones predeterminadas relacionadas con los atributos deseados del test y los evaluados.
    • Herramientas: La Función de Información del Test es crucial para evaluar y seleccionar ítems que cumplen con los criterios establecidos.

La TRI es una herramienta valiosa para la innovación en la psicometría, promoviendo la equidad, precisión y eficiencia en la evaluación. Los procedimientos derivados de esta teoría están diseñados para asegurar que los tests sean justos, precisos y adaptativos, atendiendo a la diversidad de las poblaciones evaluadas y las dinámicas cambiantes de los contextos de evaluación.

Principales diferencias entre la TCT y la TRI

Teoría Clásica de Test (TCT)Teorías de Respuesta al ítem (TRI)
ModeloLinealNo lineal
AsuncionesDébiles (fáciles de cumplir por los datos)Fuertes (difíciles de cumplir por los datos)
Invarianza de las mediciones✔️
Invarianza de las propiedades del test✔️
Escala de las puntuacionesEntre 0 y la puntuación máxima del testEntre -∞ y +∞
ÉnfasisTestÍtem
Relación ítem-testSin especificarCurva Característica del Ítem
Descripción de los ítemsÍndices de Dificultad y de DiscriminaciónParámetros a, b y c
Errores de medidaError típico de medida común para toda la pruebaFunción de Información (varía según el nivel de aptitud)
Tamaño muestralPuede funcionar bien con muestras entre 200 y 500 sujetosSe recomiendan más de 500 sujetos, aunque depende del modelo
Diferencias y similitudes entre las Teorías Clásicas de Test y las Teorías de Respuesta al ítem (tomada de Muñiz, 1997)

La Teoría Clásica de los Test (TCT) y la Teoría de Respuesta al Ítem (TRI) son dos marcos teóricos fundamentales en la psicometría. Aunque ambas teorías se centran en la medición y evaluación, existen diferencias significativas entre ellas:

  • 1. Definición y Enfoque
    • TCT: Se basa en la idea de que cada puntuación observada es la suma de una puntuación verdadera y un error. Se centra en las puntuaciones de los tests y en las características de las distribuciones de dichas puntuaciones en un grupo determinado.
    • TRI: Examina la probabilidad de que un individuo responda a un ítem particular de una manera específica, dadas las características del ítem y la habilidad del individuo. Se enfoca en las propiedades individuales de cada ítem en un test.
  • 2. Invarianza
    • TCT: Las propiedades del test (como la fiabilidad) son específicas para un grupo particular de individuos y no necesariamente se generalizan a otros grupos.
    • TRI: Una de las principales ventajas es que las características del ítem (como su dificultad y discriminación) son invariantes con respecto a la muestra particular que se examina, lo que significa que son consistentes a través de diferentes poblaciones.
  • 3. Estimación del Error
    • TCT: Proporciona una única estimación del error para todos los individuos en el test.
    • TRI: El error de medición puede variar a lo largo del continuo del rasgo y es específico para el nivel de habilidad de cada individuo.
  • 4. Tratamiento de Ítems
    • TCT: Todos los ítems son tratados de igual manera, sin diferenciar en función de su dificultad o discriminación.
    • TRI: Cada ítem es analizado individualmente, permitiendo estimaciones de parámetros específicos del ítem, como su dificultad, discriminación y, en algunos modelos, el índice de adivinación.
  • 5. Flexibilidad en la Administración
    • TCT: Los tests son fijos, lo que significa que todos los participantes responden a los mismos ítems en el mismo orden.
    • TRI: Facilita el desarrollo de tests adaptativos, donde los ítems se presentan en función de las respuestas anteriores del individuo, adaptándose a su nivel de habilidad.
  • 6. Condiciones y Supuestos
    • TCT: Asume que los errores de medición son aleatorios y no correlacionados con las puntuaciones verdaderas.
    • TRI: Requiere ciertos supuestos, como la unidimensionalidad (los ítems miden un único rasgo) y la independencia local (las respuestas a un ítem no influyen en las respuestas a otro ítem).
  • 7. Uso en la Práctica
    • TCT: Más simple y fácil de aplicar, se utiliza comúnmente en contextos donde se requiere una medición rápida y sencilla.
    • TRI: Aunque es más compleja, ofrece ventajas significativas en términos de precisión y es adecuada para contextos donde la adaptabilidad y la invarianza son esenciales, como los exámenes de alta apuesta.

Ambas teorías tienen sus ventajas y desventajas, y la elección entre ellas depende del propósito específico de la medición, las características de la muestra y los recursos disponibles.

Consideraciones en el uso de los Test

Los tests psicométricos son herramientas poderosas que se utilizan en diversos campos para evaluar características individuales, habilidades, actitudes, entre otros. Sin embargo, su uso conlleva responsabilidades y comprensión de sus limitaciones. Según Anastasi (1986), hay consideraciones esenciales a tener en cuenta al usar un test psicométrico:

  1. Propósito Específico del Test: Un test debe utilizarse únicamente para evaluar aquellos aspectos para los cuales fue diseñado. No es apropiado usarlo para fines diferentes a los originalmente concebidos.
  2. Validez de las Normas: Las normas o baremos de un test no son universalmente válidos. Son relevantes solo si el grupo evaluado tiene características semejantes a las del grupo que sirvió para establecer esas normas.
  3. Construcción de Nuevas Normas: Si se utiliza un test en un grupo que difiere significativamente del grupo original, es necesario desarrollar nuevas normas para ese grupo específico.
  4. Momento de Aplicación: Un test evalúa una variable o característica en el momento específico de su aplicación. Si factores externos o condiciones influencian al individuo y cambian con el tiempo, esto podría afectar las puntuaciones del test.
  5. No Diagnóstico Directo: Los resultados de un test no deben interpretarse como un diagnóstico directo de condiciones o estados patológicos. Los resultados deben considerarse como una pieza de información que, junto con otros datos, pueden ayudar en un diagnóstico o evaluación más amplia.
  6. Categorías Descriptivas Específicas: Las categorías descriptivas establecidas para un test (como «inteligencia superior» o «rendimiento medio») deben aplicarse solo a ese test específico. Por ejemplo, categorías desarrolladas para el test WAIS no deben utilizarse para evaluar resultados de un test diferente.

En resumen, es vital usar tests psicométricos con responsabilidad y conocimiento. Comprender las limitaciones y propósitos de cada test es crucial para garantizar que la información recopilada sea válida, relevante y se utilice de manera ética.

Test y otras técnicas informatizadas de evaluación psicológica

Desde los años 60, la tecnología ha tenido un profundo impacto en la evaluación psicológica, ofreciendo una amplia variedad de herramientas y técnicas avanzadas para asistir y mejorar los procesos de evaluación. A continuación se presentan las principales aplicaciones y consideraciones de estas técnicas:

1. Test Informatizados: Estos tests se presentan y responden en un ordenador y deben cumplir con ciertas propiedades psicométricas. Pueden ser fijos, donde todos los ítems se presentan en la misma secuencia a cada evaluado, o adaptativos, que se ajustan al nivel de competencia del evaluado.

Ventajas:

  • Estandarización de las condiciones de aplicación.
  • Provee información inmediata y detallada.
  • Posibilidad de presentar formatos innovadores de ítems.
  • Corrección automática y elaboración de informes.

2. Test Adaptativos Informatizados (TAI): Estos tests se adaptan al nivel de habilidad del evaluado, presentando ítems según las respuestas previas del evaluado. Son eficientes y precisos, y son especialmente útiles en evaluaciones masivas.

3. Sistemas Expertos: Estos son programas informáticos diseñados para emular el proceso de toma de decisiones de un experto. Son particularmente útiles en el diagnóstico y han encontrado aplicación en áreas como la medicina y la psicología.

4. Evaluación a través de Internet: Los tests pueden administrarse en línea, proporcionando ventajas logísticas y de costos. Sin embargo, también hay preocupaciones sobre la calidad, la seguridad, el control y las garantías tecnológicas.

5. Test basados en Realidad Virtual: La realidad virtual permite crear ambientes controlados y simulados para la evaluación. Son especialmente útiles en la evaluación de condiciones específicas y en la simulación de ambientes realistas.

6. Otras pruebas con formato informático y tecnológico: Incluyen herramientas como sistemas de biofeedback, baterías para licencias de conducción, y tecnología de neuroimagen.

Ventajas generales de la informatización:

  • Homogeneización de las condiciones de aplicación.
  • Mayor control sobre el proceso.
  • Rápido procesamiento de datos.
  • Flexibilidad y adaptabilidad.
  • Mayor accesibilidad.

Desafíos y preocupaciones:

  • Equivalencia con formatos tradicionales.
  • Potencial para una actitud pasiva por parte del evaluado.
  • Seguridad y confidencialidad.
  • Necesidad de investigación adicional para validar las herramientas.

En conclusión, mientras que la tecnología ha introducido numerosas innovaciones y ventajas en el campo de la evaluación psicológica, es esencial abordar las preocupaciones y garantizar la validez y fiabilidad de estas herramientas. Es fundamental que los profesionales se mantengan actualizados y críticos frente a las nuevas técnicas y herramientas, garantizando siempre el bienestar y la precisión en la evaluación de los individuos.

  • Ventajas de las Técnicas Informatizadas:
    • 1. Accesibilidad: Las pruebas en línea, por ejemplo, permiten a los profesionales llegar a una audiencia más amplia, incluidas personas que pueden estar geográficamente dispersas o con movilidad limitada.
    • 2. Personalización: Los TAI permiten que el examen se adapte al nivel de habilidad del individuo, lo que significa que las preguntas no son ni demasiado fáciles ni demasiado difíciles, lo que puede mejorar la experiencia del evaluado.
    • 3. Precisión: Los sistemas informatizados reducen el error humano en la puntuación y la interpretación, y pueden proporcionar informes detallados en tiempo real.
    • 4. Innovación en el formato de los ítems: La tecnología, en especial la realidad virtual, permite evaluar aspectos que antes eran difíciles de medir en un formato de prueba estándar.
  • Desafíos de las Técnicas Informatizadas:
    • 1. Validez: La transferencia de un test de papel a un formato digital no garantiza que mantenga sus propiedades psicométricas.
    • 2. Seguridad: Los test administrados en línea pueden ser susceptibles a violaciones de seguridad o piratería.
    • 3. Tecnología y entrenamiento: No todos los profesionales o evaluados tienen acceso a tecnología de punta o están familiarizados con su uso.
    • 4. Despersonalización: Existe el riesgo de que el proceso de evaluación se vuelva impersonal y se pierda la interacción humana.
  • Aplicaciones Futuras: Con la rápida evolución de la tecnología, se espera que las herramientas de evaluación psicológica continúen evolucionando.
    • 1. Realidad Aumentada (RA): Mientras que la Realidad Virtual crea entornos completamente digitales, la RA superpone información digital en el mundo real, lo que podría ser utilizado para evaluaciones en contexto.
    • 2. Inteligencia Artificial (IA): La IA podría ser utilizada para analizar patrones de respuesta, adaptar pruebas en tiempo real o incluso predecir ciertos comportamientos o respuestas basados en grandes conjuntos de datos.
    • 3. Evaluaciones Gamificadas: Convertir las pruebas en juegos puede mejorar el compromiso y la motivación del evaluado.
    • 4. Portabilidad: Con el aumento de dispositivos móviles, las evaluaciones podrían ser aún más accesibles, permitiendo a los individuos realizar pruebas desde cualquier lugar.

Para concluir, el futuro de la evaluación psicológica es emocionante, con la tecnología ofreciendo herramientas que pueden hacer que el proceso sea más preciso, accesible y atractivo. Sin embargo, es esencial equilibrar estos avances con consideraciones éticas y prácticas para garantizar que las evaluaciones sigan siendo válidas, confiables y útiles.

Directrices y guías que afectan a los test psicométricos

Según Fernández-Ballesteros y Calero (2011), ha habido una intensa actividad normalizadora en el campo de la Evaluación Psicológica en años recientes. Una revisión detallada sobre este tema puede encontrarse en el monográfico de 2001 publicado por la European Journal of Psychological Assessment. Desde 1991, diversas organizaciones, tanto nacionales como europeas e internacionales, han establecido una serie de guías, directrices, normas y estándares. Estos están orientados a aspectos como la revisión, uso, traducción, adaptación, evaluación informatizada, pruebas aplicadas por Internet y la implementación de Tests Adaptativos Informatizados.

Criterios sobre la revisión de los test

La Asociación Psicológica Americana (APA) estableció en 1985 que es necesario revisar un test cuando surgen nuevos datos de investigación que evidencian cambios significativos en el área de estudio, en las condiciones de aplicación del test o en la interpretación de sus resultados, lo que podría hacer inapropiado su uso.

Las recientes directrices para adaptar test ponen un énfasis especial en las cuestiones relacionadas con la diversidad cultural, la inmigración y la comparación entre diferentes culturas.

Strauss, Spreen y Hunter (2000) identificaron seis motivos principales para justificar la revisión de un instrumento de evaluación:

  1. Actualización de Normas: Es esencial que las normas de un test se actualicen para reflejar las características demográficas de las poblaciones actuales.
  2. Influencia del Tiempo: A medida que pasa el tiempo, las relaciones entre subtests y el constructo que se mide pueden variar.
  3. Cambios Sociodemográficos: Con el flujo migratorio y la globalización, puede surgir la necesidad de aplicar un test a diferentes culturas o grupos etarios.
  4. Cambios Culturales o Lingüísticos: Con el tiempo, ciertos ítems de un test pueden volverse obsoletos debido a evoluciones en el lenguaje o la cultura.
  5. Investigaciones Acumuladas: Los estudios recurrentes sobre un test pueden revelar oportunidades para mejorar su fiabilidad y validez.
  6. Nuevas Modalidades de Aplicación: La innovación tecnológica puede llevar a la creación de versiones informatizadas del test o a modificaciones en las opciones de respuesta.

En resumen, es crucial que los test psicológicos se revisen y actualicen periódicamente para asegurar su relevancia, precisión y validez en el contexto actual.

Directrices para el uso de los test

El uso de tests en el ámbito de la psicología es una herramienta esencial en la práctica clínica, representando una de las tecnologías más empleadas en la evaluación psicológica. Sin embargo, su uso extensivo ha llevado a situaciones de mal uso o interpretaciones erróneas. Por ello, la Comisión Internacional de Test (ITC) ha elaborado directrices para optimizar la utilización de estos instrumentos por parte de los profesionales.

Las directrices creadas por la ITC, con supervisión del profesor Dave Bartram, fueron adaptadas al español gracias a los esfuerzos del Colegio Oficial de la Psicología en España, en colaboración con la Comisión Europea sobre Test de la Federación Europea de Asociaciones de Profesionales de Psicólogos. El objetivo principal es establecer un marco de referencia para mejorar el uso de los tests en España.

Estas directrices están destinadas a una variedad de públicos, incluyendo a compradores y vendedores de materiales psicométricos, profesionales que seleccionan, aplican, puntúan e interpretan tests, así como editores, participantes de las pruebas y investigadores.

Las directrices se dividen en dos grandes secciones:

  1. Uso Ético de los Test: Aborda principios fundamentales relacionados con el respeto, la privacidad y el uso responsable de los tests.
  2. Utilización Adecuada de los Test: Detalla las mejores prácticas sobre cómo seleccionar, administrar, puntuar e interpretar los tests.

Adicionalmente, se incluyen apéndices con directrices sobre cómo establecer políticas para el uso de tests, cómo crear contratos entre las partes involucradas en la evaluación y cómo administrar tests a personas con discapacidades.

Moreland, Eyde, Robertson, Primoff y Most (1995) también propusieron doce competencias esenciales para quienes utilizan tests. Estas competencias abarcan desde evitar errores al puntuar y registrar resultados hasta establecer relaciones efectivas con los examinados y garantizar la adecuada adaptación de las normas según el contexto.

En resumen, es esencial que los profesionales sigan estas directrices y competencias para garantizar que los tests se utilicen de manera ética, adecuada y efectiva en la práctica psicológica.

Directrices para la traducción y adaptación de los test

La adaptación de tests originarios de diferentes lenguas y culturas es una tarea común en la investigación psicológica. Sin embargo, las discrepancias culturales dificultan la mera traducción de tests extranjeros para ser usados en otros contextos. Esta cuestión es particularmente pertinente en España, donde muchos de los tests empleados son adaptaciones de instrumentos de otras lenguas o culturas.

Reconociendo esta necesidad, la Comisión Internacional de Test (International Test Commission, ITC) lanzó en 1994 un proyecto destinado a establecer directrices para la adaptación de tests y cuestionarios. El proyecto resultó en veintidós directrices que abordaban diversas fuentes de errores en el proceso de adaptación, y proponía formas de mitigarlas.

Con el tiempo y los avances metodológicos y psicométricos en el campo de adaptación de tests, las directrices originales necesitaron ser revisadas. Para esto, la ITC conformó un grupo multidisciplinario que propuso nuevas directrices. Estas nuevas directrices proporcionan un marco holístico, abarcando desde las fases preliminares de adaptación hasta la elaboración del documento final. Se componen de veinte directrices categorizadas en seis secciones.

Directrices para la traducción y adaptación de test (tomado de Muñiz, Elosúa y Hambleton, 2013)
✔️Directrices previas

➖DP1. Antes de comenzar con la adaptación hay que obtener los permisos pertinentes de quien ostente los derechos de propiedad intelectual del test.
➖DP2. Cumplir con las leyes y prácticas profesionales relativas al uso de test que estén vigentes en el país o países implicados.
➖DP3. Seleccionar el diseño de adaptación de test más adecuado.
➖DP4. Evaluar la relevancia del constructo o constructos medidos por el test en las poblaciones de interés.
➖DP5. Evaluar la influencia de cualquier diferencia cultural o lingüística en las poblaciones de interés que sea relevante para el test a adaptar.
✔️Directrices de desarrollo

➖DD1. Asegurarse, mediante la selección de expertos cualificados, de que el proceso de adaptación tiene en cuenta las diferencias lingüísticas, psicológicas y culturales entre las poblaciones de interés.
➖DD2. Utilizar diseños y procedimientos racionales apropiados para asegurar la adecuación de la adaptación del test a la población a la que va dirigido.
➖DD3. Ofrecer información y evidencias que garanticen que las instrucciones del test y el contenido de los ítems tienen un significado similar en todas las poblaciones a las que va dirigido el test.
➖DD4. Ofrecer información y evidencias que garanticen que el formato de los ítems, las escalas de respuesta, las reglas de corrección, las convenciones utilizadas, las formas de aplicación y demás aspectos son adecuados para todas las poblaciones de interés.
➖DD5. Recoger datos mediante estudios piloto sobre el test adaptado, y efectuar análisis de ítems y estudios de fiabilidad y validación que sirvan de base para llevar a cabo las revisiones necesarias y adoptar decisiones sobre la validez del test adaptado.
✔️Directrices de confirmación

➖DCl. Definir las características de la muestra que sean pertinentes para el uso del test, y seleccionar un tamaño de muestra suficiente que sea adecuado para las exigencias de los análisis empíricos.
➖DC2. Ofrecer información empírica pertinente sobre la equivalencia del constructo, equivalencia del método y equivalencia entre los ítems en todas las poblaciones implicadas.
➖DC3. Recoger información y evidencias sobre la fiabilidad y la validez de la versión adaptada del test en las poblaciones implicadas.
➖DC4. Establecer el nivel de comparabilidad entre las puntuaciones de distintas poblaciones por medio de análisis de datos o diseños de equiparación adecuados.
✔️Directrices de aplicación

➖DA1. Preparar los materiales y las instrucciones para la aplicación de modo que minimicen cualquier diferencia cultural y lingüística que pueda ser debida a los procedimientos de aplicación y a los formatos de respuesta, y que puedan afectar a la validez de las inferencias derivadas de las puntuaciones.
➖DA2. Especificar las condiciones de aplicación del test que deben seguirse en todas las poblaciones a las que va dirigido.
✔️Directrices sobre puntuación e interpretación

➖DPl1. Interpretar las diferencias de las puntuaciones entre los grupos teniendo en cuenta la información demográfica pertinente.
➖DPl2. Comparar las puntuaciones entre poblaciones únicamente en el nivel de invarianza establecida para la escala de puntuación utilizada en las comparaciones.
✔️Directrices sobre la documentación

➖DC1. Proporcionar documentación técnica que recoja cualquier cambio en el test adaptado, incluyendo la información y las evidencias sobre la equivalencia entre las versiones adaptadas.
➖DC2. Proporcionar documentación a los usuarios con el fin de garantizar un uso correcto del test adaptado en la población a la que va dirigido.

El propósito primordial de estas directrices es asegurar que la versión adaptada de un test sea lo más equivalente posible al original en términos lingüísticos, culturales, conceptuales y métricos. Estas directrices sirven como referencia para guiar a investigadores y profesionales en el proceso de adaptación, asegurando que los tests sean precisos, fiables y válidos en diferentes contextos culturales.

Directrices para la evaluación informatizada y test aplicados por Internet

La revolución tecnológica que ha traído consigo el ordenador e Internet ha dejado una marca indeleble en múltiples áreas, incluyendo la psicología y la evaluación. Estas herramientas han transformado la administración y corrección de tests, así como la forma en que se accede y se interactúa con ellos.

En 2002, la APA lanzó directrices específicas para la administración e interpretación de test informatizados. Estas directrices abordaban temas como la aplicación (focalizándose en estandarización y condiciones), la interpretación (con énfasis en el juicio profesional), aspectos humanos como confidencialidad, propiedades psicométricas, clasificación y validez, y la necesidad de revisión por expertos.

En una acción paralela, la Comisión Internacional de Test (ITC), en 2005, estableció directrices internacionales para evaluaciones informatizadas y tests administrados por Internet. Las directrices se clasifican en:

  1. Aspectos tecnológicos: Asegurando que la tecnología empleada sea robusta y confiable.
  2. Garantías de calidad: Estableciendo estándares elevados para la validez y confiabilidad de los test.
  3. Control: Estableciendo niveles de control adecuados durante la administración del test.
  4. Privacidad y seguridad: Garantizando la protección y confidencialidad de los datos del usuario.

Además, estas directrices abordan responsabilidades específicas para tres grupos principales: diseñadores de test, distribuidores y usuarios. Se reconoce también la variedad de modos en que se pueden administrar tests informatizados, incluyendo:

  • Modo abierto: A través de Internet sin la supervisión directa de un evaluador.
  • Modo controlado: Acceso restringido a través de una clave conocida solo por los evaluadores.
  • Modo supervisado: Requiere la autenticación del evaluador que confirma la correcta administración del test.
  • Modo dirigido: Donde el evaluador mantiene un control total sobre la administración del test.

La adaptación al entorno digital exige un enfoque reflexivo y cuidadoso para asegurar que los tests sean justos, válidos y confiables, y que los datos de los participantes estén protegidos en todo momento.

Directrices internacionales para la evaluación informatizada y los test aplicados por Internet (adaptada de Fernández-Ballesteros y Calero, 2011)
✔️Cuidar las cuestiones tecnológicas

➖Desarrollan consideraciones de hardware y software y centrar su atención en la descripción de los requisitos del sistema, la justificación del programa y las posibilidades de actualización.
➖Se dirigen a asegurar la robustez del programa y señalan la necesidad de anticipar posibles fallos y dar todo el soporte técnico a los usuarios.
➖Se centran en tomar en consideración los factores humanos que puedan afectar a la presentación del material y tratan fundamentalmente del diseño, el tipo de estímulos, la distinción entre instrucciones e ítems, la facilidad del usuario para volver atrás, la familiaridad de los usuarios con las demandas del programa, la comparabilidad con diferentes sistemas informáticos, etc.
➖Tratan de considerar el ajuste de las características técnicas con diferentes causas de incapacitación en los sujetos evaluados y se centran en asegurar y explicitar quiénes pueden y no pueden ser evaluados mediante ese procedimiento.
➖Se interesan en el suministro de ayuda e información práctica para los usuarios. Si las directrices del programa son claras, completas, explícitas, si proporcionan práctica inicial con el procedimiento, etc.
✔️Garantías de calidad

➖Trata de asegurar el conocimiento y la competencia para los usuarios y los sujetos evaluados.
➖Se centra en los requisitos psicométricos del procedimiento.
➖Se refiere a los procedimientos que son versiones de test clásicos de papel y lápiz y se dirige a la demostración de la equivalencia de formatos.
➖Se refiere a los análisis de fiabilidad de puntuaciones y resultados obtenidos en estas versiones.
➖Trata sobre si la interpretación de resultados es apropiada señalando sus limitaciones. Si las especificaciones del programa suministran documentación y/o feedback adicional y señalan en qué criterio, reglas o procedimientos basan la interpretación, etc.
➖Pretende asegurar la igualdad de acceso para cualquier grupo, país, étnia o comunidad lingüística.
✔️Asegurar los niveles de control apropiados

➖Sobre las condiciones de administración.
➖Sobre las condiciones de supervisión.
➖Sobre la práctica inicial del evaluador y la exposición inicial del evaluado.
➖Sobre las posibiIidades de autentificación y estafa del acceso al sistema.
✔️Asegurar la privacidad y seguridad de los datos recogidos

➖Seguridad para el material que constituye el test.
➖Seguridad para la transferenc ia de datos por Internet.
➖Confidencialidad de los resultados obtenidos.

Directrices para los Test Adaptativos Informatizados

En 1984, Green, Bock, Humphreys, Linn y Reckase propusieron directrices para Test Adaptativos Informatizados. Hambleton, Zaal y Pieters (1991) las reestructuraron, abordando aspectos como contenido, dimensionalidad, fiabilidad, validez, estimación de parámetros de ítems, métrica uniforme, características del banco de ítems, selección de ítems, puntuación y factores humanos.

Directrices para los Test Adaptativos Informatizados
✔️Contenidos

➖Las especificaciones sobre el contenido de los ítems deberían ser las mismas para los Test Adaptativos Informatizados que para los test de papel y lápiz.
➖El contenido de los ítems seleccionados para el Banco de Ítems debe responder a las especificaciones de contenido hechas.
➖Los ítems deben diseñarse de modo que se ajusten a las características del equipamiento informático.
✔️Dimensionalidad

➖Debe comprobarse el ajuste del modelo de Teoría de Respuesta a los Ítems utilizados.
➖Deberían seleccionarse ítems con un alto poder discriminativo.
➖Debería llevarse a cabo un análisis factorial de la matriz de correlaciones tetracóricas entre los ítems.
➖Hay que examinar la asunción de independencia local.
➖Cuando el test no es unidimensional, deberían formarse subtest.
➖Hay que balancear el test, para que refleje la heterogeneidad de los contenidos del dominio y los distintos tipos de formato.
✔️Fiabilidad

➖Debe proporcionarse el error típico de medida de cada puntuación del test en función de la puntuación y en la métrica en la que se estén expresando las puntuaciones.
➖Hay que proporcionar también el error típico de medida de cada test en la métrica de la aptitud.
✔️Validez

➖Hay que evaluar la similitud de las matrices de varianzas- covarianzas de los Test Adaptativos Informatizados y los de papel y lápiz.
➖Debe compararse la estructura de las covarianzas de las dos versiones.
➖La versión adaptativa informatizada y la de papel y lápiz de un test deberían validarse frente al mismo criterio externo.
➖Hay que estudiar el posible sesgo predictivo para las subpoblaciones de interés.
✔️Estimación de los parámetros de los ítems

➖El tamaño de la muestra para la calibración de los ítems debe ser el adecuado; en la actualidad, al menos, de 1.000 casos.
➖La muestra de calibración debe seleccionarse de tal modo que haya un número suficiente de personas en el rango de aptitud necesario para estimar la asíntota inferior y el punto de inflexión de la curva característica del ítem.
➖Hay que asegurarse de que el procedimiento para estimar los parámetros de los ítems sea empíricamente consistente (las muestras amplias deberían generar buenas estimaciones).
➖Ha de mostrarse que el procedimiento utilizado para la estimación de los parámetros de los ítems es insesgado.
➖Las curvas características de los ítems deben ajustarse a los datos empíricos.
➖Hay que comparar la dificultad de los ítems aplicados mediante la versión adaptativa informatizada y la correspondiente de papel y lápiz.
✔️Métrica común para los ítems

➖El procedimiento utilizado para transformar los ítems en una escala común debe describirse con precisión.
➖Cuando para transformar los ítems en una misma escala se utiliza el procedimiento de grupos equivalentes, hay que demostrar que los grupos son realmente equivalentes.
✔️Características del Banco de Ítems

➖Deben presentarse la distribución de las estimaciones de los parámetros de los ítems y los estadísticos descriptivos de las estimaciones.
➖Hay que ofrecer la función de información para todo el Banco de Ítems.
✔️Selección de los ítems y puntuación del test

➖El procedimiento para la selección de los ítems y la estimación de la aptitud debe documentarse con detalle.
➖El procedimiento debe incluir algún método para diversificar los ítems seleccionados, de modo que se evite el uso de unos pocos ítems exclusivamente.
➖El algoritmo utilizado debe ser capaz de aplicar determinados ítems y registrar las respuestas separadamente, sin interferir en el proceso adaptativo.
➖El ordenador debe ser capaz de basar la elección del primer ítem en información previa.
✔️Factores humanos

➖El entorno de la terminal donde se realiza el test debe ser tranquilo, confortable y estar libre de distracciones.
➖La pantalla debe ubicarse de modo que permita una correcta visibilidad.
➖La legibilidad de la pantalla debe evaluarse empíricamente.
➖La pantalla debe permitir la inclusión de diagramas que exigen mucho detalle.

Revisiones de los test editados en España

Desde 2010, el Consejo General de la Psicología de España ha revisado anualmente los test publicados en el país. Esta iniciativa busca garantizar una correcta aplicación de estos instrumentos, asegurando que tengan una base empírica sólida y que los psicólogos cuenten con la formación necesaria para su utilización.

Muñiz et al. (2011) enfatizaron la necesidad de instrumentos con propiedades psicométricas adecuadas. La meta es que los profesionales tengan acceso a información precisa sobre la calidad de los test disponibles, facilitando así su elección informada.

Para estandarizar la evaluación, se utilizó un modelo propuesto por la Comisión de Test de la European Federation of Psychologists’ Associations, adaptado al español. Este modelo, operativizado a través del Cuestionario de Evaluación de Test-Revisado (CET-R), examina varios aspectos de los test, desde la teoría subyacente hasta su validez y fiabilidad.

Desde 2011, se han revisado 55 test de diversas editoriales, con la colaboración de más de 100 expertos. Estas evaluaciones están disponibles en la web del Colegio Oficial de la Psicología en España.

La quinta revisión, liderada por Fonseca-Pedrero y Muñiz (2017), abarcó once test de cuatro editoriales. Aunque en general se encontró que los test eran adecuados, algunos presentaban deficiencias. Los autores sugirieron la inclusión de datos adicionales y estudios desde la Teoría de Respuesta al Ítem (TRI).

En conclusión, España está trabajando activamente en la revisión y mejora de los test psicológicos. Sin embargo, todavía queda trabajo por hacer, especialmente si nos comparamos con países con tradiciones más consolidadas en este ámbito, como Holanda o Estados Unidos.

Referencias

  • Moreno Rosset and Ramírez Uclés (2019) Evaluación psicológica : proceso, técnicas y aplicaciones en áreas y contextos. Madrid: Sanz y Torres.

Es importante destacar que el material publicado en esta página no es completamente original, sino que está compuesto, en gran medida, por resúmenes basados en diversos manuales de estudio, los cuales pueden estar mejor o peor referenciados. Además, algunos de estos resúmenes y contenidos se elaboran con el apoyo de herramientas de Inteligencia Artificial. Nos encantaría mejorar continuamente nuestras publicaciones, y para ello, valoramos mucho tus aportaciones. Si tienes comentarios, sugerencias o correcciones, te invitamos a dejarlos en la sección de comentarios. Tu participación nos ayudará a enriquecer y perfeccionar el contenido, haciéndolo más útil para todos.

error: Contenido protegido
Ir al contenido