D E M O C R A T O P I A

Los Instrumentos de Evaluación Psicológica y garantías de calidad

Tabla de contenidos

VERSIÓN 1.1

El estudiante debe diferenciar entre técnicas de evaluación psicológica, pruebas y test, así como identificar las distintas técnicas de evaluación psicológica con que puede contar el psicólogo (puntos 1 y 2 del tema). Así mismo, han de conocerse: qué aspectos generales se deben tener en cuenta para elegir los instrumentos de evaluación psicológica (punto 3 del tema); cómo aplicar correctamente estos instrumentos (punto 4 del tema) y; qué conocimientos se deber tener para corregirlos e interpretados adecuadamente (punto 5 del tema). Es importante conocer a fondo como se puntúan e interpretan los instrumentos de evaluación psicológica (punto 6 del tema), así como los criterios de calidad psicométricos de los mismos (punto 7 del tema). El punto número 8 (incluida tabla), referida a los principales criterios éticos referidos al uso y aplicación de los instrumentos de evaluación constituye materia de sólo lectura que no es necesario estudiar. El apartado 8.1, donde se realizan una serie de consideraciones sobre la evaluación en grupos diversos o multiculturales, si es necesario memorizarlo.

Equipo Docente.

Introducción

Los instrumentos de evaluación psicológica son herramientas utilizadas por los psicólogos en el proceso de evaluación para obtener información. Pueden recibir diferentes nombres, como técnicas, pruebas o tests. Estas herramientas varían en su grado de estandarización y cuantificación. Por ejemplo, las técnicas psicométricas son altamente estandarizadas y cuantificadas, mientras que otros enfoques, como la entrevista y las técnicas proyectivas, generalmente no lo son.

Los diferentes modelos de evaluación psicológica utilizan técnicas basadas en sus propios enfoques teóricos y objetivos. Algunos modelos, como el dinámico y el constructivista, emplean técnicas no estandarizadas para explorar el mundo inconsciente o las construcciones subjetivas de las personas. Otros, como el cognitivo-conductual, utilizan técnicas psicométricas para evaluar aspectos más cuantificables y cuentan con baremos para la comparación.

En realidad, la elección de la mejor técnica de evaluación depende del contexto, los objetivos y la formación del psicólogo. Un psicólogo experto puede obtener información valiosa a través de técnicas menos estructuradas, como la entrevista, si tiene experiencia y formación adecuadas. Además, las tecnologías modernas han facilitado la administración y corrección de pruebas, pero no reemplazan el proceso de evaluación, que implica comprensión, hipótesis y selección de instrumentos.

En resumen, la elección de la técnica de evaluación psicológica adecuada depende de varios factores, y todas pueden ser efectivas cuando se aplican correctamente por un profesional con el conocimiento y la experiencia adecuados. El proceso de evaluación implica una serie de fases, desde la interacción con la persona evaluada hasta la entrega de respuestas, y requiere un enfoque integral y un uso adecuado de los recursos disponibles.

Las técnicas de evaluación psicológica

Este manual aborda una variedad de técnicas de evaluación psicológica, cada una de las cuales se selecciona en función de varios factores. En primer lugar, se consideran los objetivos de la evaluación, que pueden incluir diagnóstico, orientación, selección o intervención psicológica. Luego, se tienen en cuenta los contextos en los que se llevará a cabo la evaluación, como el ámbito clínico, educativo, de recursos humanos o forense. Por último, se consideran las diferentes fases del proceso de evaluación psicológica.

  • La entrevista, es una técnica que se utiliza en todo el proceso de evaluación psicológica, pero varía según el contexto y el objetivo. Por ejemplo, la entrevista inicial puede diferir en duración y contenido de las entrevistas que se utilizan durante la aplicación de pruebas, la entrega de resultados o la intervención terapéutica.
  • La observación, por otro lado, es una técnica que establece varios tipos de registros, ya sea para observación propia o de otros, y se aplica de manera más flexible en las primeras fases de la evaluación y con mayor sistematicidad en etapas posteriores.
  • Las técnicas psicométricas son aquellas que están estandarizadas y cuentan con baremos para la interpretación. Estas técnicas incluyen cuestionarios, inventarios y escalas y se aplican generalmente después de las entrevistas y observaciones.
  • Las técnicas proyectivas, como el Test de Rorschach o el Test del Dibujo de la Familia, a menudo se denominan «tests», pero no son técnicas psicométricas a menos que estén estandarizadas y cuenten con baremos. Algunas de ellas, como el Test del Dibujo de dos Figuras Humanas, han incorporado métodos cuantitativos y psicométricos, lo que las convierte en «tests» proyectivos.
  • Las técnicas subjetivas evalúan los significados personales de la persona y su mundo utilizando categorías lingüísticas. Algunas de estas técnicas, como los listados de adjetivos, han incorporado normas de corrección y aplicación, lo que las convierte en «tests» psicométricos. Estas técnicas son útiles durante el proceso de evaluación y la intervención terapéutica.
  • Las técnicas objetivas utilizan dispositivos para registrar y analizar variables cognitivas, motoras y psicofisiológicas de manera que el sujeto no pueda influir en los resultados ni el evaluador pueda intervenir en ellos. Estas técnicas se aplican en fases más avanzadas del proceso de evaluación debido a su mayor objetividad.

En resumen, la elección de la técnica de evaluación psicológica depende de múltiples factores y puede variar según los objetivos, los contextos y las etapas del proceso de evaluación. Aunque los diferentes enfoques psicológicos pueden preferir ciertas técnicas, cada psicólogo debe adquirir la formación y competencias necesarias para seleccionar y aplicar adecuadamente las técnicas que mejor se adapten a las necesidades de la persona evaluada. Además, es fundamental que el evaluador se conozca a sí mismo y esté comprometido en ofrecer un servicio profesional con empatía y comprensión hacia los demás.

¿ Qué aspectos generales se deben tener en cuenta para elegir un instrumento de evaluación psicológica?

Antes de llevar a cabo cualquier evaluación, es crucial que el psicólogo defina con precisión los objetivos de la misma. Esto implica identificar las variables, constructos o dimensiones que se pretenden evaluar, así como determinar a quién va dirigida la evaluación, teniendo en cuenta factores como la edad y las características individuales de la persona que será evaluada. Además, la elección de las pruebas a utilizar dependerá en gran medida de la fase del proceso de evaluación en la que nos encontremos.

El contexto en el que se realiza la evaluación también desempeña un papel fundamental en la selección de las herramientas adecuadas. Ya sea en un entorno clínico, educativo, laboral, jurídico u otro, es necesario considerar aspectos como la duración de la prueba, el tipo de administración (individual o grupal) y el formato de presentación de la misma.

Otro aspecto a tener en cuenta al seleccionar instrumentos de evaluación es el nivel de estructuración de sus ítems o estímulos, así como el tipo de respuestas requeridas. Además, es importante evaluar el grado de enmascaramiento de las pruebas, es decir, en qué medida los participantes pueden deducir el propósito real de la evaluación.

La calidad de los instrumentos de evaluación es un aspecto crítico, por lo que es esencial conocer las garantías de calidad de las pruebas seleccionadas. En todos los casos, el evaluador debe poseer el conocimiento y la formación necesarios para administrar, corregir e interpretar adecuadamente las pruebas.

La adquisición de destrezas y el entrenamiento en la aplicación de pruebas son fundamentales. Se recomienda realizar prácticas supervisadas para familiarizarse con los instrumentos de evaluación. Además, se han establecido normas para el uso de pruebas, clasificándolas en tres niveles según el nivel de conocimiento y experiencia requerido:

  • Nivel A: Requiere formación y experiencia específica en el ámbito de aplicación y se pueden administrar, corregir e interpretar con la ayuda del Manual.
  • Nivel B: Requiere conocimiento teórico sobre pruebas y estadísticas, respaldado por una titulación académica que garantice el entendimiento de la construcción y uso de pruebas.
  • Nivel C: Exige titulación superior en Psicología, Psiquiatría o Psicopedagogía, así como experiencia en diagnóstico clínico. Este nivel se aplica a pruebas complejas que requieren una preparación y práctica extensas.

Imagina que un psicólogo trabaja en una clínica y tiene como objetivo evaluar la ansiedad en un paciente que ha sido derivado a su consulta. Antes de realizar la evaluación, el psicólogo se toma el tiempo necesario para comprender a fondo el propósito de la evaluación y los objetivos específicos. En este caso, el objetivo es medir el nivel de ansiedad del paciente para determinar si requiere tratamiento.

El psicólogo también considera la edad y las características individuales del paciente. En este caso, el paciente es un adulto joven que experimenta síntomas de ansiedad, por lo que se busca un instrumento adecuado para esta población.

Dado que se trata de una evaluación en un entorno clínico, el psicólogo decide utilizar una escala de autoevaluación de ansiedad que ha demostrado ser eficaz en adultos jóvenes en situaciones clínicas similares. La elección de esta escala se basa en su brevedad y facilidad de administración, lo que permite una evaluación rápida y efectiva en el contexto clínico.

El psicólogo también tiene en cuenta el nivel de estructuración de la escala y su enmascaramiento. La escala es clara y directa en su enfoque en la ansiedad, lo que minimiza la posibilidad de que el paciente deduzca el propósito real de la evaluación.

Antes de administrar la escala, el psicólogo se asegura de estar completamente familiarizado con el instrumento y sus instrucciones. Además, ha recibido formación en la interpretación de los resultados para garantizar una evaluación precisa.

Una vez que se ha completado la evaluación, el psicólogo analiza los resultados en conjunto con el paciente y, en función de estos resultados y de su experiencia clínica, determina si se requiere un tratamiento adicional para abordar la ansiedad del paciente.

En este ejemplo, el psicólogo ha seguido un proceso cuidadoso y ético al seleccionar y administrar un instrumento de evaluación adecuado para el propósito y el contexto específico de la evaluación clínica de la ansiedad en un paciente adulto joven. Esto garantiza que la evaluación sea precisa y que se puedan tomar decisiones informadas sobre el tratamiento necesario.

En resumen, la ética y la deontología deben guiar todo el proceso de evaluación psicológica, desde la definición de objetivos hasta la elección y aplicación de instrumentos. La formación continua y la experiencia son esenciales para garantizar una evaluación precisa y ética.

¿Cómo aplicar correctamente los instrumentos de evaluación psicológica?

Los manuales de los instrumentos de evaluación han evolucionado con el tiempo, incorporando cada vez más información relevante tanto sobre las normas de aplicación como sobre las buenas prácticas que deben seguirse para garantizar la validez y la precisión en la administración de las pruebas. Sin embargo, también han adquirido mayor conciencia sobre la importancia de considerar a las personas a las que se les aplicarán estas evaluaciones. A continuación, se detallan aspectos fundamentales que se encuentran presentes en estos manuales:

a) Establecimiento de un ambiente propicio: Se destaca la importancia de crear un ambiente adecuado durante la aplicación de las pruebas. Esto incluye considerar aspectos como la iluminación, la temperatura, el nivel de ruido y la prevención de interrupciones. Un ambiente tranquilo y cómodo contribuye a que la persona evaluada se sienta más relajada y concentrada.

b) Explicación del propósito y confidencialidad: Los evaluadores son instruidos para explicar claramente el objetivo de la evaluación a la persona que será evaluada. También se enfatiza la importancia de garantizar la confidencialidad de los resultados, asegurando que solo se compartirán con la propia persona evaluada o con quienes tengan su permiso.

c) Motivación y veracidad en las respuestas: Los evaluadores son alentados a motivar a las personas evaluadas para que participen activamente en el proceso y respondan con sinceridad. Se busca evitar respuestas sesgadas o poco honestas que puedan afectar la validez de los resultados.

d) Manejo del tiempo: En casos donde las pruebas tienen límites de tiempo para responder, se instruye a los evaluadores a indicar a los sujetos que den lo mejor de sí mismos sin generar ansiedad. Se busca encontrar un equilibrio para que la persona se sienta comprometida pero no abrumada.

e) Consideración de la edad: Si la persona evaluada es un niño, se subraya la importancia de proporcionar un entorno adecuado que incluya sillas y mesas ajustadas a su altura, de manera que se sientan cómodos y capaces de interactuar con los materiales. Se recomienda tener juegos disponibles en caso de necesitar una pausa.

f) Adaptación a necesidades especiales: Si la persona evaluada tiene alguna deficiencia sensorial o discapacidad, se enfatiza que el evaluador debe ajustarse a sus necesidades específicas para garantizar una evaluación justa y precisa.

g) Preparación meticulosa: Se instruye a los evaluadores para que preparen los materiales con anticipación, colocándolos en lugares adecuados en la mesa. Además, se destaca la importancia de que el evaluador no revele accidentalmente información relevante al sujeto, como respuestas correctas o anotaciones.

En todos los casos, se enfatiza que el psicólogo debe leer y estudiar a fondo el manual de la prueba que se aplicará. Esto incluye la preparación adecuada del lugar de administración y de los materiales necesarios. El seguimiento preciso de las instrucciones del manual garantiza que todas las personas evaluadas reciban las mismas y exactas indicaciones, lo que minimiza posibles errores del evaluador y evita sesgos en la evaluación, como la influencia de la deseabilidad social en las respuestas.

Imaginemos que un psicólogo está llevando a cabo una evaluación para medir la inteligencia de un niño de 10 años en su consulta. Para garantizar una evaluación válida y precisa, el psicólogo sigue las siguientes pautas:

  1. Creación de un ambiente propicio: El psicólogo ha preparado su consultorio de manera que sea acogedor y libre de distracciones. Asegura que la iluminación sea adecuada, la temperatura sea confortable y que haya silencio en la sala.
  2. Explicación del propósito y confidencialidad: Antes de comenzar, el psicólogo se comunica con el niño de una manera amigable y comprensible. Le explica que están realizando una evaluación para comprender sus habilidades y que los resultados serán confidenciales, compartidos solo con sus padres o tutores si él está de acuerdo.
  3. Motivación y veracidad en las respuestas: El psicólogo utiliza un lenguaje alentador para motivar al niño a hacer lo mejor que pueda durante la evaluación. Le asegura que no hay respuestas correctas o incorrectas y que lo más importante es que responda sinceramente.
  4. Manejo del tiempo: Si la prueba tiene límites de tiempo, el psicólogo le explica al niño que es importante trabajar con rapidez, pero sin sentirse presionado. Le da un ejemplo sencillo para que comprenda la noción de tiempo limitado.
  5. Consideración de la edad: El psicólogo ha preparado una mesa y sillas que se adaptan perfectamente al tamaño del niño. Asegura que el niño se siente cómodo y puede ver claramente los materiales.
  6. Adaptación a necesidades especiales: Si el niño tiene alguna necesidad especial, como dificultades visuales o auditivas, el psicólogo ha tomado medidas para adaptar la evaluación, como proporcionar ayudas visuales o utilizar un lenguaje específico.
  7. Preparación meticulosa: Antes de la evaluación, el psicólogo revisa el manual de la prueba, organiza los materiales de manera ordenada y se asegura de que estén fuera de la vista del niño.

Siguiendo estas pautas, el psicólogo crea un entorno propicio y una experiencia positiva para el niño durante la evaluación. Esto contribuye a que el niño se sienta relajado, motivado y capaz de responder con sinceridad, lo que, a su vez, aumenta la validez de los resultados de la evaluación.

En resumen, estos aspectos destacan la importancia de un enfoque cuidadoso y ético en la administración de instrumentos de evaluación psicológica, asegurando que se realicen en condiciones óptimas y de manera uniforme para obtener resultados válidos y confiables.

Fuentes de error de los instrumentos de evaluación psicológica

Los instrumentos de evaluación pueden presentar errores debidos a factores relacionados con los creadores de las pruebas, los evaluadores y los evaluados. Entre los errores relacionados con los creadores se encuentran: 1) problemas en el contenido de la prueba; 2) la falta de estabilidad en las puntuaciones a lo largo del tiempo; 3) las diferencias en la administración o corrección por diferentes evaluadores en momentos distintos.

En cuanto a los evaluados, es importante que el evaluador se asegure de que factores como el cansancio, el nerviosismo o la atención no influyan en los resultados de la evaluación, especialmente en evaluaciones con niños o personas mayores. Se debe planificar cuidadosamente la selección y orden de las pruebas para mantener la motivación de los evaluados.

Por parte del evaluador, además de poseer los conocimientos técnicos para aplicar, corregir e interpretar las pruebas, es esencial cuidar su propio estado físico y emocional. Tomar pequeños descansos entre evaluaciones y mantener una actitud tranquila y empática hacia los evaluados es crucial para evitar sesgos y obtener resultados precisos.

Se recomienda dedicar tiempo previo a las evaluaciones para centrarse y estar atento al momento presente. La meditación o el mindfulness pueden ser útiles para calmar la mente antes de comenzar. La comunicación no verbal, como la postura y la expresión facial, también juega un papel importante en la comunicación con los evaluados.

Finalmente, es esencial que los psicólogos utilicen sus habilidades y fortalezas intelectuales y emocionales, al tiempo que reconozcan y trabajen en sus propias debilidades. Esto generará confianza en los evaluados y facilitará una evaluación psicológica efectiva y profesional.

¿Qué conocimientos se deben tener para corregir e interpretar un instrumento de evaluación psicológica?

Es esencial considerar varias características al elegir un instrumento de evaluación, como el objetivo de la evaluación, el grupo de personas a quienes se aplicará y el contexto. Además, es fundamental ser un profesional competente y seguir buenas prácticas en evaluación psicológica.

Para realizar una evaluación efectiva, se requiere una sólida formación que permita corregir e interpretar las pruebas de manera adecuada. Esto implica comprender las variables que se evalúan, cómo se relacionan con otros constructos, y conocer los modelos que respaldan la construcción de la prueba, su contenido y a quién se dirige. También es importante comprender la metodología de aplicación, puntuación, corrección y los estándares de calidad asociados.

Conocer las variables que evalúa un instrumento y su interrelación con otros constructos

En el plan de estudios de Psicología, las asignaturas están estrechamente relacionadas, y la «Evaluación Psicológica» pone en práctica los conocimientos adquiridos en todas ellas. Para evaluar constructos o variables, es esencial comprender sus características fundamentales. Por ejemplo, al utilizar un instrumento para medir la depresión, debemos conocer sus signos y síntomas. De manera similar, al evaluar la personalidad desde diferentes modelos, como el de Eysenck o los Cinco Grandes Factores, es crucial entender el significado de las dimensiones evaluadas para interpretar y explicar los resultados. Además, en la evaluación del desarrollo y la inteligencia, es necesario comprender los procesos evolutivos en diversas etapas del ciclo vital, desde la infancia hasta la vejez, y estudiar en detalle aspectos cognitivos, psicomotores y lingüísticos, así como factores afectivos como la motivación, el autoconcepto y la atención. Anastasi y Urbina (1998) subrayan que no se pueden analizar las aptitudes por separado de las variables afectivas, ya que los estados emocionales transitorios y los rasgos de personalidad acumulados tienen un impacto significativo en el desarrollo intelectual. En resumen, la Psicología requiere un enfoque integral que considere la interacción entre personalidad, aptitudes y variables emocionales en la evaluación psicológica.

Conocer los modelos que han guiado la construcción de los instrumentos

Para interpretar correctamente los resultados de las pruebas de evaluación psicológica, es esencial comprender las bases conceptuales que han guiado la construcción de los tests. Por ejemplo, al analizar los tests de desarrollo e inteligencia, es útil conocer el modelo CHC de Cattell-Horn-Carroll que subyace en muchos de ellos. Comprender este modelo jerárquico, que incluye factores generales, aptitudes intelectuales de segundo orden y aptitudes específicas, proporciona una visión profunda de lo que cada prueba evalúa.

Además, es crucial familiarizarse con las bases psicométricas, como la Teoría de Respuesta al Ítem (TRI), que influyen en la creación de los ítems y su dificultad. Al conocer estos aspectos, los evaluadores pueden interpretar con precisión las puntuaciones obtenidas en cada instrumento. Por ejemplo, en el BAS-II, se puede observar cómo los Índices Varían según la edad y cómo evalúan aspectos diferentes de la inteligencia cristalizada y el procesamiento verbal complejo.

Una vez que comprendamos el modelo teórico subyacente a la construcción de las pruebas, podremos interpretar de manera más efectiva la información proporcionada por cada una de ellas. En la Tabla se resaltan los Índices que el BAS-II ofrece para diferentes rangos de edad, que incluyen el Índice General (IG) y el Índice General No verbal (IGNV) correspondientes al nivel III de la teoría factorial CHC, así como los Índices relacionados con el estrato II, que abarcan el Índice Verbal (IV), el Índice de Razonamiento Perceptivo (RP), el Índice Espacial (IE) y el Índice de Razonamiento No Verbal (RNV).

indice bas2
Índices del BAS-II

Es vital entender que las pruebas de inteligencia y desarrollo se basan en modelos teóricos específicos que determinan sus estructuras y contenidos. Por ejemplo, las pruebas de velocidad de procesamiento pueden variar en su aplicación y significado entre distintas escalas. Es importante notar las diferencias entre las pruebas, como en el caso del BAS-II y las Escalas de Wechsler, para evitar malentendidos al interpretar los resultados.

En última instancia, esta comprensión detallada de los fundamentos conceptuales y psicométricos permite una interpretación más precisa y significativa de las pruebas, lo que resulta fundamental para una evaluación psicológica correcta y fiable.

Conocer lo que mide un test, la población y el contexto de aplicación

Es esencial comprender a fondo las pruebas de evaluación, incluyendo qué aspectos miden, cómo lo hacen, las edades en las que se aplican, los temas abordados, el contexto adecuado para su uso, los métodos de puntuación e interpretación, así como sus ventajas y limitaciones.

Imaginemos una situación en la que deseamos evaluar a un niño de entre 2:6 y 3:11 años y estamos interesados en obtener información detallada sobre su formación de conceptos y razonamiento verbal. Si el BAS-II, diseñado para este rango de edad, solo proporciona el Índice General (IG), debemos explorar otras pruebas que puedan proporcionar la información requerida.

En el capítulo sobre Evaluación de la Inteligencia, al analizar las Escalas de Wechsler, notamos que el WPPSI-IV, aplicable a niños de 2:6 a 3:11 años, ofrece la puntuación CI Total, equivalente al Índice General (g). Además, permite calcular otros Índices como el Índice Comprensión Verbal y el Índice Visoespacial, que reemplazan las Escalas Verbal y Manipulativa de versiones anteriores de las Escalas de Wechsler. Por lo tanto, podríamos optar por el WPPSI-IV para evaluar el conocimiento verbal adquirido, la formación de conceptos verbales y el razonamiento verbal.

Esta información detallada y más se encuentra en los manuales de pruebas catalogados en la categoría «e», los cuales a menudo incluyen dos manuales: uno de Aplicación y Corrección, y otro, el Manual Técnico, que proporciona información detallada sobre qué mide cada índice y cómo comparar las puntuaciones para lograr una interpretación precisa.

En cuanto a la población y el contexto de aplicación de los instrumentos de evaluación, debemos destacar que las Escalas de Wechsler, como el WPPSI-IV y el WISC-V, se utilizan principalmente para evaluar a niños y adolescentes en el contexto educativo y, en algunos casos, en evaluaciones clínicas y neuropsicológicas. Por otro lado, el WAIS-IV se emplea principalmente para medir la inteligencia en adultos y se administra en un contexto clínico.

Además, existen otras pruebas como el BAT-7, diseñado para evaluar a personas entre 12 y 60 años, que resulta adecuado tanto en el contexto educativo como en el laboral. Este test mide la capacidad general o factor «g», lo que lo convierte en una herramienta útil en los procesos de selección de personal, complementándose con otras pruebas de personalidad y entrevistas estructuradas.

En situaciones en las que necesitamos evaluar la inteligencia de personas con problemas de lenguaje o que no dominan el español, el test MATRICES emerge como una elección acertada. Este test, que minimiza el uso de contenido verbal, evalúa la Inteligencia General o factor «g» a través de estímulos no verbales, lo que permite la evaluación de la capacidad para resolver problemas complejos y razonar con contenido abstracto. No obstante, como hemos explicado anteriormente, es fundamental comprender qué aspectos evalúa cada prueba y, en caso necesario, complementarla con otras pruebas que midan la inteligencia cristalizada u otros aspectos específicos.

Conocer la forma de puntuación, corrección e interpretación de un test

El proceso de puntuación y corrección de las pruebas, como las Escalas de Aptitudes Intelectuales (BAS-II-Escolar), es crucial para su interpretación. A continuación, se resume el proceso que se debe seguir para evaluar a un niño de 11 años y 7 meses de edad y obtener información significativa:

  1. Se aplican los test principales siguiendo las instrucciones exactas del Manual.
  2. En el Cuadernillo de anotación, se registran y puntúan los aciertos y fallos de cada ítem de los test principales.
  3. La suma de las respuestas correctas en cada test se traduce en Puntuaciones Directas (PO). Las Puntuaciones de Aptitud (PA) se obtienen utilizando tablas que consideran la dificultad de los ítems respondidos, un enfoque relacionado con la Teoría de Respuesta al Ítem (TRI).
  4. Las PA de los test principales se convierten en puntuaciones normativas T y percentiles, lo que permite conocer el desempeño del niño en comparación con su grupo de referencia en las aptitudes específicas evaluadas.
  5. Se calculan puntuaciones compuestas para los tres Índices de aptitud intelectual: Verbal (IV), Razonamiento no verbal (RNV) y Espacial (IE). Estas puntuaciones se transforman en puntuaciones de Cociente Intelectual (CI) consultando los baremos correspondientes. Estos CI representan aptitudes generales de segundo orden correspondientes al estrato II.
  6. La suma de las tres puntuaciones T de los índices de aptitudes intelectuales genera la puntuación T del Índice general, que se convierte en la puntuación de CI. Esta puntuación CI proporciona una medida del factor «g», que representa una interpretación general o Estrato l.
  7. Además, el BAS-II ofrece la posibilidad de realizar análisis más detallados, como la comparación entre índices y pruebas, que no se detallan aquí.
Puntuaciones índicesCategorías
130 y másMuy alta
120-129Alta
110-119Media-Alta
90-109Media
80-89Media-Baja
70-79Baja
69 y menosMuy baja
Categorías pertenecientes a las puntuaciones de los Índices del BAS-II (adaptada de TEA Ediciones).

Es fundamental destacar que la interpretación precisa de estas pruebas requiere una formación específica y experiencia en su administración y corrección. Los profesionales que las utilizan deben estar familiarizados con las tareas de cada prueba, y en el caso de aplicaciones colectivas, deben ser competentes en el manejo de grupos numerosos. Además, la supervisión de un profesional cualificado puede ser necesaria en ciertos casos.

La interpretación de los resultados de las pruebas psicológicas es un proceso delicado y requiere una comprensión profunda de las cuestiones aplicables a la evaluación psicométrica. Esto subraya la importancia de estudiar y entender a fondo los manuales de aplicación y corrección de estas pruebas.

basss2
Resultados del caso B extraído del Manual técnico del BAS-II y reproducidos sin el permiso de TEA Ediciones.

La niña B obtuvo un Índice General (IG) de 91, lo que clasifica su rendimiento general como «medio». Las puntuaciones en los índices Verbal (IV) y Razonamiento no verbal (RNV) son 90 y 91, respectivamente, también clasificadas como «medias», aunque en el límite inferior de ese rango. La puntuación de 104 en el índice Espacial (IE) también se considera «media», a pesar de ser mayor que las otras dos puntuaciones. El Cuadernillo de anotación indica que una diferencia de 13 puntos entre el IG y el IE es estadísticamente significativa al nivel del 0,05, lo que significa que la diferencia que presenta la niña es importante. Por lo tanto, se debe interpretar el IE como una puntuación relativamente más alta que la combinación de sus índices IV y RNV. Al consultar el manual y observar la frecuencia de las diferencias entre los índices IG e IE para la edad de 6:00 a 17:11 años, se encuentra que la diferencia observada de 13 puntos ocurre en una frecuencia (%) entre 15-25, lo que significa que se produce en más del 15% de los casos. A pesar de que estas diferencias son estadísticamente significativas, también son relativamente comunes, lo que es importante tener en cuenta en el proceso de evaluación o en evaluaciones futuras. De manera similar, se observa una diferencia de 9 puntos en el test «Definiciones» en comparación con la media de los test principales, lo cual también se encuentra en más del 15% de los casos de niños de la misma edad que la niña evaluada. Esto sugiere que, aunque estas diferencias son estadísticamente significativas, son frecuentes y deben considerarse en el proceso de evaluación.

Conocer las puntuaciones y los criterios de calidad de los instrumentos de evaluación

La elección de una herramienta de evaluación psicológica también depende de la comprensión de las puntuaciones que se pueden obtener y de la evaluación de sus propiedades psicométricas, lo que implica asegurarse de que las pruebas midan de manera confiable y válida lo que se pretende evaluar. Estos aspectos son esenciales en el desarrollo de pruebas psicológicas y requieren un profundo conocimiento y experiencia en su aplicación.

Las puntuaciones y criterios de calidad suelen estar detallados en los manuales de las pruebas psicométricas. Estos manuales ofrecen información sobre la estandarización de las pruebas, incluyendo las normas para su administración y recopilación de respuestas. Es importante destacar que estas medidas son difíciles de aplicar a técnicas distintas, como las proyectivas, que tienen características diferentes. Sin embargo, es posible realizar análisis de consistencia interna y validez interjueces o concurrente al combinar técnicas psicométricas y proyectivas en la evaluación psicológica.

En el ámbito infantil, el dibujo se utiliza como una forma de expresión que refleja cómo el niño percibe su entorno, su familia, sus emociones y otros aspectos. El Test de la Figura Humana, por ejemplo, evalúa el desarrollo emocional y madurativo del niño y se integra en escalas como la de McCarthy. También se han desarrollado pruebas específicas, como el Test del Dibujo de Dos Figuras Humanas (T2F), que cuentan con normas estandarizadas y han demostrado su capacidad diagnóstica a través de estudios de fiabilidad y validez.

Es fundamental comprender que la formación en evaluación psicológica es esencial, y cada profesional puede tener preferencias y habilidades en la elección de las herramientas de evaluación. Sin embargo, la evaluación debe realizarse de manera adecuada y basarse en el conocimiento sólido de todas las consideraciones mencionadas anteriormente. Además, la formación continua es esencial en esta profesión, ya que los avances en la psicología y las pruebas psicométricas requieren una actualización constante de conocimientos.

Las puntuaciones en los instrumentos de evaluación psicológica

Es crucial conocer las puntuaciones y propiedades psicométricas de un instrumento de evaluación psicológica al seleccionarlo, ya que estas cualidades son fundamentales en su desarrollo, adaptación y aplicación.

Interpretación de las puntuaciones en los test psicológicos

Cuando alguien realiza un test, el evaluador recibe una puntuación directa o bruta (PD). Esta es simplemente un número que refleja el desempeño del individuo según las instrucciones del manual, pero no tiene significado intrínseco. Por ejemplo, una alta PD puede ser buena en un test de aptitud pero negativa en uno psicopatológico.

En test como el BAS-II, que utiliza la Teoría de Respuesta al Ítem, además de la puntuación directa (PD), se incluyen las Puntuaciones de Aptitud (PA). Dado que las PD no son directamente comparables entre sí, se transforman en PA para representar el rendimiento real en el test basándose en la dificultad de los ítems y las respuestas correctas. Estas puntuaciones no son normativas y solo establecen una escala común de rendimiento basada en los ítems aplicados.

Para interpretar estas puntuaciones, es necesario compararlas con los contenidos del test o con el rendimiento de otros en un grupo normativo. Los tests se basan en criterios de rendimiento (para Test Referidos al Criterio) y en baremos (para Test Referidos a la Norma) para dar significado a las puntuaciones obtenidas.

Criterios de rendimiento

A veces, los ítems de un test están directamente relacionados con estándares de rendimiento, lo que nos da criterios específicos para evaluar. En estos escenarios, la puntuación de una persona se interpreta con respecto a un criterio, mostrando cuánto domina una habilidad específica. Estos tests, llamados «referidos a criterio», son útiles para medir el conocimiento de un individuo en un área particular o su progreso personal. Permiten determinar si se han logrado ciertos niveles de habilidad y en qué grado. Son muy utilizados en evaluación educativa. Por ejemplo, si alguien responde correctamente al 90% de un test, indica que ha dominado el 90% de lo que el test evalúa.

Estas pruebas, a menudo, establecen puntos de corte para distinguir entre aquellos que dominan una tarea o tienen un trastorno específico. Ejemplos incluyen el Inventario de Desarrollo Battelle, el Beck Depression Inventory (BDI-II), el Beck Anxiety Inventory (BAI) y la Guía de Educación de Preescolar Portage. Hay tests, como el Cuestionario compeTEA, que ofrecen interpretaciones tanto normativas como criteriales, brindando más detalle e información al evaluador.

Ejemplo: Prueba de Matemáticas Referida a Criterio

Supongamos que hay un test diseñado específicamente para medir la habilidad de los estudiantes de cuarto grado en fracciones. El criterio establecido es que los estudiantes deben ser capaces de:

  1. Identificar fracciones en una recta numérica.
  2. Sumar y restar fracciones con el mismo denominador.
  3. Comparar fracciones usando los signos <, > o =.

El test consta de 30 preguntas, 10 para cada habilidad mencionada. Si un estudiante responde correctamente a 27 de las 30 preguntas, eso significa que ha dominado el 90% de las habilidades relacionadas con las fracciones según el test.

Al revisar detalladamente, el docente podría determinar que el estudiante falló en 3 preguntas relacionadas con la suma y resta de fracciones. Esto indica que, aunque tiene un dominio general alto (90%), todavía necesita trabajar específicamente en la habilidad de sumar y restar fracciones.

Con esta información, el maestro puede adaptar su enseñanza o proporcionar materiales adicionales para ayudar al estudiante a mejorar en esa área en particular. No se necesita comparar la puntuación del estudiante con otros en su grado o edad, porque el enfoque está en su dominio personal del material, no en cómo se desempeña en relación con los demás.

Interpretación en función de baremos

Los baremos representan el rendimiento típico de uno o varios grupos de referencia en un test específico. Permiten interpretar la puntuación directa de un individuo comparándola con un grupo normativo. Estas tablas convierten la puntuación directa de un individuo en un valor que indica su posición relativa al grupo de referencia.

La interpretación basada en baremos facilita la comparación de individuos entre sí o con un grupo normativo, mostrando diferencias en el atributo que mide el test. La mayoría de los tests requieren de estos baremos para su interpretación.

El proceso de baremación implica crear escalas de valores para categorizar las puntuaciones según características específicas. En esencia, son tablas que transforman las puntuaciones directas obtenidas en el test en relación con un grupo normativo.

En resumen, los baremos asignan un valor numérico a cada puntuación directa, mostrando cómo se compara esa puntuación (y por ende, la persona) con las del grupo normativo. Hay diversas maneras de realizar esta baremación. Destacamos las siguientes: baremos cronológicos, puntuaciones centiles o percentiles y baremos típicos.

Baremos cronológicos

Los baremos cronológicos son esenciales para comparar puntuaciones de individuos con sus pares de edad, siendo especialmente relevantes en poblaciones infantiles y en tests de inteligencia general. Aunque ciertos baremos, como la Edad Mental (EM) y Edad Cronológica, han caído en desuso, han sido reemplazados por conceptos más actuales, como el Cociente Intelectual (CI) de Desviación.

La EM indica la puntuación promedio que obtiene una población de una edad específica en un test. Sin embargo, tiene limitaciones, como que el incremento de un año en edad mental no tiene el mismo valor a lo largo del desarrollo del individuo.

El CI tradicional se calcula dividiendo la EM por la edad cronológica y multiplicando por 100. A modo de ejemplo, si un niño de 10 años obtiene una puntuación que es típica de un niño de 12 años, su CI sería 120.

A pesar de su popularidad, estos conceptos tienen limitaciones, como que no consideran el factor de edad en comparaciones. El CI de Desviación, una puntuación estándar con un promedio de 100 y desviación típica de 15, supera algunas de estas limitaciones, indicando cuánto se desvía un sujeto del promedio de su grupo de referencia.

Algunos tests, como las Escalas Bayley de Desarrollo Infantil III, utilizan Puntuaciones de Desarrollo. Estas proporcionan una escala para medir el progreso del sujeto con el tiempo, siendo útiles para seguimientos periódicos y analizar evolución en rendimiento a lo largo del tiempo.

Ejemplo: Test de habilidades matemáticas en niños

Imagina que aplicamos un test de habilidades matemáticas a niños de entre 5 y 10 años. Este test ha sido baremado previamente con un grupo normativo de niños en ese rango de edad.

1. Edad Mental (EM): Supongamos que un niño de 7 años realiza el test y obtiene una puntuación que es la media de lo que suelen obtener los niños de 9 años. En este caso, decimos que su Edad Mental (EM) para habilidades matemáticas es de 9 años.

2. Cociente Intelectual (CI): Para calcular su CI tradicional, dividimos su EM (9 años) entre su edad cronológica (7 años) y multiplicamos por 100:
CI = (9/7) x 100 = 128.57. Esto significa que el niño tiene un CI de aproximadamente 129, lo que indica que sus habilidades matemáticas son superiores al promedio de niños de su edad.

3. CI de Desviación: Si consideramos que la puntuación promedio en el test para niños de su edad es 100 con una desviación estándar de 15, y el niño obtiene una puntuación que está a una desviación estándar por encima del promedio, su CI de Desviación sería 115.

Conclusión del ejemplo: A través de estos cálculos, se puede determinar que el niño de 7 años tiene habilidades matemáticas al nivel de un niño promedio de 9 años, con un CI tradicional de 129 y un CI de Desviación de 115, indicando que tiene habilidades superiores para su edad.

Puntuaciones centiles o percentiles

Los centiles, también llamados percentiles, son medidas que indican la posición relativa de una puntuación dentro de una distribución. Un valor en el percentil 80, por ejemplo, significa que un individuo ha obtenido una puntuación igual o superior al 80% del grupo de referencia y solo un 20% ha obtenido una puntuación más alta. Son herramientas útiles para interpretar tests, ya que asignan a cada puntuación directa un valor del 1 al 100, permitiendo conocer qué porcentaje de la población se sitúa por debajo de ese valor.

Por ejemplo, si en un test de perfeccionismo alguien obtiene una puntuación en el percentil 80, podemos inferir que esa persona es más perfeccionista que el 80% de la población de referencia.

Existen otros indicadores similares a los percentiles, como la mediana (que divide la distribución en dos, equivalente al percentil 50), los deciles (dividen en diez partes) y los cuartiles (dividen en cuatro).

Tomando como ejemplo la Batería de Aptitudes de TEA, BAT-7, para estudiantes de 3° ESO, una puntuación directa de 83 puntos en la escala de Concentración corresponde al percentil 65. Esto indica que el estudiante tiene una concentración superior al 65% de su grupo de edad. Otro ejemplo, en la Batería de Aptitudes Intelectuales BAS-II, muestra que un niño de casi tres años con una puntuación directa de 93 en construcción tiene una puntuación T de 58 y se sitúa en el percentil 79.

Ejemplo: Evaluación del rendimiento lector en niños

Imaginemos que estamos evaluando la fluidez lectora en niños de segundo grado utilizando un test estandarizado. La fluidez lectora se mide por la cantidad de palabras que un niño puede leer correctamente en un minuto.

Una vez aplicado el test, obtenemos las siguientes puntuaciones directas para un grupo de niños:

  • Niño A: 45 palabras por minuto
  • Niño B: 55 palabras por minuto
  • Niño C: 65 palabras por minuto
  • Niño D: 75 palabras por minuto

Luego de evaluar a varios niños, los resultados se organizan en percentiles. A partir de un baremo previamente establecido para niños de segundo grado, determinamos:

  • Percentil 25 (Cuartil 1): 50 palabras por minuto
  • Percentil 50 (Mediana o Cuartil 2): 60 palabras por minuto
  • Percentil 75 (Cuartil 3): 70 palabras por minuto

Analizando los resultados:

  • Niño A está por debajo del percentil 25, lo que indica que su fluidez lectora es inferior al 75% de los niños de su edad.
  • Niño B está entre el percentil 25 y 50, por lo que su rendimiento es superior al 25% de los niños pero inferior al 50%.
  • Niño C está entre el percentil 50 y 75, superando al 50% de los niños en fluidez lectora.
  • Niño D supera el percentil 75, lo que significa que tiene una fluidez lectora mejor que el 75% de los niños de su grado.

De este modo, los percentiles nos permiten situar el rendimiento de cada niño en relación con un grupo de referencia, ofreciendo un contexto para entender su desempeño en la tarea.

Baremos típicos

Las puntuaciones típicas, conocidas como «Zi«, indican cuántas desviaciones estándar está la puntuación de un sujeto respecto a la media de un grupo de referencia. Tienen una media de 0 y una desviación típica de 1. Una puntuación típica de 1.5, por ejemplo, significa que el sujeto está 1.5 desviaciones estándar por encima de la media.

Cuando las puntuaciones no siguen una distribución normal, se puede optar por «normalizar» estas puntuaciones. Las puntuaciones normalizadas, «Zni«, indican la posición de una puntuación dentro de una distribución normal.

Sin embargo, las puntuaciones Zi y Zni pueden ser difíciles de interpretar, especialmente cuando son decimales o negativas. Para solucionar esto, se realizan transformaciones lineales creando «puntuaciones derivadas», que mantienen la distribución original pero con medias y desviaciones estándar más interpretables.

Algunas puntuaciones derivadas comunes son:

  • Puntuaciones T: Media de 50, desviación estándar de 10.
  • Puntuaciones S: Media de 50, desviación estándar de 20.
  • Decatipos (DE): Media de 5.5, desviación estándar de 2.
  • Eneatipos (EN): Media de 5, desviación estándar de 2.
  • Escala de CI (Cociente Intelectual): Media de 100, desviación estándar de 15.
  • Puntuaciones Escalares (Pe): Media de 10, desviación estándar de 3.

Ejemplo:

Imagina un test de habilidad matemática para estudiantes de tercer grado. Si un estudiante tiene una puntuación Z de 1.5, esto significa que supera la media en 1.5 desviaciones estándar. Si esta Z se transforma en una puntuación T, el estudiante tendría una puntuación de 65 (media de 50 + 1.5 veces la desviación estándar de 10). Esta puntuación T de 65 indica que su habilidad matemática es superior a la media del grupo de referencia.

teea
Correspondencias entre diversas escalas transformadas.

Criterios de calidad psicométricos de los instrumentos de evaluación psicológica

La Evaluación Basada en la Evidencia (EBA) se apoya en la investigación y teorías científicas para: 1) elegir constructos relevantes a evaluar, 2) emplear instrumentos y técnicas validados y 3) implementar adecuadamente el proceso de evaluación (American Psychological Association, 2006; Hunsley & Mash, 2005). Esta evaluación, que combina evidencia científica, experiencia profesional y contexto del cliente, busca decisiones precisas, útiles y con repercusión positiva en el evaluado (Hunsley & Mash, 2007). La selección de herramientas adecuadas es esencial. Organismos como la APA, AREA, y NCME (2014) han delineado estándares para instrumentos psicológicos, mientras que la Comisión Internacional de Test (ITC) ha proporcionado directrices para la adaptación, uso y digitalización de pruebas (ITC, 2000, 2010, 2001, 2005a, 2005b). Un instrumento confiable debe estar estandarizado y mostrar fiabilidad y validez sólidas.

Fiabilidad

La American Psychological Association (APA) define la fiabilidad como la exactitud con la que un test mide, reflejando su consistencia y estabilidad. La fiabilidad indica cuánto concuerda una medida con un estándar preciso, y se relaciona inversamente con el error de medida: menor error implica mayor fiabilidad. Dado que las ciencias del comportamiento miden constructos no siempre directamente observables, están más propensas a errores. Estos errores pueden ser sistemáticos (desviaciones constantes de la medida real) o no sistemáticos (fluctuaciones aleatorias en la medida), influenciados por factores como el diseño del instrumento, el entorno de evaluación o la interpretación de los resultados. Estos factores pueden incluir condiciones ambientales, el estado emocional del evaluado o errores del evaluador. La fiabilidad, en esencia, se centra en cuantificar estos errores aleatorios en la medición (Muñiz, 1996). El objetivo es minimizar estos errores para garantizar una evaluación precisa y consistente.

Fiabilidad desde la Teoría Clásica de Test

La Teoría Clásica de los Test sostiene que la puntuación observada en un test (X) se compone de una puntuación real o verdadera (V) y un error no sistemático de medida (E). Esta puntuación real representa el promedio que se obtendría si el sujeto realizara el test infinitas veces. Sin embargo, solo podemos acceder a la puntuación observada en una sola toma del test. Los indicadores habituales de fiabilidad incluyen la consistencia interna, la estabilidad test-retest y la fiabilidad interjueces.

La consistencia interna mide cuán coherentes son los ítems de una escala en evaluar un constructo específico. Es un método común para calcular la fiabilidad. En esencia, se busca que todos los ítems de una escala se relacionen fuertemente entre sí, indicando que miden lo mismo. El coeficiente alfa de Cronbach es el estándar en ciencias sociales para esta medición: cuanto más cerca esté de 1, más fiable es el test. Un ejemplo de esto es el Test para la Evaluación Conductual de la Función Ejecutiva-Versión Infantil (BRIEF-P) que, según su adaptación española, mostró alta fiabilidad tanto en evaluaciones de padres como de profesores. Otro enfoque para medir la consistencia interna es el método de las dos mitades. En este, el test se divide en dos y se correlacionan los resultados de ambas partes. Sin embargo, este método tiene la limitación de solo representar la mitad del test, por lo que se usan fórmulas correctivas, como la de Spearman-Brown. El Error Típico de Medida (ETM) es crucial porque nos indica cuánto error podría haber en una puntuación específica. Es inversamente proporcional a la fiabilidad: a mayor fiabilidad, menor error. A partir del ETM, se pueden calcular intervalos de confianza que indican dónde se encontraría la verdadera puntuación de alguien con cierta probabilidad, siendo el 95% el nivel de confianza más común en psicometría.

brrieff
Coeficientes de consistencia interna de las muestras de tipificación de padres y profesores del BRIEF-P.

La estabilidad temporal, también conocida como fiabilidad test-retest, mide si un test proporciona resultados consistentes a lo largo del tiempo en variables que se consideran estables. Esta fiabilidad se evalúa aplicando el mismo test a un grupo de personas en dos momentos distintos y correlacionando las puntuaciones obtenidas en ambas ocasiones. Es crucial que durante el intervalo entre las aplicaciones no haya cambios significativos en la variable evaluada (AERA, 2014; Anastasi y Urbina, 1997). Un desafío en este método es determinar el periodo adecuado entre las pruebas para minimizar el efecto del recuerdo. Un alto coeficiente de estabilidad indica que el test tiene una buena consistencia temporal.

Imaginemos que un investigador desea evaluar la fiabilidad a lo largo del tiempo de un nuevo cuestionario que mide la satisfacción laboral en empleados de oficina.

  1. Primera aplicación: El investigador administra el cuestionario a un grupo de 100 empleados en una empresa específica.
  2. Segunda aplicación: Después de 3 meses (un período considerado suficiente para evitar el recuerdo de las preguntas pero no tanto tiempo como para que las condiciones laborales cambien significativamente), el mismo cuestionario se vuelve a administrar al mismo grupo de empleados.
  3. Análisis: El investigador correlaciona las puntuaciones de los empleados en la primera aplicación con sus puntuaciones en la segunda aplicación. Supongamos que obtiene un coeficiente de correlación de 0.85.
  4. Interpretación: Un coeficiente de 0.85 es relativamente alto, lo que indica que el cuestionario tiene una buena estabilidad temporal. Esto significa que, en general, los empleados que puntuaron alto en satisfacción laboral en la primera aplicación también lo hicieron en la segunda, y viceversa.

Este resultado proporcionaría confianza en que el cuestionario mide la satisfacción laboral de manera consistente a lo largo del tiempo, al menos en el intervalo de 3 meses. Por supuesto, otros aspectos de la fiabilidad y validez del cuestionario también deberían ser evaluados antes de considerarlo un instrumento confiable y válido para medir la satisfacción laboral.

La fiabilidad interjueces examina si hay concordancia entre evaluaciones realizadas por diferentes jueces o por el mismo juez en distintos momentos. Uno de los métodos comunes para calcular esta concordancia es el índice Kappa. Es esencial para el evaluador, ya sea en la investigación o en la práctica profesional, elegir métodos de cálculo apropiados y herramientas que demuestren niveles de fiabilidad elevados. Según criterios propuestos por diferentes expertos:

  • Para investigaciones iniciales, un coeficiente de fiabilidad de 0.50 a 0.60 puede ser aceptable.
  • En investigación básica, se prefiere una fiabilidad mínima de 0.80.
  • Para investigación aplicada, los valores deben oscilar entre 0.90 y 0.95.
  • En situaciones donde las decisiones impacten directamente a los individuos, la fiabilidad debe superar el 0.90.
  • Tests con fiabilidad entre 0.75 y 0.85 pueden servir para evaluaciones preliminares.
  • Cualquier prueba con fiabilidad inferior a 0.67 debería ser descartada debido a la alta presencia de error.

Imaginemos un estudio clínico donde se desea evaluar la severidad de síntomas de depresión en pacientes. Para ello, se utiliza una entrevista estructurada, y el procedimiento será que dos psicólogos clínicos diferentes (Juez A y Juez B) evaluarán a cada paciente de manera independiente.

Tras las entrevistas, los psicólogos otorgan una calificación del 1 al 5 a cada paciente, donde 1 indica «sin síntomas» y 5 «síntomas muy severos».

Se entrevista a 10 pacientes y estos son los resultados:

PacienteJuez AJuez B
Paciente 144
Paciente 232
Paciente 311
Paciente 445
Paciente 533
Paciente 622
Paciente 754
Paciente 833
Paciente 922
Paciente 1011

Utilizando el índice Kappa, encontramos que la concordancia entre los dos jueces es de 0.85, lo cual indica una buena fiabilidad interjueces.

En este escenario, el elevado índice Kappa sugiere que ambos psicólogos tienen una alta consistencia en sus evaluaciones y, por lo tanto, la herramienta o entrevista utilizada es fiable desde el punto de vista de la fiabilidad interjueces.

Fiabilidad desde la Teoría de Respuesta al Ítem

De acuerdo con Hambleton y Swaminathan (1985) en el contexto de la Teoría de Respuesta al Ítem (TRI), la fiabilidad se relaciona con la precisión con la que se mide el rasgo latente, vinculándose directamente con la información proporcionada por el test. En lugar de una única medida de fiabilidad para todo el test, la TRI sostiene que la fiabilidad puede variar según el nivel del rasgo que se esté evaluando. Birnbaum (1968) introdujo la idea de que la fiabilidad es la suma de la información de cada ítem del test. Así, en lugar de hablar de tests globalmente fiables, es más apropiado considerar la precisión del test en función de diferentes niveles del rasgo evaluado. Con la correcta comprensión de los parámetros de los ítems, se pueden diseñar tests que estimen con gran precisión el nivel de habilidad de los individuos evaluados.

Validez

La validez indica si un instrumento mide correctamente lo que pretende medir, siendo una característica esencial de cualquier herramienta de evaluación. A diferencia de la fiabilidad, que se refiere a la consistencia del instrumento, la validez se relaciona con la interpretación y significado de las puntuaciones obtenidas. Según los Standards for Educational and Psychological Testing (SEPT), la validación implica reunir evidencias que respalden la interpretación y uso del test. No se valida el instrumento en sí, sino las conclusiones derivadas de sus resultados.

Además, la validez no se representa mediante distintos tipos, sino como un concepto único que puede ser respaldado por diferentes tipos de evidencia. Una herramienta puede ser fiable (consistente en sus mediciones) sin ser válida, pero no puede ser válida si no es fiable. Es importante señalar que un error sistemático ocurre cuando un test mide constantemente algo distinto al objetivo para el que fue creado.

Silva (1989) destaca que: a) La validez se asocia a las conclusiones derivadas de las puntuaciones de un instrumento bajo ciertas condiciones. b) Las interpretaciones de los resultados son las que se validan, no el instrumento en sí. c) La validez se estima a partir de múltiples informaciones, no solo un coeficiente. d) Se deben considerar evidencias de validez, no tipos de validez.

En resumen, la validez es un concepto central en la evaluación, ligado a la interpretación correcta y significativa de los resultados obtenidos a través de un instrumento.

Métodos clásicos para el cálculo de la validez

La validez de un instrumento puede evaluarse mediante tres métodos clásicos:

  1. Validación del contenido: Mediante un análisis del contenido para asegurarse de que el instrumento cubre todos los aspectos relevantes del constructo que pretende medir.
  2. Validación referida al criterio: Estableciendo cómo las puntuaciones del test se relacionan con un criterio externo o con otras medidas.
  3. Validación del constructo: Analizando las características psicológicas específicas que la prueba intenta medir.

Cada uno de estos métodos proporciona una perspectiva única sobre la validez general del instrumento.

Validación del contenido

validez de contenido se refiere a cuán bien un instrumento captura una representación completa y pertinente del constructo que se pretende medir. Esencialmente, verifica si el test aborda adecuadamente todas las áreas relevantes y no omite aspectos cruciales. Para esto:

  1. Definición del Constructo: Antes de diseñar el test, es crucial definir claramente el constructo y sus dimensiones.
  2. Elaboración de Ítems: Los ítems se crean para abordar todas las dimensiones del constructo y luego se someten a revisión por expertos.
  3. Revisión por Expertos: Un panel de expertos evalúa si los ítems del test cubren adecuadamente el constructo. Usan escalas y criterios específicos, como la propuesta por Rovinelli y Hambleton (1997), para calificar la pertinencia de cada ítem.
  4. Validez Aparente: Es importante que el test parezca medir lo que afirma medir, aunque en algunas situaciones es preferible que el propósito no sea evidente.
  5. Validez Ecológica: Se refiere a cuán bien los resultados del test reflejan situaciones o comportamientos del mundo real.
  6. Validez Curricular e Instruccional: Evalúan si el test refleja objetivos específicos, como los de una institución educativa, o si captura el contenido y métodos de enseñanza relevantes.

En resumen, la validez de contenido garantiza que un test mida de forma completa y adecuada el constructo en cuestión, y es esencial para la confiabilidad de

Imaginemos que queremos desarrollar un cuestionario para medir la «Satisfacción Laboral» en una empresa.

Definición del Constructo: Primero, definimos «Satisfacción Laboral» como el grado en el que un empleado se siente contento, valorado y comprometido con su trabajo y la empresa.

Elaboración de Ítems: Creamos preguntas sobre varios aspectos: relación con compañeros, relación con superiores, percepción sobre el salario, oportunidades de desarrollo, ambiente de trabajo, entre otros.

Revisión por Expertos: Convocamos a un grupo de psicólogos organizacionales y expertos en recursos humanos. Ellos revisan el cuestionario y sugieren que se deben incluir ítems sobre la conciliación de la vida laboral y personal.

Validez Aparente: Al presentar una versión preliminar del cuestionario a un grupo pequeño de empleados, ellos comentan que las preguntas parecen relevantes y abordan aspectos cruciales de su experiencia laboral.

Validez Ecológica: Tras aplicar el cuestionario, descubrimos que los resultados reflejan adecuadamente las opiniones y sentimientos de los empleados, y concuerdan con entrevistas y focus groups realizados previamente.

Validez Curricular e Instruccional: Como parte del proceso de validación, se comparan los resultados del cuestionario con los objetivos y valores de la empresa. Se descubre, por ejemplo, que en departamentos donde se promueve activamente la formación continua, los empleados muestran mayores niveles de satisfacción en las oportunidades de desarrollo.

Gracias a este proceso de validación de contenido, la empresa puede confiar en que su cuestionario de «Satisfacción Laboral» es una herramienta robusta y precisa para medir cómo se sienten sus empleados respecto a su trabajo.

Validación referida al criterio

La validez del criterio evalúa la relación empírica entre las puntuaciones de un test y una variable o criterio externo. Esta validez busca determinar cuánto se asocia un instrumento con un criterio independiente. Para garantizarla, es vital que los criterios sean pertinentes, confiables, no sesgados y accesibles.

La técnica más directa para medir la validez de criterio es correlacionar las puntuaciones del test con el criterio. Si se consideran múltiples predictores o criterios, se necesitarán técnicas estadísticas avanzadas.

Hay tres enfoques principales para obtener validez de criterio:

  1. Predictiva: Mide cuán bien las puntuaciones del test predicen puntuaciones futuras en un criterio. Por ejemplo, cómo un examen de admisión predice el rendimiento académico futuro en la universidad.
  2. Concurrente: Aquí, el test y el criterio se miden simultáneamente, típicamente para validar un nuevo test comparándolo con uno ya validado.
  3. Retrospectiva: En este enfoque, el criterio se evalúa antes del test, útil para investigar aspectos pasados que ya no son accesibles mediante un test específico.

Aquí te doy ejemplos concretos para cada tipo de validez de criterio:

  1. Predictiva: Imagina que una universidad quiere saber si su examen de admisión es un buen predictor del éxito académico de sus estudiantes. Para ello, correlaciona las puntuaciones del examen de admisión de los estudiantes de primer año con sus promedios académicos al finalizar ese año. Si aquellos estudiantes que obtuvieron puntuaciones altas en el examen también tuvieron promedios académicos elevados, se podría decir que el examen tiene una buena validez predictiva.
  2. Concurrente: Supongamos que una organización desarrolla un nuevo test para evaluar la inteligencia emocional y quiere verificar su validez. Para hacerlo, administra su nuevo test y otro test de inteligencia emocional ya establecido y validado (como el EQ-i) a un grupo de participantes al mismo tiempo. Si las puntuaciones de ambos tests están altamente correlacionadas, se podría argumentar que el nuevo test tiene buena validez concurrente.
  3. Retrospectiva: Considera una investigación que intenta entender la relación entre la exposición infantil a plomo y el rendimiento académico en la adolescencia. Los investigadores podrían usar registros históricos para determinar niveles de exposición al plomo durante la infancia y luego administrar tests académicos a esos mismos individuos en la adolescencia. Si aquellos con mayor exposición al plomo tienen puntuaciones más bajas en los tests académicos en la adolescencia, se podría argumentar que el test tiene validez retrospectiva en este contexto.
Validación del constructo

En el ámbito de la psicología, a menudo nos encontramos con conceptos no directamente observables, que requieren medición indirecta. Mientras que conceptos como peso o volumen son concretos, en psicología tratamos con constructos más abstractos como el neuroticismo o la introversión. Estos se definen a través de teorías que establecen cómo se relacionan con otras variables. La validez de constructo examina si un test refleja adecuadamente la teoría subyacente que lo respalda. Es esencial para determinar la eficacia de un instrumento al evaluar una variable psicológica específica. En esta perspectiva, la validez de contenido y criterio son vistas como subcomponentes de la validez de constructo. Es decir, un test debe ser relevante y representativo, y su relación con otras variables ofrece evidencia adicional sobre su validez. Los métodos comunes para evaluar la validez de constructo incluyen el análisis factorial y la matriz multirrasgo-multimétodo, que evalúan respectivamente la validez factorial y la validez convergente-discriminante.

  • Validez factorial: Análisis factorial exploratorio-confirmatorio

El análisis factorial es una técnica que identifica la estructura subyacente de un instrumento de medida, también conocida como validez factorial. Hay dos enfoques principales: el Análisis Factorial Exploratorio (AFE) y el Análisis Factorial Confirmatorio (AFC). El AFE se utiliza cuando no estamos seguros de la estructura subyacente del test y queremos explorar cuántas dimensiones emergen de los ítems. Por otro lado, el AFC se utiliza cuando ya tenemos una teoría o expectativas sobre la estructura subyacente y queremos confirmar si esa estructura se ajusta a los datos recolectados. En resumen, el AFE busca descubrir la estructura, mientras que el AFC busca confirmar una estructura teorizada.

Ejemplo:

Supongamos que un psicólogo ha desarrollado un cuestionario para medir el bienestar general de una persona. El cuestionario tiene 20 preguntas relacionadas con diversos aspectos de la vida, como la salud, las relaciones, el trabajo y la satisfacción personal.

Análisis Factorial Exploratorio (AFE): Después de administrar el cuestionario a una muestra representativa, el psicólogo decide realizar un AFE para ver cuántas dimensiones subyacen a las respuestas. A través del AFE, descubre que las 20 preguntas se agrupan principalmente en tres factores o dimensiones: salud y vitalidad, relaciones interpersonales y satisfacción laboral. Estos factores representan las áreas principales que contribuyen al bienestar general según los datos recolectados.

Análisis Factorial Confirmatorio (AFC): Basándose en estudios previos y teorías del bienestar, otro investigador podría tener la hipótesis de que el bienestar general se compone de exactamente estas tres dimensiones mencionadas anteriormente. Por lo tanto, decide administrar el mismo cuestionario a una nueva muestra y realiza un AFC para verificar si las preguntas efectivamente se agrupan en esas tres dimensiones predeterminadas. Si los datos se ajustan bien a este modelo de tres factores, el AFC habrá confirmado la estructura teorizada del cuestionario.

  • Validez Convergente-Discriminante a través de Matrices Multirrasgo-Multimétodo (MRMM)

Las matrices multirrasgo-multimétodo (MRMM), propuestas por Campbell y Fiske (1959), buscan examinar la adecuación de un test como medida de un constructo, más que el constructo en sí. Estas matrices analizan las correlaciones de un test con otras mediciones del mismo constructo usando diferentes métodos y con otros constructos usando el mismo método.

Para aplicar MRMM se requiere:

  1. Medir el constructo de interés usando diferentes métodos (por ejemplo, test, entrevista, observación).
  2. Identificar otros constructos relacionados para ser medidos con los mismos métodos.
  3. Recoger datos de una muestra usando todos los constructos y métodos.

Estas correlaciones pueden clasificarse en:

a) Coeficientes de Fiabilidad: Miden la consistencia de un solo constructo usando el mismo método. Deben ser altos para un buen instrumento.

b) Coeficientes de Validez Convergente: Correlaciones entre diferentes métodos para el mismo constructo. Si diferentes métodos muestran resultados similares para un constructo, indica validez convergente.

c) Coeficientes de Validez Discriminante: Correlaciones entre diferentes constructos usando el mismo o diferentes métodos. Estas correlaciones deberían ser bajas, mostrando que los constructos son distintos entre sí, independientemente del método utilizado.

En resumen, las MRMM ofrecen una perspectiva empírica sobre la validez de un constructo. Para considerar un test válido, deberíamos observar alta validez convergente y baja validez discriminante.

Ejemplo de Validez Convergente-Discriminante usando Matrices Multirrasgo-Multimétodo (MRMM)

Supongamos que estamos interesados en medir el constructo de «Autoestima». Para ello, tenemos un test psicométrico llamado «Test de Autoestima de Smith (TAS)», una entrevista estructurada y una lista de verificación de comportamiento observable. Además, como otro constructo relacionado, queremos medir «Motivación intrínseca».

Paso 1: Medimos la autoestima utilizando el TAS, la entrevista estructurada y la lista de verificación.

Paso 2: Medimos la motivación intrínseca utilizando los mismos tres métodos.

Paso 3: Recogemos datos de una muestra de 100 personas utilizando todos los constructos y métodos.

Después de recolectar los datos, calculamos las correlaciones y construimos la matriz MRMM.

Método/ConstructoTAS (Autoestima)Entrevista (Autoestima)Lista de Verificación (Autoestima)TAS (Motivación)Entrevista (Motivación)
TAS (Autoestima)1.00.750.700.200.15
Entrevista (Autoestima)0.751.00.800.250.20
Lista de Verificación (Autoestima)0.700.801.00.180.10
TAS (Motivación)0.200.250.181.00.72
Entrevista (Motivación)0.150.200.100.721.0

Análisis:

  • Coeficientes de Fiabilidad: La diagonal principal muestra correlaciones altas para el mismo constructo y método (e.g., TAS Autoestima con TAS Autoestima es 1.0).
  • Coeficientes de Validez Convergente: Las correlaciones entre diferentes métodos para el mismo constructo son relativamente altas (e.g., TAS Autoestima con Entrevista Autoestima es 0.75).
  • Coeficientes de Validez Discriminante: Las correlaciones entre diferentes constructos usando el mismo método son bajas (e.g., TAS Autoestima con TAS Motivación es 0.20).

Este ejemplo simplificado muestra que el «Test de Autoestima de Smith» tiene buena validez convergente y discriminante para medir la autoestima.

Otras perspectivas del concepto validez

La APA, en sus estándares de 1999, establece una visión unificada de la validez, donde la validez de constructo se convierte en el pilar central de la validación. Esta perspectiva enfatiza las consecuencias del uso de los test, la teoría de la generalizabilidad y cómo los test influencian decisiones políticas. Según esta definición, la validez es un concepto unitario que refleja el grado en el cual las evidencias y teorías respaldan las interpretaciones de las puntuaciones del test para sus usos previstos. En lugar de validar el test en sí, se debe acumular evidencia que respalde las interpretaciones propuestas de las puntuaciones del test. Esta visión moderna abarca tanto enfoques cuantitativos como cualitativos al abordar la validez.

Validez consecuencial

La validez consecuencial se refiere a los efectos no anticipados que resultan del uso de los test, especialmente si estos efectos adversos están relacionados con fallos en el test, como una inadecuada representación del constructo. Messick (1998) se centró en cómo el uso de una técnica puede afectar, positiva o negativamente, al individuo evaluado. Aunque los Standards for Educational and Psychological Testing han incluido las consecuencias sociales del uso de los test como una evidencia más en la validación, hay debate sobre esta inclusión. Algunos argumentan que evaluar las consecuencias confunde los resultados con la precisión de la inferencia del atributo medido. Además, señalan desafíos prácticos, como la variabilidad en el uso del test y la dificultad de separar cuestiones de validez de argumentos ideológicos o políticos. En resumen, la consideración de las consecuencias en la validación presenta desafíos conceptuales y metodológicos en la psicometría.

Ejemplo de Validez Consecuencial:

Imaginemos una escuela que decide implementar un nuevo test de aptitud matemática para determinar qué estudiantes necesitan clases de refuerzo.

Diseño del Test: El test se diseña con una serie de problemas matemáticos que abarcan diferentes áreas, desde aritmética hasta álgebra. La escuela utiliza este test con la intención de identificar a aquellos estudiantes que tienen dificultades en matemáticas y necesitan apoyo adicional.

Resultados: Después de administrar el test, se encuentra que un grupo considerable de estudiantes no pasa la prueba y, por lo tanto, se les coloca en clases de refuerzo.

Consecuencias No Anticipadas:

  1. Estigma: Los estudiantes que son colocados en clases de refuerzo podrían sentirse estigmatizados o avergonzados, lo que afecta su autoestima.
  2. Consecuencias Académicas: Algunos de los estudiantes que fueron asignados al refuerzo, en realidad, podrían haber sido mal evaluados debido a problemas con el diseño del test y no porque realmente necesitaran refuerzo.
  3. Recursos: Las clases de refuerzo exigen recursos, maestros y espacios que podrían haberse utilizado de manera diferente si el test hubiera sido más preciso.

Revisión del Test: Al revisar el test, la escuela descubre que algunos de los problemas de álgebra eran demasiado avanzados para el nivel de grado de los estudiantes, lo que sesgó los resultados. Además, el test no consideró otros factores que podrían afectar el rendimiento del estudiante, como la ansiedad ante los exámenes.

Conclusión: La validez consecuencial se ve reflejada en cómo el uso del test tuvo consecuencias no anticipadas en los estudiantes y en la asignación de recursos de la escuela. La escuela necesita reevaluar y, posiblemente, rediseñar el test para evitar estos problemas en el futuro.

Validez social

La validez social se refiere a la consideración de las implicaciones y consecuencias sociales de la aplicación de tests psicométricos. Originalmente, se vinculaba con la evaluación e intervención de individuos con retraso, pero es esencial para determinar criterios normativos y éticos en la evaluación.

Existen dos enfoques principales para evaluarla:

  1. Valoración Subjetiva: Implica juzgar la aceptabilidad social y la importancia de los objetivos, procedimientos y resultados logrados.
  2. Valoración Cuantitativa: Se centra en comparar resultados con estándares normativos.

Según Foster y Mash (1999), la validez social es un concepto con múltiples dimensiones, dividido principalmente en aceptabilidad y relevancia. Es esencial garantizar que los tests sean socialmente relevantes y aceptados por la comunidad para garantizar su eficacia y justicia en la aplicación.

Ejemplo de Validez Social:

Imaginemos un test diseñado para medir la aptitud académica de estudiantes que aspiran a ingresar a una universidad.

1. Valoración Subjetiva: Antes de su implementación, se lleva a cabo una serie de grupos focales con profesores, estudiantes y padres. Estos grupos discuten el contenido del test, las áreas que mide, y la percepción general de su pertinencia. La mayoría opina que el test se centra demasiado en memorización y no en habilidades de pensamiento crítico, lo que no refleja las habilidades necesarias para tener éxito en la universidad.

2. Valoración Cuantitativa: Después de administrar el test a una cohorte de estudiantes, los resultados se comparan con otras métricas, como las calificaciones obtenidas en la escuela secundaria. Se descubre que, aunque muchos estudiantes obtienen puntajes altos en el test, sus calificaciones en la escuela no son necesariamente altas, y viceversa.

Relevancia y Aceptabilidad: A raíz de estos hallazgos, se cuestiona la relevancia del test, ya que no parece reflejar adecuadamente la preparación académica de los estudiantes. Además, la comunidad educativa no lo encuentra aceptable, ya que se sienten más confiados en las calificaciones escolares como un indicador más preciso de la aptitud académica.

En este ejemplo, aunque el test puede tener validez técnica (mide lo que dice medir), carece de validez social porque no es percibido como relevante o aceptable por la comunidad que lo utiliza y se ve afectada por él. Por lo tanto, es esencial que las instituciones educativas consideren la validez social al implementar cualquier medida evaluativa.

Utilidad

La utilidad en evaluación se refiere a la capacidad de una técnica para:

  1. Detectar variables relevantes al tratamiento.
  2. Identificar comportamientos objetivo para el tratamiento.
  3. Mejorar los resultados del tratamiento al usarla.

Según Fernández-Ballesteros y Calero (2011), la utilidad está más ligada al proceso de evaluación que a la técnica en sí, enfatizando la importancia de tomar decisiones óptimas. Recientes investigaciones de la APA resaltan que la evaluación psicológica es tan útil como la médica en áreas como diagnóstico, predicción de comportamiento y resultados terapéuticos, entre otros.

Un estudio destacado de Meyer et al. (2001) concluyó que:

  1. Los test psicológicos tienen alta validez.
  2. Su validez es comparable a los test médicos.
  3. Diferentes métodos de evaluación aportan información única.
  4. Los clínicos basados solo en entrevistas pueden tener una visión limitada del paciente.

Por lo tanto, se sugiere que la combinación de múltiples métodos de evaluación enriquece el entendimiento del clínico, potenciando la validez y precisión de la evaluación, demostrando la pertinencia y valor de la evaluación psicológica moderna.

Ejemplo de Utilidad en Evaluación Psicológica:

Contexto: Hospital General en una ciudad metropolitana.

Paciente: Juan, 25 años, ha sido referido al departamento de salud mental por quejas persistentes de ansiedad y dificultades para dormir.

  1. Evaluación Tradicional (entrevista única):
    • El psicólogo clínico entrevista a Juan sobre sus síntomas.
    • Juan describe sentirse constantemente preocupado y tiene problemas para dormir, pero no proporciona detalles específicos sobre la naturaleza o causa de su ansiedad.
    • A partir de la entrevista, el psicólogo determina que Juan podría estar experimentando un trastorno de ansiedad generalizada y recomienda terapia.
  2. Evaluación Multi-método:
    • Junto con la entrevista, se administra a Juan una batería de pruebas:
      • Cuestionario de ansiedad estandarizado.
      • Diario de sueño durante una semana.
      • Test psicométrico para medir niveles de estrés y posibles síntomas depresivos.
      • Evaluación fisiológica (monitorización del ritmo cardíaco) durante situaciones estresantes simuladas.
    • Los resultados revelan:
      • Juan tiene puntajes altos en ansiedad relacionada con el rendimiento y la preocupación sobre el futuro.
      • Su patrón de sueño es irregular, con múltiples despertares relacionados con pesadillas.
      • Presenta síntomas leves de depresión.
      • Aumento del ritmo cardíaco cuando se enfrenta a tareas bajo presión.
    • A partir de la evaluación multi-método, el psicólogo identifica que la ansiedad de Juan está estrechamente vinculada a presiones laborales y temores sobre su carrera. Se recomienda una terapia cognitivo-conductual centrada en el manejo de la ansiedad relacionada con el rendimiento y técnicas de relajación para mejorar el sueño.

Conclusión: Mientras que la entrevista tradicional proporcionó una comprensión general de la situación de Juan, la evaluación multi-método ofreció una visión más completa y específica de sus problemas, permitiendo una intervención más precisa y adaptada a sus necesidades.

Validez incremental

La validez incremental se refiere al beneficio añadido que una técnica de evaluación adicional aporta al proceso de evaluación. En otras palabras, evalúa si combinar múltiples métodos o fuentes de evaluación mejora la precisión y la capacidad predictiva sobre el uso de un solo método o fuente.

  • Muchos expertos recomiendan una evaluación multi-método y multi-fuente, ya que rara vez una sola medida ofrece una visión completa (De los Reyes, Del Barrio, Fernández-Ballesteros, etc.).
  • Sin embargo, la simple combinación de medidas no garantiza automáticamente mejores resultados; su validez incremental debe ser demostrada empíricamente para cada objetivo de evaluación.
  • En el ámbito de la psicopatología de adultos y el estudio de la personalidad, técnicas como el test de Rorschach y el MMPI-2 han demostrado un aumento de la validez incremental en ciertos casos.
  • Combinar entrevistas clínicas estructuradas con instrumentos específicos también ha demostrado aumentar la validez.
  • En el ámbito infantil, la justificación para el uso de múltiples métodos y fuentes proviene más de la lógica que de evidencia empírica sólida.
  • Algunas investigaciones muestran que combinar perspectivas de múltiples informantes (como madre-padre o niño-padre) puede mejorar la predicción de problemas conductuales en niños basándose en la aceptación parental percibida.
  • Recursos como «Psychological Assessment» y «Assessments that Work» ofrecen más detalles sobre la combinación de instrumentos para problemas clínicos específicos.

En resumen, la validez incremental subraya la importancia de considerar si la adición de más métodos o fuentes en la evaluación aporta valor real y mejora la precisión de las decisiones clínicas.

Ejemplo de Validez Incremental:

Contexto: Evaluación de síntomas depresivos en adolescentes.

Técnicas Utilizadas:

  1. Cuestionario de autoinforme sobre síntomas depresivos.
  2. Entrevista clínica estructurada con el adolescente.
  3. Cuestionario completado por los padres sobre el comportamiento y el estado de ánimo de su hijo.

Proceso:

  • Primero, se aplicó el cuestionario de autoinforme al adolescente para evaluar sus propios síntomas y percepciones.
  • Luego, se realizó una entrevista clínica estructurada para profundizar en sus respuestas y obtener una perspectiva más detallada.
  • Por último, los padres completaron un cuestionario sobre los comportamientos y estados de ánimo que habían observado en su hijo.

Resultados:

  • El cuestionario de autoinforme indicó síntomas moderados de depresión.
  • La entrevista clínica corroboró la información del cuestionario, pero también reveló episodios de autolesiones que el adolescente no había reportado en el cuestionario.
  • El cuestionario de los padres confirmó la preocupación por el estado de ánimo de su hijo, pero no estaban al tanto de las autolesiones.

Conclusión: Aunque el cuestionario de autoinforme por sí solo podría haber sido suficiente para identificar síntomas depresivos, la adición de la entrevista clínica proporcionó una visión más completa y detallada de la situación, al descubrir las autolesiones. Además, el cuestionario de los padres aportó una perspectiva externa que corroboró la información del adolescente. Por tanto, la combinación de las tres técnicas ofreció una validez incremental al proporcionar una evaluación más holística y precisa del bienestar del adolescente.

La validez de los test referidos al criterio: sensibilidad y especificidad

Los Test Referidos a Criterio buscan clasificar a los individuos según sus resultados en una prueba en categorías como «aptos/no aptos» o «trastorno/no trastorno». La validez de estos tests se centra en cuán adecuadas son estas clasificaciones.

Dos índices clave para evaluar la validez son:

  1. Sensibilidad (SE): Mide qué tan bien el test identifica a quienes realmente tienen un trastorno. Es la probabilidad de que alguien con el trastorno obtenga un resultado positivo en el test.
  2. Especificidad (SP): Mide qué tan bien el test identifica a quienes realmente no tienen el trastorno. Es la probabilidad de que alguien sin el trastorno obtenga un resultado negativo en el test.

Idealmente, una prueba tendría alta sensibilidad y alta especificidad, pero en la práctica, hay un equilibrio entre ambas. La Curva Operativa del Receptor (COR) se utiliza para determinar el punto de corte óptimo que maximiza tanto la sensibilidad como la especificidad.

Imaginemos una prueba diseñada para detectar una enfermedad específica en una población.

  1. Sensibilidad (SE): Supongamos que de 100 personas que realmente tienen la enfermedad, 90 son identificadas por la prueba como enfermas. Por lo tanto, la sensibilidad de la prueba es del 90%. Esto significa que la prueba es bastante buena para identificar a aquellos que realmente tienen la enfermedad.
  2. Especificidad (SP): Ahora, de 100 personas que no tienen la enfermedad, 85 son identificadas por la prueba como no enfermas. Así, la especificidad de la prueba es del 85%. Esto indica que la prueba es bastante buena, pero no perfecta, en identificar a aquellos que realmente están sanos.

Dado el equilibrio entre sensibilidad y especificidad, si se ajusta la prueba para hacerla más sensible (es decir, para que detecte a más personas con la enfermedad), es posible que se reduzca su especificidad (puede que identifique incorrectamente a más personas sanas como enfermas).

Por ejemplo, si se ajusta el punto de corte para que 95 de las personas con la enfermedad den positivo (aumentando la sensibilidad al 95%), la especificidad podría caer al 80%, ya que ahora más personas sanas serían incorrectamente identificadas como enfermas.

La Curva Operativa del Receptor (COR) nos ayuda a visualizar este equilibrio y a elegir el punto de corte que mejor equilibre sensibilidad y especificidad para las necesidades particulares de la situación.

La validez desde la Teoría de la Generalizabilidad

La Teoría de la Generalizabilidad (TG) aborda la validez de una prueba desde cuatro perspectivas:

  1. Generalizabilidad de los elementos: Se refiere a si los elementos de un test son representativos del universo completo de contenidos relacionados. En otras palabras, ¿un elemento del test es aplicable a otros similares? Esto se asemeja a la validez de contenido tradicional.
  2. Generalizabilidad de las situaciones: Examina la validez ecológica, es decir, si los datos de un test son aplicables en diferentes situaciones. Se enfoca en la relación entre las medidas tomadas en un entorno controlado versus situaciones reales, priorizando las mediciones en contextos naturales.
  3. Generalizabilidad de los métodos: Analiza si los datos obtenidos mediante un método de evaluación son extrapolables a otros métodos que miden el mismo contenido. Se relaciona con las nociones tradicionales de validez convergente y concurrente.
  4. Generalizabilidad de las dimensiones: Considera si las características o estimaciones de una variable pueden aplicarse a otras. Se vincula con el concepto tradicional de validez de constructo.

En resumen, la TG proporciona un marco para evaluar la validez de una prueba considerando la representatividad de sus elementos, su aplicabilidad en diferentes situaciones, métodos y dimensiones.

Vamos a usar un ejemplo sencillo relacionado con la educación:

Test de Matemáticas para Estudiantes de 5º Grado

  1. Generalizabilidad de los elementos:
    • Pregunta: ¿Las preguntas del test cubren todos los temas que se enseñaron durante el año en matemáticas para 5º grado?
    • Ejemplo: Si el currículo abordó aritmética, geometría y estadísticas, el test debería tener preguntas representativas de cada una de esas áreas.
  2. Generalizabilidad de las situaciones:
    • Pregunta: ¿Los estudiantes responderían de la misma manera al test si se les diera en el aula, en casa o en un entorno de examen estandarizado?
    • Ejemplo: Si los estudiantes obtienen consistentemente puntuaciones más altas en el aula que en un entorno de examen estandarizado, podría haber un problema con la validez de la prueba en diferentes situaciones.
  3. Generalizabilidad de los métodos:
    • Pregunta: ¿Las puntuaciones del test de matemáticas serían consistentes si se administrara en papel vs. en línea?
    • Ejemplo: Si los estudiantes obtienen puntuaciones significativamente diferentes en la versión en papel en comparación con la versión en línea, esto podría cuestionar la validez del método de entrega del test.
  4. Generalizabilidad de las dimensiones:
    • Pregunta: ¿Las habilidades evaluadas en el test de matemáticas son indicativas del rendimiento general en matemáticas o solo de habilidades específicas?
    • Ejemplo: Si un estudiante obtiene puntuaciones altas en el test pero consistentemente tiene problemas con las tareas matemáticas en clase, podría haber un desajuste entre lo que mide el test y las dimensiones generales de competencia matemática.

Este ejemplo ilustra cómo se podría evaluar la validez de un test educativo utilizando la Teoría de la Generalizabilidad.

Exactitud

Desde una perspectiva conductual, la aplicación de los principios de la Teoría Clásica de Test ha sido desafiante debido a desacuerdos fundamentales sobre la naturaleza de los constructos evaluados. En la evaluación conductual, la preocupación principal no es la estabilidad del constructo, sino más bien la «exactitud» con la que se representa una conducta particular.

La exactitud, según Cone (1988), se refiere a qué tan bien un instrumento refleja las características reales de la conducta en estudio. Para ser considerado exacto, un instrumento debe:

  1. Determinar si la conducta ocurre.
  2. Registrar la repetición de la conducta.
  3. Capturar la conducta en diversas situaciones.
  4. Permitir mediciones usando diferentes métodos.
  5. Relacionar la conducta con otras conductas.

La exactitud no es lo mismo que fiabilidad o validez en la Teoría Clásica de Test. Mientras que la fiabilidad se refiere a la consistencia de las mediciones, la exactitud considera si la medición refleja realmente la conducta observada. Así, una medida podría ser confiable (consistente) sin ser exacta (veraz). Por otro lado, aunque una medida pueda ser válida, no necesariamente es exacta, ya que la validez se basa en estimaciones y criterios, mientras que la exactitud se relaciona con la precisión en la representación de una conducta real.

Ejemplo sobre exactitud en evaluación conductual:

Supongamos que se desarrolla un instrumento para medir la frecuencia con la que un niño muestra comportamientos de ansiedad en el aula, como morderse las uñas o moverse inquietamente en su asiento. Dos profesores son entrenados para utilizar este instrumento y observar a un estudiante particular.

  1. Fiabilidad pero no exactitud: Si ambos profesores registran que el niño se mueve inquietamente 10 veces en una hora, el instrumento sería confiable (ambos observadores están de acuerdo en sus mediciones). Sin embargo, si en realidad el niño se movió inquietamente 20 veces y ambos profesores no lo notaron, entonces la medición no es exacta.
  2. Exactitud pero no fiabilidad: Si un profesor registra 20 movimientos inquietos y el otro 10, no hay fiabilidad (los observadores no están de acuerdo). Pero si uno de ellos (el que registró 20) capturó la verdadera frecuencia del comportamiento, entonces esa medición particular es exacta.
  3. Exactitud y fiabilidad: Si ambos profesores registran 20 movimientos inquietos y ese es el número real de veces que el niño mostró el comportamiento, entonces el instrumento es tanto confiable como exacto.

Este ejemplo destaca la diferencia entre la consistencia de las mediciones (fiabilidad) y cuán verazmente reflejan la realidad (exactitud).

Garantías éticas en el uso de los instrumentos de evaluación psicológica

El Consejo General de la Psicología en España, representante principal de los Colegios Oficiales de Psicólogos, ha establecido Principios Éticos de la Evaluación Psicológica basados en directrices de la APA. Estos principios subrayan la importancia de la adecuada selección y uso de instrumentos de medida en psicología. Adicionalmente, el Código Deontológico del Psicólogo, publicado por el mismo Consejo, enfatiza la necesidad de que los psicólogos estén adecuadamente capacitados y se especialicen en las técnicas que utilizan, actualizando constantemente sus conocimientos. Además, se insiste en no usar métodos no contrastados y en mantener la exclusividad y confidencialidad del material psicológico, evitando su mezcla con prácticas no basadas en la ciencia psicológica.

CÓDIGO DEONTOLÓGICO DEL PSICÓLOGO (Consejo General de Colegios Oficiales de Psicólogos, 2010)
Artículo 17º: La autoridad profesional del Psicólogo/a se fundamenta en su capacitación y cualificación para las tareas que desempeña. El/la Psicólogo/a ha de estar profesionalmente preparado y especializado en la utilización de métodos, instrumentos, técnicas y procedimientos que adopte en su trabajo. Forma parte de su trabajo el esfuerzo continuado de actualización de su competencia profesional. Debe reconocer los límites de su competencia y las limitaciones de sus técnicas.
Artículo 18°: Sin perjuicio de la legítima diversidad de teorías, escuelas y métodos, el/la Psicólogo/a no utilizará medios o procedimientos que no se hallen suficientemente contrastados, dentro de los límites del conocimiento científico vigente. En el caso de investigaciones para poner a prueba técnicas o instrumentos nuevos, todavía no contrastados, lo hará saber así a sus clientes antes de su utilización.
Artículo 19º: Todo tipo de material estrictamente psicológico, tanto de evaluación cuanto de intervención o tratamiento, queda reservado al uso de los/as Psicólogos/as, quienes por otra parte, se abstendrán de facilitarlos a otras personas no competentes. Los/las Psicólogos/as gestionarán o en su caso garantizarán la debida custodia de los documentos psicológicos.
Artículo 21 º: El ejercicio de la psicología no deberá ser mezclado, ni en la práctica, ni en su presentación pública, con otros procedimientos y prácticas ajenos al fundamento científico de la psicología, cuando tal prohibición esté prevista legalmente.

Consideraciones sobre la evaluación en grupos diversos o multiculturales

La globalización y los crecientes contactos transculturales hacen esencial que los instrumentos de evaluación psicológica sean aplicables y relevantes para sujetos de diversas culturas. Desde los años 80, se han desarrollado guías y manuales enfocados en la evaluación multicultural. Estos materiales, como las «Guidelines on Multicultural Education» de la APA (2002), subrayan la necesidad de que los psicólogos posean sensibilidad y conocimiento multicultural. Una crítica frecuente es que muchos instrumentos de evaluación están sesgados hacia la cultura occidental. Es crucial que los instrumentos no solo estén traducidos adecuadamente, sino que también sean conceptual y funcionalmente equivalentes en diferentes culturas, asegurando que midan de manera válida los constructos en contextos multiculturales.

Referencias

  • Moreno Rosset and Ramírez Uclés (2019) Evaluación psicológica : proceso, técnicas y aplicaciones en áreas y contextos. Madrid: Sanz y Torres.

Deja un comentario

2 × 2 =

Ir al contenido