La Evaluación Basada en la Evidencia (EBA) se apoya en la investigación y teorías científicas para: 1) elegir constructos relevantes a evaluar, 2) emplear instrumentos y técnicas validados y 3) implementar adecuadamente el proceso de evaluación (American Psychological Association, 2006; Hunsley & Mash, 2005). Esta evaluación, que combina evidencia científica, experiencia profesional y contexto del cliente, busca decisiones precisas, útiles y con repercusión positiva en el evaluado (Hunsley & Mash, 2007). La selección de herramientas adecuadas es esencial. Organismos como la APA, AREA, y NCME (2014) han delineado estándares para instrumentos psicológicos, mientras que la Comisión Internacional de Test (ITC) ha proporcionado directrices para la adaptación, uso y digitalización de pruebas (ITC, 2000, 2010, 2001, 2005a, 2005b). Un instrumento confiable debe estar estandarizado y mostrar fiabilidad y validez sólidas.
Fiabilidad
La American Psychological Association (APA) define la fiabilidad como la exactitud con la que un test mide, reflejando su consistencia y estabilidad. La fiabilidad indica cuánto concuerda una medida con un estándar preciso, y se relaciona inversamente con el error de medida: menor error implica mayor fiabilidad. Dado que las ciencias del comportamiento miden constructos no siempre directamente observables, están más propensas a errores. Estos errores pueden ser sistemáticos (desviaciones constantes de la medida real) o no sistemáticos (fluctuaciones aleatorias en la medida), influenciados por factores como el diseño del instrumento, el entorno de evaluación o la interpretación de los resultados. Estos factores pueden incluir condiciones ambientales, el estado emocional del evaluado o errores del evaluador. La fiabilidad, en esencia, se centra en cuantificar estos errores aleatorios en la medición (Muñiz, 1996). El objetivo es minimizar estos errores para garantizar una evaluación precisa y consistente.
Fiabilidad desde la Teoría Clásica de Test
La Teoría Clásica de los Test sostiene que la puntuación observada en un test (X) se compone de una puntuación real o verdadera (V) y un error no sistemático de medida (E). Esta puntuación real representa el promedio que se obtendría si el sujeto realizara el test infinitas veces. Sin embargo, solo podemos acceder a la puntuación observada en una sola toma del test. Los indicadores habituales de fiabilidad incluyen la consistencia interna, la estabilidad test-retest y la fiabilidad interjueces.
La consistencia interna mide cuán coherentes son los ítems de una escala en evaluar un constructo específico. Es un método común para calcular la fiabilidad. En esencia, se busca que todos los ítems de una escala se relacionen fuertemente entre sí, indicando que miden lo mismo. El coeficiente alfa de Cronbach es el estándar en ciencias sociales para esta medición: cuanto más cerca esté de 1, más fiable es el test. Un ejemplo de esto es el Test para la Evaluación Conductual de la Función Ejecutiva-Versión Infantil (BRIEF-P) que, según su adaptación española, mostró alta fiabilidad tanto en evaluaciones de padres como de profesores. Otro enfoque para medir la consistencia interna es el método de las dos mitades. En este, el test se divide en dos y se correlacionan los resultados de ambas partes. Sin embargo, este método tiene la limitación de solo representar la mitad del test, por lo que se usan fórmulas correctivas, como la de Spearman-Brown. El Error Típico de Medida (ETM) es crucial porque nos indica cuánto error podría haber en una puntuación específica. Es inversamente proporcional a la fiabilidad: a mayor fiabilidad, menor error. A partir del ETM, se pueden calcular intervalos de confianza que indican dónde se encontraría la verdadera puntuación de alguien con cierta probabilidad, siendo el 95% el nivel de confianza más común en psicometría.
La estabilidad temporal, también conocida como fiabilidad test-retest, mide si un test proporciona resultados consistentes a lo largo del tiempo en variables que se consideran estables. Esta fiabilidad se evalúa aplicando el mismo test a un grupo de personas en dos momentos distintos y correlacionando las puntuaciones obtenidas en ambas ocasiones. Es crucial que durante el intervalo entre las aplicaciones no haya cambios significativos en la variable evaluada (AERA, 2014; Anastasi y Urbina, 1997). Un desafío en este método es determinar el periodo adecuado entre las pruebas para minimizar el efecto del recuerdo. Un alto coeficiente de estabilidad indica que el test tiene una buena consistencia temporal.
Imaginemos que un investigador desea evaluar la fiabilidad a lo largo del tiempo de un nuevo cuestionario que mide la satisfacción laboral en empleados de oficina.
- Primera aplicación: El investigador administra el cuestionario a un grupo de 100 empleados en una empresa específica.
- Segunda aplicación: Después de 3 meses (un período considerado suficiente para evitar el recuerdo de las preguntas pero no tanto tiempo como para que las condiciones laborales cambien significativamente), el mismo cuestionario se vuelve a administrar al mismo grupo de empleados.
- Análisis: El investigador correlaciona las puntuaciones de los empleados en la primera aplicación con sus puntuaciones en la segunda aplicación. Supongamos que obtiene un coeficiente de correlación de 0.85.
- Interpretación: Un coeficiente de 0.85 es relativamente alto, lo que indica que el cuestionario tiene una buena estabilidad temporal. Esto significa que, en general, los empleados que puntuaron alto en satisfacción laboral en la primera aplicación también lo hicieron en la segunda, y viceversa.
Este resultado proporcionaría confianza en que el cuestionario mide la satisfacción laboral de manera consistente a lo largo del tiempo, al menos en el intervalo de 3 meses. Por supuesto, otros aspectos de la fiabilidad y validez del cuestionario también deberían ser evaluados antes de considerarlo un instrumento confiable y válido para medir la satisfacción laboral.
La fiabilidad interjueces examina si hay concordancia entre evaluaciones realizadas por diferentes jueces o por el mismo juez en distintos momentos. Uno de los métodos comunes para calcular esta concordancia es el índice Kappa. Es esencial para el evaluador, ya sea en la investigación o en la práctica profesional, elegir métodos de cálculo apropiados y herramientas que demuestren niveles de fiabilidad elevados. Según criterios propuestos por diferentes expertos:
- Para investigaciones iniciales, un coeficiente de fiabilidad de 0.50 a 0.60 puede ser aceptable.
- En investigación básica, se prefiere una fiabilidad mínima de 0.80.
- Para investigación aplicada, los valores deben oscilar entre 0.90 y 0.95.
- En situaciones donde las decisiones impacten directamente a los individuos, la fiabilidad debe superar el 0.90.
- Tests con fiabilidad entre 0.75 y 0.85 pueden servir para evaluaciones preliminares.
- Cualquier prueba con fiabilidad inferior a 0.67 debería ser descartada debido a la alta presencia de error.
Imaginemos un estudio clínico donde se desea evaluar la severidad de síntomas de depresión en pacientes. Para ello, se utiliza una entrevista estructurada, y el procedimiento será que dos psicólogos clínicos diferentes (Juez A y Juez B) evaluarán a cada paciente de manera independiente.
Tras las entrevistas, los psicólogos otorgan una calificación del 1 al 5 a cada paciente, donde 1 indica «sin síntomas» y 5 «síntomas muy severos».
Se entrevista a 10 pacientes y estos son los resultados:
Paciente | Juez A | Juez B |
---|---|---|
Paciente 1 | 4 | 4 |
Paciente 2 | 3 | 2 |
Paciente 3 | 1 | 1 |
Paciente 4 | 4 | 5 |
Paciente 5 | 3 | 3 |
Paciente 6 | 2 | 2 |
Paciente 7 | 5 | 4 |
Paciente 8 | 3 | 3 |
Paciente 9 | 2 | 2 |
Paciente 10 | 1 | 1 |
Utilizando el índice Kappa, encontramos que la concordancia entre los dos jueces es de 0.85, lo cual indica una buena fiabilidad interjueces.
En este escenario, el elevado índice Kappa sugiere que ambos psicólogos tienen una alta consistencia en sus evaluaciones y, por lo tanto, la herramienta o entrevista utilizada es fiable desde el punto de vista de la fiabilidad interjueces.
Fiabilidad desde la Teoría de Respuesta al Ítem
De acuerdo con Hambleton y Swaminathan (1985) en el contexto de la Teoría de Respuesta al Ítem (TRI), la fiabilidad se relaciona con la precisión con la que se mide el rasgo latente, vinculándose directamente con la información proporcionada por el test. En lugar de una única medida de fiabilidad para todo el test, la TRI sostiene que la fiabilidad puede variar según el nivel del rasgo que se esté evaluando. Birnbaum (1968) introdujo la idea de que la fiabilidad es la suma de la información de cada ítem del test. Así, en lugar de hablar de tests globalmente fiables, es más apropiado considerar la precisión del test en función de diferentes niveles del rasgo evaluado. Con la correcta comprensión de los parámetros de los ítems, se pueden diseñar tests que estimen con gran precisión el nivel de habilidad de los individuos evaluados.
Validez
La validez indica si un instrumento mide correctamente lo que pretende medir, siendo una característica esencial de cualquier herramienta de evaluación. A diferencia de la fiabilidad, que se refiere a la consistencia del instrumento, la validez se relaciona con la interpretación y significado de las puntuaciones obtenidas. Según los Standards for Educational and Psychological Testing (SEPT), la validación implica reunir evidencias que respalden la interpretación y uso del test. No se valida el instrumento en sí, sino las conclusiones derivadas de sus resultados.
Además, la validez no se representa mediante distintos tipos, sino como un concepto único que puede ser respaldado por diferentes tipos de evidencia. Una herramienta puede ser fiable (consistente en sus mediciones) sin ser válida, pero no puede ser válida si no es fiable. Es importante señalar que un error sistemático ocurre cuando un test mide constantemente algo distinto al objetivo para el que fue creado.
Silva (1989) destaca que: a) La validez se asocia a las conclusiones derivadas de las puntuaciones de un instrumento bajo ciertas condiciones. b) Las interpretaciones de los resultados son las que se validan, no el instrumento en sí. c) La validez se estima a partir de múltiples informaciones, no solo un coeficiente. d) Se deben considerar evidencias de validez, no tipos de validez.
En resumen, la validez es un concepto central en la evaluación, ligado a la interpretación correcta y significativa de los resultados obtenidos a través de un instrumento.
Métodos clásicos para el cálculo de la validez
La validez de un instrumento puede evaluarse mediante tres métodos clásicos:
- Validación del contenido: Mediante un análisis del contenido para asegurarse de que el instrumento cubre todos los aspectos relevantes del constructo que pretende medir.
- Validación referida al criterio: Estableciendo cómo las puntuaciones del test se relacionan con un criterio externo o con otras medidas.
- Validación del constructo: Analizando las características psicológicas específicas que la prueba intenta medir.
Cada uno de estos métodos proporciona una perspectiva única sobre la validez general del instrumento.
Validación del contenido
validez de contenido se refiere a cuán bien un instrumento captura una representación completa y pertinente del constructo que se pretende medir. Esencialmente, verifica si el test aborda adecuadamente todas las áreas relevantes y no omite aspectos cruciales. Para esto:
- Definición del Constructo: Antes de diseñar el test, es crucial definir claramente el constructo y sus dimensiones.
- Elaboración de Ítems: Los ítems se crean para abordar todas las dimensiones del constructo y luego se someten a revisión por expertos.
- Revisión por Expertos: Un panel de expertos evalúa si los ítems del test cubren adecuadamente el constructo. Usan escalas y criterios específicos, como la propuesta por Rovinelli y Hambleton (1997), para calificar la pertinencia de cada ítem.
- Validez Aparente: Es importante que el test parezca medir lo que afirma medir, aunque en algunas situaciones es preferible que el propósito no sea evidente.
- Validez Ecológica: Se refiere a cuán bien los resultados del test reflejan situaciones o comportamientos del mundo real.
- Validez Curricular e Instruccional: Evalúan si el test refleja objetivos específicos, como los de una institución educativa, o si captura el contenido y métodos de enseñanza relevantes.
En resumen, la validez de contenido garantiza que un test mida de forma completa y adecuada el constructo en cuestión, y es esencial para la confiabilidad de
Imaginemos que queremos desarrollar un cuestionario para medir la «Satisfacción Laboral» en una empresa.
Definición del Constructo: Primero, definimos «Satisfacción Laboral» como el grado en el que un empleado se siente contento, valorado y comprometido con su trabajo y la empresa.
Elaboración de Ítems: Creamos preguntas sobre varios aspectos: relación con compañeros, relación con superiores, percepción sobre el salario, oportunidades de desarrollo, ambiente de trabajo, entre otros.
Revisión por Expertos: Convocamos a un grupo de psicólogos organizacionales y expertos en recursos humanos. Ellos revisan el cuestionario y sugieren que se deben incluir ítems sobre la conciliación de la vida laboral y personal.
Validez Aparente: Al presentar una versión preliminar del cuestionario a un grupo pequeño de empleados, ellos comentan que las preguntas parecen relevantes y abordan aspectos cruciales de su experiencia laboral.
Validez Ecológica: Tras aplicar el cuestionario, descubrimos que los resultados reflejan adecuadamente las opiniones y sentimientos de los empleados, y concuerdan con entrevistas y focus groups realizados previamente.
Validez Curricular e Instruccional: Como parte del proceso de validación, se comparan los resultados del cuestionario con los objetivos y valores de la empresa. Se descubre, por ejemplo, que en departamentos donde se promueve activamente la formación continua, los empleados muestran mayores niveles de satisfacción en las oportunidades de desarrollo.
Gracias a este proceso de validación de contenido, la empresa puede confiar en que su cuestionario de «Satisfacción Laboral» es una herramienta robusta y precisa para medir cómo se sienten sus empleados respecto a su trabajo.
Validación referida al criterio
La validez del criterio evalúa la relación empírica entre las puntuaciones de un test y una variable o criterio externo. Esta validez busca determinar cuánto se asocia un instrumento con un criterio independiente. Para garantizarla, es vital que los criterios sean pertinentes, confiables, no sesgados y accesibles.
La técnica más directa para medir la validez de criterio es correlacionar las puntuaciones del test con el criterio. Si se consideran múltiples predictores o criterios, se necesitarán técnicas estadísticas avanzadas.
Hay tres enfoques principales para obtener validez de criterio:
- Predictiva: Mide cuán bien las puntuaciones del test predicen puntuaciones futuras en un criterio. Por ejemplo, cómo un examen de admisión predice el rendimiento académico futuro en la universidad.
- Concurrente: Aquí, el test y el criterio se miden simultáneamente, típicamente para validar un nuevo test comparándolo con uno ya validado.
- Retrospectiva: En este enfoque, el criterio se evalúa antes del test, útil para investigar aspectos pasados que ya no son accesibles mediante un test específico.
Aquí te doy ejemplos concretos para cada tipo de validez de criterio:
- Predictiva: Imagina que una universidad quiere saber si su examen de admisión es un buen predictor del éxito académico de sus estudiantes. Para ello, correlaciona las puntuaciones del examen de admisión de los estudiantes de primer año con sus promedios académicos al finalizar ese año. Si aquellos estudiantes que obtuvieron puntuaciones altas en el examen también tuvieron promedios académicos elevados, se podría decir que el examen tiene una buena validez predictiva.
- Concurrente: Supongamos que una organización desarrolla un nuevo test para evaluar la inteligencia emocional y quiere verificar su validez. Para hacerlo, administra su nuevo test y otro test de inteligencia emocional ya establecido y validado (como el EQ-i) a un grupo de participantes al mismo tiempo. Si las puntuaciones de ambos tests están altamente correlacionadas, se podría argumentar que el nuevo test tiene buena validez concurrente.
- Retrospectiva: Considera una investigación que intenta entender la relación entre la exposición infantil a plomo y el rendimiento académico en la adolescencia. Los investigadores podrían usar registros históricos para determinar niveles de exposición al plomo durante la infancia y luego administrar tests académicos a esos mismos individuos en la adolescencia. Si aquellos con mayor exposición al plomo tienen puntuaciones más bajas en los tests académicos en la adolescencia, se podría argumentar que el test tiene validez retrospectiva en este contexto.
Validación del constructo
En el ámbito de la psicología, a menudo nos encontramos con conceptos no directamente observables, que requieren medición indirecta. Mientras que conceptos como peso o volumen son concretos, en psicología tratamos con constructos más abstractos como el neuroticismo o la introversión. Estos se definen a través de teorías que establecen cómo se relacionan con otras variables. La validez de constructo examina si un test refleja adecuadamente la teoría subyacente que lo respalda. Es esencial para determinar la eficacia de un instrumento al evaluar una variable psicológica específica. En esta perspectiva, la validez de contenido y criterio son vistas como subcomponentes de la validez de constructo. Es decir, un test debe ser relevante y representativo, y su relación con otras variables ofrece evidencia adicional sobre su validez. Los métodos comunes para evaluar la validez de constructo incluyen el análisis factorial y la matriz multirrasgo-multimétodo, que evalúan respectivamente la validez factorial y la validez convergente-discriminante.
- Validez factorial: Análisis factorial exploratorio-confirmatorio
El análisis factorial es una técnica que identifica la estructura subyacente de un instrumento de medida, también conocida como validez factorial. Hay dos enfoques principales: el Análisis Factorial Exploratorio (AFE) y el Análisis Factorial Confirmatorio (AFC). El AFE se utiliza cuando no estamos seguros de la estructura subyacente del test y queremos explorar cuántas dimensiones emergen de los ítems. Por otro lado, el AFC se utiliza cuando ya tenemos una teoría o expectativas sobre la estructura subyacente y queremos confirmar si esa estructura se ajusta a los datos recolectados. En resumen, el AFE busca descubrir la estructura, mientras que el AFC busca confirmar una estructura teorizada.
Ejemplo:
Supongamos que un psicólogo ha desarrollado un cuestionario para medir el bienestar general de una persona. El cuestionario tiene 20 preguntas relacionadas con diversos aspectos de la vida, como la salud, las relaciones, el trabajo y la satisfacción personal.
Análisis Factorial Exploratorio (AFE): Después de administrar el cuestionario a una muestra representativa, el psicólogo decide realizar un AFE para ver cuántas dimensiones subyacen a las respuestas. A través del AFE, descubre que las 20 preguntas se agrupan principalmente en tres factores o dimensiones: salud y vitalidad, relaciones interpersonales y satisfacción laboral. Estos factores representan las áreas principales que contribuyen al bienestar general según los datos recolectados.
Análisis Factorial Confirmatorio (AFC): Basándose en estudios previos y teorías del bienestar, otro investigador podría tener la hipótesis de que el bienestar general se compone de exactamente estas tres dimensiones mencionadas anteriormente. Por lo tanto, decide administrar el mismo cuestionario a una nueva muestra y realiza un AFC para verificar si las preguntas efectivamente se agrupan en esas tres dimensiones predeterminadas. Si los datos se ajustan bien a este modelo de tres factores, el AFC habrá confirmado la estructura teorizada del cuestionario.
- Validez Convergente-Discriminante a través de Matrices Multirrasgo-Multimétodo (MRMM)
Las matrices multirrasgo-multimétodo (MRMM), propuestas por Campbell y Fiske (1959), buscan examinar la adecuación de un test como medida de un constructo, más que el constructo en sí. Estas matrices analizan las correlaciones de un test con otras mediciones del mismo constructo usando diferentes métodos y con otros constructos usando el mismo método.
Para aplicar MRMM se requiere:
- Medir el constructo de interés usando diferentes métodos (por ejemplo, test, entrevista, observación).
- Identificar otros constructos relacionados para ser medidos con los mismos métodos.
- Recoger datos de una muestra usando todos los constructos y métodos.
Estas correlaciones pueden clasificarse en:
a) Coeficientes de Fiabilidad: Miden la consistencia de un solo constructo usando el mismo método. Deben ser altos para un buen instrumento.
b) Coeficientes de Validez Convergente: Correlaciones entre diferentes métodos para el mismo constructo. Si diferentes métodos muestran resultados similares para un constructo, indica validez convergente.
c) Coeficientes de Validez Discriminante: Correlaciones entre diferentes constructos usando el mismo o diferentes métodos. Estas correlaciones deberían ser bajas, mostrando que los constructos son distintos entre sí, independientemente del método utilizado.
En resumen, las MRMM ofrecen una perspectiva empírica sobre la validez de un constructo. Para considerar un test válido, deberíamos observar alta validez convergente y baja validez discriminante.
Ejemplo de Validez Convergente-Discriminante usando Matrices Multirrasgo-Multimétodo (MRMM)
Supongamos que estamos interesados en medir el constructo de «Autoestima». Para ello, tenemos un test psicométrico llamado «Test de Autoestima de Smith (TAS)», una entrevista estructurada y una lista de verificación de comportamiento observable. Además, como otro constructo relacionado, queremos medir «Motivación intrínseca».
Paso 1: Medimos la autoestima utilizando el TAS, la entrevista estructurada y la lista de verificación.
Paso 2: Medimos la motivación intrínseca utilizando los mismos tres métodos.
Paso 3: Recogemos datos de una muestra de 100 personas utilizando todos los constructos y métodos.
Después de recolectar los datos, calculamos las correlaciones y construimos la matriz MRMM.
Método/Constructo | TAS (Autoestima) | Entrevista (Autoestima) | Lista de Verificación (Autoestima) | TAS (Motivación) | Entrevista (Motivación) |
---|---|---|---|---|---|
TAS (Autoestima) | 1.0 | 0.75 | 0.70 | 0.20 | 0.15 |
Entrevista (Autoestima) | 0.75 | 1.0 | 0.80 | 0.25 | 0.20 |
Lista de Verificación (Autoestima) | 0.70 | 0.80 | 1.0 | 0.18 | 0.10 |
TAS (Motivación) | 0.20 | 0.25 | 0.18 | 1.0 | 0.72 |
Entrevista (Motivación) | 0.15 | 0.20 | 0.10 | 0.72 | 1.0 |
Análisis:
- Coeficientes de Fiabilidad: La diagonal principal muestra correlaciones altas para el mismo constructo y método (e.g., TAS Autoestima con TAS Autoestima es 1.0).
- Coeficientes de Validez Convergente: Las correlaciones entre diferentes métodos para el mismo constructo son relativamente altas (e.g., TAS Autoestima con Entrevista Autoestima es 0.75).
- Coeficientes de Validez Discriminante: Las correlaciones entre diferentes constructos usando el mismo método son bajas (e.g., TAS Autoestima con TAS Motivación es 0.20).
Este ejemplo simplificado muestra que el «Test de Autoestima de Smith» tiene buena validez convergente y discriminante para medir la autoestima.
Otras perspectivas del concepto validez
La APA, en sus estándares de 1999, establece una visión unificada de la validez, donde la validez de constructo se convierte en el pilar central de la validación. Esta perspectiva enfatiza las consecuencias del uso de los test, la teoría de la generalizabilidad y cómo los test influencian decisiones políticas. Según esta definición, la validez es un concepto unitario que refleja el grado en el cual las evidencias y teorías respaldan las interpretaciones de las puntuaciones del test para sus usos previstos. En lugar de validar el test en sí, se debe acumular evidencia que respalde las interpretaciones propuestas de las puntuaciones del test. Esta visión moderna abarca tanto enfoques cuantitativos como cualitativos al abordar la validez.
Validez consecuencial
La validez consecuencial se refiere a los efectos no anticipados que resultan del uso de los test, especialmente si estos efectos adversos están relacionados con fallos en el test, como una inadecuada representación del constructo. Messick (1998) se centró en cómo el uso de una técnica puede afectar, positiva o negativamente, al individuo evaluado. Aunque los Standards for Educational and Psychological Testing han incluido las consecuencias sociales del uso de los test como una evidencia más en la validación, hay debate sobre esta inclusión. Algunos argumentan que evaluar las consecuencias confunde los resultados con la precisión de la inferencia del atributo medido. Además, señalan desafíos prácticos, como la variabilidad en el uso del test y la dificultad de separar cuestiones de validez de argumentos ideológicos o políticos. En resumen, la consideración de las consecuencias en la validación presenta desafíos conceptuales y metodológicos en la psicometría.
Ejemplo de Validez Consecuencial:
Imaginemos una escuela que decide implementar un nuevo test de aptitud matemática para determinar qué estudiantes necesitan clases de refuerzo.
Diseño del Test: El test se diseña con una serie de problemas matemáticos que abarcan diferentes áreas, desde aritmética hasta álgebra. La escuela utiliza este test con la intención de identificar a aquellos estudiantes que tienen dificultades en matemáticas y necesitan apoyo adicional.
Resultados: Después de administrar el test, se encuentra que un grupo considerable de estudiantes no pasa la prueba y, por lo tanto, se les coloca en clases de refuerzo.
Consecuencias No Anticipadas:
- Estigma: Los estudiantes que son colocados en clases de refuerzo podrían sentirse estigmatizados o avergonzados, lo que afecta su autoestima.
- Consecuencias Académicas: Algunos de los estudiantes que fueron asignados al refuerzo, en realidad, podrían haber sido mal evaluados debido a problemas con el diseño del test y no porque realmente necesitaran refuerzo.
- Recursos: Las clases de refuerzo exigen recursos, maestros y espacios que podrían haberse utilizado de manera diferente si el test hubiera sido más preciso.
Revisión del Test: Al revisar el test, la escuela descubre que algunos de los problemas de álgebra eran demasiado avanzados para el nivel de grado de los estudiantes, lo que sesgó los resultados. Además, el test no consideró otros factores que podrían afectar el rendimiento del estudiante, como la ansiedad ante los exámenes.
Conclusión: La validez consecuencial se ve reflejada en cómo el uso del test tuvo consecuencias no anticipadas en los estudiantes y en la asignación de recursos de la escuela. La escuela necesita reevaluar y, posiblemente, rediseñar el test para evitar estos problemas en el futuro.
Validez social
La validez social se refiere a la consideración de las implicaciones y consecuencias sociales de la aplicación de tests psicométricos. Originalmente, se vinculaba con la evaluación e intervención de individuos con retraso, pero es esencial para determinar criterios normativos y éticos en la evaluación.
Existen dos enfoques principales para evaluarla:
- Valoración Subjetiva: Implica juzgar la aceptabilidad social y la importancia de los objetivos, procedimientos y resultados logrados.
- Valoración Cuantitativa: Se centra en comparar resultados con estándares normativos.
Según Foster y Mash (1999), la validez social es un concepto con múltiples dimensiones, dividido principalmente en aceptabilidad y relevancia. Es esencial garantizar que los tests sean socialmente relevantes y aceptados por la comunidad para garantizar su eficacia y justicia en la aplicación.
Ejemplo de Validez Social:
Imaginemos un test diseñado para medir la aptitud académica de estudiantes que aspiran a ingresar a una universidad.
1. Valoración Subjetiva: Antes de su implementación, se lleva a cabo una serie de grupos focales con profesores, estudiantes y padres. Estos grupos discuten el contenido del test, las áreas que mide, y la percepción general de su pertinencia. La mayoría opina que el test se centra demasiado en memorización y no en habilidades de pensamiento crítico, lo que no refleja las habilidades necesarias para tener éxito en la universidad.
2. Valoración Cuantitativa: Después de administrar el test a una cohorte de estudiantes, los resultados se comparan con otras métricas, como las calificaciones obtenidas en la escuela secundaria. Se descubre que, aunque muchos estudiantes obtienen puntajes altos en el test, sus calificaciones en la escuela no son necesariamente altas, y viceversa.
Relevancia y Aceptabilidad: A raíz de estos hallazgos, se cuestiona la relevancia del test, ya que no parece reflejar adecuadamente la preparación académica de los estudiantes. Además, la comunidad educativa no lo encuentra aceptable, ya que se sienten más confiados en las calificaciones escolares como un indicador más preciso de la aptitud académica.
En este ejemplo, aunque el test puede tener validez técnica (mide lo que dice medir), carece de validez social porque no es percibido como relevante o aceptable por la comunidad que lo utiliza y se ve afectada por él. Por lo tanto, es esencial que las instituciones educativas consideren la validez social al implementar cualquier medida evaluativa.
Utilidad
La utilidad en evaluación se refiere a la capacidad de una técnica para:
- Detectar variables relevantes al tratamiento.
- Identificar comportamientos objetivo para el tratamiento.
- Mejorar los resultados del tratamiento al usarla.
Según Fernández-Ballesteros y Calero (2011), la utilidad está más ligada al proceso de evaluación que a la técnica en sí, enfatizando la importancia de tomar decisiones óptimas. Recientes investigaciones de la APA resaltan que la evaluación psicológica es tan útil como la médica en áreas como diagnóstico, predicción de comportamiento y resultados terapéuticos, entre otros.
Un estudio destacado de Meyer et al. (2001) concluyó que:
- Los test psicológicos tienen alta validez.
- Su validez es comparable a los test médicos.
- Diferentes métodos de evaluación aportan información única.
- Los clínicos basados solo en entrevistas pueden tener una visión limitada del paciente.
Por lo tanto, se sugiere que la combinación de múltiples métodos de evaluación enriquece el entendimiento del clínico, potenciando la validez y precisión de la evaluación, demostrando la pertinencia y valor de la evaluación psicológica moderna.
Ejemplo de Utilidad en Evaluación Psicológica:
Contexto: Hospital General en una ciudad metropolitana.
Paciente: Juan, 25 años, ha sido referido al departamento de salud mental por quejas persistentes de ansiedad y dificultades para dormir.
- Evaluación Tradicional (entrevista única):
- El psicólogo clínico entrevista a Juan sobre sus síntomas.
- Juan describe sentirse constantemente preocupado y tiene problemas para dormir, pero no proporciona detalles específicos sobre la naturaleza o causa de su ansiedad.
- A partir de la entrevista, el psicólogo determina que Juan podría estar experimentando un trastorno de ansiedad generalizada y recomienda terapia.
- Evaluación Multi-método:
- Junto con la entrevista, se administra a Juan una batería de pruebas:
- Cuestionario de ansiedad estandarizado.
- Diario de sueño durante una semana.
- Test psicométrico para medir niveles de estrés y posibles síntomas depresivos.
- Evaluación fisiológica (monitorización del ritmo cardíaco) durante situaciones estresantes simuladas.
- Los resultados revelan:
- Juan tiene puntajes altos en ansiedad relacionada con el rendimiento y la preocupación sobre el futuro.
- Su patrón de sueño es irregular, con múltiples despertares relacionados con pesadillas.
- Presenta síntomas leves de depresión.
- Aumento del ritmo cardíaco cuando se enfrenta a tareas bajo presión.
- A partir de la evaluación multi-método, el psicólogo identifica que la ansiedad de Juan está estrechamente vinculada a presiones laborales y temores sobre su carrera. Se recomienda una terapia cognitivo-conductual centrada en el manejo de la ansiedad relacionada con el rendimiento y técnicas de relajación para mejorar el sueño.
- Junto con la entrevista, se administra a Juan una batería de pruebas:
Conclusión: Mientras que la entrevista tradicional proporcionó una comprensión general de la situación de Juan, la evaluación multi-método ofreció una visión más completa y específica de sus problemas, permitiendo una intervención más precisa y adaptada a sus necesidades.
Validez incremental
La validez incremental se refiere al beneficio añadido que una técnica de evaluación adicional aporta al proceso de evaluación. En otras palabras, evalúa si combinar múltiples métodos o fuentes de evaluación mejora la precisión y la capacidad predictiva sobre el uso de un solo método o fuente.
- Muchos expertos recomiendan una evaluación multi-método y multi-fuente, ya que rara vez una sola medida ofrece una visión completa (De los Reyes, Del Barrio, Fernández-Ballesteros, etc.).
- Sin embargo, la simple combinación de medidas no garantiza automáticamente mejores resultados; su validez incremental debe ser demostrada empíricamente para cada objetivo de evaluación.
- En el ámbito de la psicopatología de adultos y el estudio de la personalidad, técnicas como el test de Rorschach y el MMPI-2 han demostrado un aumento de la validez incremental en ciertos casos.
- Combinar entrevistas clínicas estructuradas con instrumentos específicos también ha demostrado aumentar la validez.
- En el ámbito infantil, la justificación para el uso de múltiples métodos y fuentes proviene más de la lógica que de evidencia empírica sólida.
- Algunas investigaciones muestran que combinar perspectivas de múltiples informantes (como madre-padre o niño-padre) puede mejorar la predicción de problemas conductuales en niños basándose en la aceptación parental percibida.
- Recursos como «Psychological Assessment» y «Assessments that Work» ofrecen más detalles sobre la combinación de instrumentos para problemas clínicos específicos.
En resumen, la validez incremental subraya la importancia de considerar si la adición de más métodos o fuentes en la evaluación aporta valor real y mejora la precisión de las decisiones clínicas.
Ejemplo de Validez Incremental:
Contexto: Evaluación de síntomas depresivos en adolescentes.
Técnicas Utilizadas:
- Cuestionario de autoinforme sobre síntomas depresivos.
- Entrevista clínica estructurada con el adolescente.
- Cuestionario completado por los padres sobre el comportamiento y el estado de ánimo de su hijo.
Proceso:
- Primero, se aplicó el cuestionario de autoinforme al adolescente para evaluar sus propios síntomas y percepciones.
- Luego, se realizó una entrevista clínica estructurada para profundizar en sus respuestas y obtener una perspectiva más detallada.
- Por último, los padres completaron un cuestionario sobre los comportamientos y estados de ánimo que habían observado en su hijo.
Resultados:
- El cuestionario de autoinforme indicó síntomas moderados de depresión.
- La entrevista clínica corroboró la información del cuestionario, pero también reveló episodios de autolesiones que el adolescente no había reportado en el cuestionario.
- El cuestionario de los padres confirmó la preocupación por el estado de ánimo de su hijo, pero no estaban al tanto de las autolesiones.
Conclusión: Aunque el cuestionario de autoinforme por sí solo podría haber sido suficiente para identificar síntomas depresivos, la adición de la entrevista clínica proporcionó una visión más completa y detallada de la situación, al descubrir las autolesiones. Además, el cuestionario de los padres aportó una perspectiva externa que corroboró la información del adolescente. Por tanto, la combinación de las tres técnicas ofreció una validez incremental al proporcionar una evaluación más holística y precisa del bienestar del adolescente.
La validez de los test referidos al criterio: sensibilidad y especificidad
Los Test Referidos a Criterio buscan clasificar a los individuos según sus resultados en una prueba en categorías como «aptos/no aptos» o «trastorno/no trastorno». La validez de estos tests se centra en cuán adecuadas son estas clasificaciones.
Dos índices clave para evaluar la validez son:
- Sensibilidad (SE): Mide qué tan bien el test identifica a quienes realmente tienen un trastorno. Es la probabilidad de que alguien con el trastorno obtenga un resultado positivo en el test.
- Especificidad (SP): Mide qué tan bien el test identifica a quienes realmente no tienen el trastorno. Es la probabilidad de que alguien sin el trastorno obtenga un resultado negativo en el test.
Idealmente, una prueba tendría alta sensibilidad y alta especificidad, pero en la práctica, hay un equilibrio entre ambas. La Curva Operativa del Receptor (COR) se utiliza para determinar el punto de corte óptimo que maximiza tanto la sensibilidad como la especificidad.
Imaginemos una prueba diseñada para detectar una enfermedad específica en una población.
- Sensibilidad (SE): Supongamos que de 100 personas que realmente tienen la enfermedad, 90 son identificadas por la prueba como enfermas. Por lo tanto, la sensibilidad de la prueba es del 90%. Esto significa que la prueba es bastante buena para identificar a aquellos que realmente tienen la enfermedad.
- Especificidad (SP): Ahora, de 100 personas que no tienen la enfermedad, 85 son identificadas por la prueba como no enfermas. Así, la especificidad de la prueba es del 85%. Esto indica que la prueba es bastante buena, pero no perfecta, en identificar a aquellos que realmente están sanos.
Dado el equilibrio entre sensibilidad y especificidad, si se ajusta la prueba para hacerla más sensible (es decir, para que detecte a más personas con la enfermedad), es posible que se reduzca su especificidad (puede que identifique incorrectamente a más personas sanas como enfermas).
Por ejemplo, si se ajusta el punto de corte para que 95 de las personas con la enfermedad den positivo (aumentando la sensibilidad al 95%), la especificidad podría caer al 80%, ya que ahora más personas sanas serían incorrectamente identificadas como enfermas.
La Curva Operativa del Receptor (COR) nos ayuda a visualizar este equilibrio y a elegir el punto de corte que mejor equilibre sensibilidad y especificidad para las necesidades particulares de la situación.
La validez desde la Teoría de la Generalizabilidad
La Teoría de la Generalizabilidad (TG) aborda la validez de una prueba desde cuatro perspectivas:
- Generalizabilidad de los elementos: Se refiere a si los elementos de un test son representativos del universo completo de contenidos relacionados. En otras palabras, ¿un elemento del test es aplicable a otros similares? Esto se asemeja a la validez de contenido tradicional.
- Generalizabilidad de las situaciones: Examina la validez ecológica, es decir, si los datos de un test son aplicables en diferentes situaciones. Se enfoca en la relación entre las medidas tomadas en un entorno controlado versus situaciones reales, priorizando las mediciones en contextos naturales.
- Generalizabilidad de los métodos: Analiza si los datos obtenidos mediante un método de evaluación son extrapolables a otros métodos que miden el mismo contenido. Se relaciona con las nociones tradicionales de validez convergente y concurrente.
- Generalizabilidad de las dimensiones: Considera si las características o estimaciones de una variable pueden aplicarse a otras. Se vincula con el concepto tradicional de validez de constructo.
En resumen, la TG proporciona un marco para evaluar la validez de una prueba considerando la representatividad de sus elementos, su aplicabilidad en diferentes situaciones, métodos y dimensiones.
Vamos a usar un ejemplo sencillo relacionado con la educación:
Test de Matemáticas para Estudiantes de 5º Grado
- Generalizabilidad de los elementos:
- Pregunta: ¿Las preguntas del test cubren todos los temas que se enseñaron durante el año en matemáticas para 5º grado?
- Ejemplo: Si el currículo abordó aritmética, geometría y estadísticas, el test debería tener preguntas representativas de cada una de esas áreas.
- Generalizabilidad de las situaciones:
- Pregunta: ¿Los estudiantes responderían de la misma manera al test si se les diera en el aula, en casa o en un entorno de examen estandarizado?
- Ejemplo: Si los estudiantes obtienen consistentemente puntuaciones más altas en el aula que en un entorno de examen estandarizado, podría haber un problema con la validez de la prueba en diferentes situaciones.
- Generalizabilidad de los métodos:
- Pregunta: ¿Las puntuaciones del test de matemáticas serían consistentes si se administrara en papel vs. en línea?
- Ejemplo: Si los estudiantes obtienen puntuaciones significativamente diferentes en la versión en papel en comparación con la versión en línea, esto podría cuestionar la validez del método de entrega del test.
- Generalizabilidad de las dimensiones:
- Pregunta: ¿Las habilidades evaluadas en el test de matemáticas son indicativas del rendimiento general en matemáticas o solo de habilidades específicas?
- Ejemplo: Si un estudiante obtiene puntuaciones altas en el test pero consistentemente tiene problemas con las tareas matemáticas en clase, podría haber un desajuste entre lo que mide el test y las dimensiones generales de competencia matemática.
Este ejemplo ilustra cómo se podría evaluar la validez de un test educativo utilizando la Teoría de la Generalizabilidad.
Exactitud
Desde una perspectiva conductual, la aplicación de los principios de la Teoría Clásica de Test ha sido desafiante debido a desacuerdos fundamentales sobre la naturaleza de los constructos evaluados. En la evaluación conductual, la preocupación principal no es la estabilidad del constructo, sino más bien la «exactitud» con la que se representa una conducta particular.
La exactitud, según Cone (1988), se refiere a qué tan bien un instrumento refleja las características reales de la conducta en estudio. Para ser considerado exacto, un instrumento debe:
- Determinar si la conducta ocurre.
- Registrar la repetición de la conducta.
- Capturar la conducta en diversas situaciones.
- Permitir mediciones usando diferentes métodos.
- Relacionar la conducta con otras conductas.
La exactitud no es lo mismo que fiabilidad o validez en la Teoría Clásica de Test. Mientras que la fiabilidad se refiere a la consistencia de las mediciones, la exactitud considera si la medición refleja realmente la conducta observada. Así, una medida podría ser confiable (consistente) sin ser exacta (veraz). Por otro lado, aunque una medida pueda ser válida, no necesariamente es exacta, ya que la validez se basa en estimaciones y criterios, mientras que la exactitud se relaciona con la precisión en la representación de una conducta real.
Ejemplo sobre exactitud en evaluación conductual:
Supongamos que se desarrolla un instrumento para medir la frecuencia con la que un niño muestra comportamientos de ansiedad en el aula, como morderse las uñas o moverse inquietamente en su asiento. Dos profesores son entrenados para utilizar este instrumento y observar a un estudiante particular.
- Fiabilidad pero no exactitud: Si ambos profesores registran que el niño se mueve inquietamente 10 veces en una hora, el instrumento sería confiable (ambos observadores están de acuerdo en sus mediciones). Sin embargo, si en realidad el niño se movió inquietamente 20 veces y ambos profesores no lo notaron, entonces la medición no es exacta.
- Exactitud pero no fiabilidad: Si un profesor registra 20 movimientos inquietos y el otro 10, no hay fiabilidad (los observadores no están de acuerdo). Pero si uno de ellos (el que registró 20) capturó la verdadera frecuencia del comportamiento, entonces esa medición particular es exacta.
- Exactitud y fiabilidad: Si ambos profesores registran 20 movimientos inquietos y ese es el número real de veces que el niño mostró el comportamiento, entonces el instrumento es tanto confiable como exacto.
Este ejemplo destaca la diferencia entre la consistencia de las mediciones (fiabilidad) y cuán verazmente reflejan la realidad (exactitud).
Referencias
- Moreno Rosset and Ramírez Uclés (2019) Evaluación psicológica : proceso, técnicas y aplicaciones en áreas y contextos. Madrid: Sanz y Torres.