Las Evaluaciones de la Enseñanza por parte de los Estudiantes (SET, por sus siglas en inglés) se emplean para valorar la efectividad docente, basándose en la premisa de que los estudiantes aprenden más de los profesores mejor valorados. Aunque las SET se utilizan desde la década de 1920, su adopción se generalizó en los EE. UU. hacia finales de los años 1960 y principios de los 1970 (Murray, 2005; Wachtel, 1998). Hoy en día, prácticamente todas las universidades y colegios de América del Norte recurren a las SET para evaluar la efectividad de la enseñanza de su personal docente. Generalmente, las SET se realizan en las últimas semanas del curso, antes de asignar las calificaciones finales. Los estudiantes completan formularios que les solicitan evaluar su percepción sobre los instructores y los cursos, utilizando a menudo una escala Likert de 5 puntos. Estos formularios pueden incluir evaluaciones sobre diversos atributos del profesorado, como el conocimiento y la organización, así como aspectos de los cursos, como su dificultad (Feldman, 1989; Spooren, Brockx & Mortelmans, 2013). Las valoraciones se resumen calculando las medias de las respuestas para cada ítem evaluado. Aunque el uso de SET para retroalimentación personal de los profesores no genera controversia, su aplicación para tomar decisiones administrativas significativas sí es altamente debatida (Emery, Kramer & Tian, 2003; Spooren, Brockx & Mortelmans, 2013; Stark & Freishtat, 2014; Wachtel, 1998).
Los defensores de las SET arguyen que son un método económico y conveniente para evaluar la enseñanza, y destacan su utilidad para que los estudiantes puedan expresar su opinión sobre la enseñanza que reciben (Murray, 2005; Wachtel, 1998). Por otro lado, los críticos sostienen que las SET miden principalmente la satisfacción estudiantil y pueden estar influenciadas por numerosos factores no relacionados con la calidad de la enseñanza, como el interés del estudiante o la dificultad del curso (Spooren, Brockx & Mortelmans, 2013; Uttl et al., 2012; Wachtel, 1998). Además, los hallazgos de la psicología cognitiva sugieren que los estudiantes no siempre son capaces de evaluar objetivamente la efectividad docente, debido al efecto Dunning-Kruger, donde personas con menor habilidad sobreestiman su competencia, mientras que las más competentes la subestiman (Kruger & Dunning, 1999).
Los estudios de múltiples secciones han intentado establecer una correlación entre las SET y el rendimiento estudiantil, pero la asignación aleatoria de estudiantes a las secciones es complicada, y la validez de las SET sigue siendo objeto de debate. Por ejemplo, Abrami, d’Appolonia, y Cohen (1990) resumen esta perspectiva señalando que el diseño de múltiples secciones es el más robusto para evaluar en qué medida las valoraciones estudiantiles predicen el aprendizaje producido por el docente.
Las Evaluaciones de la Enseñanza por Estudiantes (SET, por sus siglas en inglés) se utilizan para evaluar la efectividad docente bajo la premisa de que los estudiantes aprenden más de profesores con altas calificaciones. Introducidas en la década de 1920, su uso se generalizó en Estados Unidos a finales de los 60 y principios de los 70 (Murray, 2005; Wachtel, 1998). Actualmente, casi todas las universidades y colegios de América del Norte aplican SET para evaluar a su personal docente. Generalmente, las SET se realizan en las últimas semanas de clase antes de las calificaciones finales, pidiendo a los estudiantes que evalúen su percepción sobre los instructores y los cursos, a menudo mediante una escala Likert de 5 puntos (Feldman, 1989; Spooren, Brockx & Mortelmans, 2013). Aunque el uso de SET para retroalimentación personal de profesores no es controvertido, su uso para decisiones administrativas de alto riesgo sí lo es (Emery, Kramer & Tian, 2003; Spooren, Brockx & Mortelmans, 2013; Stark & Freishtat, 2014; Wachtel, 1998).
Clayson (2009) en su metaanálisis más reciente concluyó que no existe una relación significativa entre las SET y el aprendizaje estudiantil. Reportó una correlación de solo .33 cuando se promediaron las correlaciones de los estudios primarios sin considerar el tamaño de la muestra y .13 al ponderarlas por tamaño de muestra. Clayson sugiere que la validez de las SET puede depender de variables como el profesorado, el contenido del curso y las disciplinas académicas, descartando fallos metodológicos en investigaciones anteriores como las de Cohen (1981). Sin embargo, un análisis rápido de los datos de Clayson muestra correlaciones altamente improbables (como .91, .89, .81) entre las SET y el aprendizaje en varios estudios primarios. Además, sus datos revelan que la correlación SET/aprendizaje disminuye de .33 a .13 al ajustar por tamaño de muestra y que estudios con pocas secciones reportaron correlaciones más altas en comparación con aquellos con muchas secciones. Un gráfico de dispersión de las correlaciones contra el tamaño del estudio mostró un patrón de embudo asimétrico, indicativo de un sesgo por tamaño de muestra pequeño.
Las revisiones de todas las metaanálisis publicadas anteriormente sobre las correlaciones SET/aprendizaje (Clayson, 2009; Cohen, 1981, 1982, 1983; Dowell & Neal,1982; Feldman,1989; McCallum,1984) revelan que ninguna consideró adecuadamente que las correlaciones pequeñas a moderadas podrían ser artefactos del pequeño tamaño de muestra de los estudios primarios y sesgo por tamaño de muestra pequeño. Estas metaanálisis también adolecen de múltiples fallos metodológicos críticos que hacen que sus conclusiones sean cuestionables. Un primer paso necesario, pero no suficiente, para realizar una metaanálisis válida e informativa es recopilar todos los estudios relevantes y extraer y reportar información relevante de estos estudios primarios de manera precisa.
En resumen, los hallazgos históricos han sido contradictorios y problemáticos debido a problemas metodológicos, incluyendo sesgos por tamaño de muestra pequeño y falta de consideración de variables moderadoras en las correlaciones entre las SET y el aprendizaje estudiantil. Por lo tanto, sigue siendo crucial examinar críticamente la evidencia sobre la eficacia de las SET como medidas de efectividad docente.
Revisión y reanálisis de las metaanálisis de Cohen (1981), Feldman (1989) y Clayson (2009).
Cohen (1981) meta-análisis
La meta-análisis de Cohen (1981) se basó en 68 estudios multisección extraídos de 41 artículos publicados y otros informes. Cohen encontró que las calificaciones generales de los instructores y los cursos correlacionaban con el rendimiento estudiantil con r = .43 y r = .47, respectivamente. Además, Cohen también analizó correlaciones entre varios aspectos de las calificaciones SET (habilidad, rapport, estructura, dificultad, interacción, retroalimentación, evaluación, progreso del estudiante) y el rendimiento. Sin embargo, solo dos de los aspectos de SET estaban significativamente correlacionados con el rendimiento (habilidad: r = .50; estructura: r = .47).
La revisión de la meta-análisis de Cohen (1981) revela numerosos problemas fundamentales. Primero, la meta-análisis carece incluso de los detalles más esenciales. Por ejemplo, Cohen no informó detalles necesarios de su búsqueda de estudios primarios, no reportó características de los estudios primarios, y ni siquiera informó el tamaño del efecto y el tamaño del estudio (es decir, número de secciones) para cada estudio multisección individual. Segundo, la meta-análisis también reveló algunas correlaciones increíblemente altas (rs > .90) entre SETs y aprendizaje, llamadas correlaciones «vudú» (Vul, Harris, Winkielman, & Pashler, 2009; véase, por ejemplo, la Figura 2 de Cohen). Cohen (1981) notó que algunos revisores de su artículo estaban preocupados de que las correlaciones SET/aprendizaje variaran por el tamaño de la muestra, pero concluyó que el número de secciones no tenía un efecto apreciable en las correlaciones SET/aprendizaje. Tercero, aunque Cohen (1981) sabía que algunos de los estudios multisección se basaban en tan solo cinco secciones y que más de un tercio de sus estudios multisección tenían diez o menos secciones, Cohen desestimó el tamaño de los estudios multisección individuales cuando calculó la correlación media entre SET y aprendizaje. Específicamente, combinó los tamaños del efecto del estudio multisección transformando rs a puntuaciones Z de Fisher, calculando la puntuación Z media de Fisher en todos los estudios sin ponderar las Zs por cada tamaño del estudio, y transformó las puntuaciones Z de Fisher medias de vuelta a r. Por lo tanto, Cohen dio igual peso a cada estudio primario independientemente de cuántas secciones se basaba.
En un intento de rastrear cómo Cohen (1981) llegó a su fuerte conclusión sobre las relaciones SET/aprendizaje, obtuvimos una microficha de la disertación de doctorado de Cohen (1980), la base del artículo de Cohen (1981). Aunque el Apéndice C en la disertación de Cohen (1980) contenía los tamaños del efecto para cada estudio primario, no incluía otros detalles sobre los estudios primarios, como el número de secciones incluidas en cada uno de ellos. En consecuencia, para reanalizar los datos de Cohen (1981), localizamos los artículos e informes incluidos en la meta-análisis de Cohen y extraímos los tamaños de muestra para cada estudio multisección informado en el Apéndice C de la disertación de Cohen (1980).
Este análisis exhaustivo revela que los resultados originales reportados por Cohen podrían haber sido influenciados significativamente por sesgos asociados con el tamaño pequeño de muestra de muchos estudios incluidos en su meta-análisis.
Feldman (1989) meta-análisis
La meta-análisis de Feldman (1989) amplió la investigación de Cohen (1981) sobre las correlaciones entre la Evaluación de la Enseñanza por los Estudiantes (SET, por sus siglas en inglés) y el aprendizaje, examinando 31 dimensiones de SET en lugar de las ocho que Cohen había investigado. Feldman reportó que algunas dimensiones de SET tenían correlaciones moderadas a fuertes con el aprendizaje, con las cuatro correlaciones más fuertes variando entre .36 y .57. Sin embargo, al igual que el análisis de Cohen, la meta-análisis de Feldman no realizó una búsqueda independiente de artículos relevantes, sino que se basó en los identificados por Cohen (Abrami, Cohen, & d’Apollonia, 1988), y no consideró los efectos del tamaño de los estudios en sus resultados.
Un problema fundamental en la meta-análisis de Feldman fue que no consideró la posibilidad de que sus resultados fueran artefactos de los efectos de estudios pequeños. Además, al igual que Cohen, Feldman no ponderó las correlaciones SET/aprendizaje por el tamaño de los estudios individuales, lo que podría haber influido en los altos valores de correlación reportados.
Nuestro análisis de los datos de Feldman mostró que, cuando se controla por los efectos de estudios pequeños y se incluyen sólo estudios con 30 o más secciones (NGT30), la correlación estimada entre SET y aprendizaje es de solo .11, aumentando ligeramente cuando se agregan estudios más pequeños en análisis meta-analíticos sucesivos. Para las dimensiones con las correlaciones más fuertes reportadas por Feldman, nuestros re-análisis indicaron que estas correlaciones no eran estadísticamente significativas y eran despreciables cuando se ajustaban por los efectos de estudios pequeños.
En resumen, nuestros re-análisis de los datos de Feldman (1989) indican que sus conclusiones sobre el impacto significativo de dimensiones específicas de SET en el aprendizaje son infundadas. Los análisis demuestran que las dimensiones específicas de SET no se correlacionan significativamente con el aprendizaje, sugiriendo que los efectos del tamaño pequeño de los estudios y el sesgo de publicación podrían haber influido en los resultados originales reportados.
Clayson (2009) meta-análisis
La meta-análisis de Clayson (2009) intentó actualizar y ampliar los estudios previos sobre las correlaciones entre la Evaluación de la Enseñanza por los Estudiantes (SET, por sus siglas en inglés) y el aprendizaje, siguiendo criterios similares a los de Cohen (1981). Clayson encontró 17 artículos que incluían 42 estudios multisección, utilizando promedios de correlaciones sin transformar, y reportó una correlación media no ponderada de SET/aprendizaje de .33, que disminuyó a .13 y no fue estadísticamente significativa cuando se ponderó por el tamaño de la muestra. Curiosamente, Clayson incorporó la meta-análisis de Cohen como si fuera un estudio multisección individual, lo cual es metodológicamente cuestionable.
Además, la descripción de la búsqueda de estudios relevantes por parte de Clayson fue demasiado vaga para ser replicable, y no especificó completamente las bases de datos o términos específicos utilizados. Este enfoque es problemático ya que la búsqueda aparentemente inadecuada de Clayson contrasta con los más de 40 artículos incluidos en las meta-análisis anteriores, sugiriendo que muchos estudios pertinentes podrían haber sido omitidos.
Un problema crítico en el análisis de Clayson fue el uso inapropiado de la meta-análisis de Cohen, tratándola como un estudio multisección con correlaciones de SET/aprendizaje, lo cual es inadecuado porque distorsiona la estimación de las correlaciones ponderadas y hace que sus resultados sean en gran parte no interpretables. Además, a pesar de observar correlaciones moderadamente fuertes entre las correlaciones de SET/aprendizaje y el tamaño del estudio, Clayson no investigó más a fondo ni intentó estimar las correlaciones de SET/aprendizaje teniendo en cuenta los efectos del tamaño pequeño del estudio.
La figura 4 en nuestro análisis reitera que las correlaciones altamente significativas en estudios con un pequeño número de secciones sugieren un posible sesgo de publicación, donde estudios con correlaciones significativas tienen más probabilidades de ser publicados. Las re-análisis indican que, una vez que se tienen en cuenta los efectos del tamaño pequeño del estudio, las correlaciones estimadas entre las calificaciones de SET y las medidas de aprendizaje son mínimas y no significativas.
En resumen, los re-análisis de los datos de Clayson revelan un patrón consistente con análisis previos: las correlaciones estimadas son menores una vez que se consideran los efectos del tamaño pequeño del estudio, indicando que las calificaciones de SET no se correlacionan significativamente con medidas de aprendizaje. Además, la inclusión inapropiada de la meta-análisis de Cohen como un estudio multisección y la cobertura insuficiente de estudios relevantes hacen que los hallazgos de Clayson sean en gran medida no interpretables y cuestionan la validez de sus conclusiones sobre la efectividad de las calificaciones de SET para evaluar la eficacia docente.
Resumen
El análisis de las meta-análisis anteriores revela numerosos problemas relacionados con la localización de estudios, lo cual por sí solo impide que sean replicables. Usando los mismos criterios de inclusión y buscando explícitamente estudios multisección en meta-análisis anteriores, Clayson (2009) debería haber encontrado más artículos y estudios multisección que Cohen (1981). Más importante aún, nuestra revisión y reanálisis de las meta-análisis anteriores también indican que las correlaciones moderadas entre SET/aprendizaje reportadas en análisis previos son un artefacto de los efectos de tamaño de muestra pequeño. Los gráficos de dispersión y los gráficos de embudo de las correlaciones SET/aprendizaje en función del tamaño del estudio revelan claros efectos de tamaño de muestra pequeño, y la presencia de estos efectos fue confirmada por pruebas objetivas. De manera crítica, cuando se reanalizan las correlaciones SET/aprendizaje teniendo en cuenta los efectos del tamaño pequeño de la muestra, las correlaciones estimadas de SET/aprendizaje caen casi a cero para casi todas las correlaciones SET/aprendizaje reportadas en las meta-análisis anteriores. Finalmente, los reanálisis de los datos anteriores también indican la presencia de valores atípicos (por ejemplo, Rodin & Rodin, 1972) que las meta-análisis anteriores no mencionaron ni consideraron si deberían ser eliminados.
Metaanálisis actualizado de las correlaciones SET/aprendizaje reportadas por estudios multisección
Ante las limitaciones de las meta-análisis anteriores sobre las correlaciones SET/aprendizaje reportadas en estudios multisección, llevamos a cabo una nueva meta-análisis integral de las correlaciones SET/aprendizaje desde cero. Esta nueva meta-análisis tuvo varios objetivos principales. El primero fue ampliar el conjunto de estudios multisección incluyendo todos los estudios multisección publicados hasta la fecha. El segundo objetivo fue estimar las correlaciones SET/aprendizaje en estudios multisección teniendo en cuenta la presencia de efectos de tamaño de muestra pequeño. Se reconoce ampliamente que el problema del sesgo de tamaño de muestra pequeño, a menudo derivado del sesgo de selección de publicaciones, es un problema serio y común que invalida muchas meta-análisis (Rücker et al., 2011; Stanley & Doucouliagos, 2014). El tercer objetivo fue examinar si las correlaciones SET/aprendizaje eran menores en estudios multisección que controlaban versus aquellos que no controlaban el aprendizaje/habilidad previa. El cuarto objetivo fue examinar las correlaciones SET/aprendizaje para las calificaciones generales de los instructores utilizadas en las meta-análisis anteriores de las relaciones SET/aprendizaje, así como las correlaciones SET/aprendizaje para un promedio de correlaciones SET/aprendizaje reportadas en cada estudio multisección. Los estudios multisección a menudo reportan muchas más correlaciones SET/aprendizaje (es decir, correlaciones SET/aprendizaje para varios ítems o factores SET) además de o en lugar de correlaciones SET/aprendizaje para la calificación general del instructor utilizada en las meta-análisis anteriores. Además, aunque algunas universidades y colegios solo utilizan calificaciones generales de los instructores para evaluar a sus profesores, otras universidades y colegios usan promedios a través de todos los ítems o dimensiones SET. Por consiguiente, calculamos la correlación promedio SET/aprendizaje reportada por cada estudio multisección y las incluimos en meta-análisis separados. El quinto objetivo fue examinar la sensibilidad de las meta-análisis a valores atípicos extremos visibles en las meta-análisis anteriores.
Metodo
Estudios incluidos en el metaanálisis
La búsqueda de estudios relevantes para la meta-análisis se llevó a cabo en varias etapas, como se muestra en la Figura 5. Primero, se recopilaron las citas de artículos con estudios multisección de las meta-análisis anteriores (es decir, las listadas en la Tabla 1). Segundo, se buscó en la Colección Central de Web of Science todos los artículos que citaban a Cohen (1981) y Feldman (1989). Dado que Clayson (2009) no estaba incluido en Web of Science, se utilizó Google Scholar para buscar todos los artículos que citaban a Clayson. Tercero, se buscaron los términos de búsqueda en las bases de datos PsycINFO, MEDLINE, EconLIT y ERIC desde la fecha más temprana disponible hasta finales de enero de 2016: (a) TX “student* eval*” O TX “student* rating*” O TX “teach* effectiveness” O TX “teach* performance”, (b) TX “student* learning” O TX “student* achievement” O TX “academic achievement” o TX “student* performance,” y (c) TX faculty O TX professor* O TX “teach* assistant*” O TX instructor, combinando las tres búsquedas con AND. Cuarto, se examinaron las referencias en todos los artículos relevantes, capítulos de libros y tesis, recuperados por cualquier método, en busca de artículos potencialmente relevantes y los artículos identificados fueron revisados manualmente por relevancia. Un artículo relevante podría haber informado sobre uno o más estudios multisección.
Para ser incluido en la meta-análisis, un estudio debía cumplir varios criterios de inclusión. Primero, el estudio debía reportar correlaciones u otras medidas de asociación (p. ej., regresión, diferencias medias) entre SET y aprendizaje/logro en contextos universitarios o de colegios. Segundo, cada estudio debía involucrar múltiples secciones del mismo curso en lugar de cursos diferentes. Tercero, tanto los SET como las medidas de aprendizaje debían ser comunes para todas las secciones dentro de cada estudio. Cuarto, las medidas de aprendizaje debían ser objetivas, evaluando el aprendizaje real en lugar de la percepción subjetiva de los estudiantes sobre su aprendizaje. Quinto, las correlaciones SET/aprendizaje debían calcularse usando medias de sección en lugar de puntajes individuales de los estudiantes. Y sexto, el estudio debía estar escrito en inglés.
Estos criterios resultaron en varias exclusiones. Dos estudios (Borg & Hamilton, 1956; Morsh, Burgess, & Smith, 1956) utilizados en algunas de las meta-análisis anteriores fueron excluidos porque no examinaron SET/aprendizaje en entornos universitarios/académicos sino en instalaciones de entrenamiento militar, siendo el entrenamiento completamente disímil a los cursos típicos universitarios/académicos. Otros estudios fueron excluidos por una variedad de razones: Gessner (1973.01, 1973.02) porque no involucraban estudios multisección sino diferentes instructores enseñando diferentes módulos del mismo curso (con módulos confundidos con instructores); Hoffman (1978).02 porque no reportó los datos necesarios para establecer las correlaciones SET/aprendizaje; Sorge (1973) confundió las correlaciones SET/aprendizaje con manipulación experimental; Johnson (2003) porque no incluía un estudio multisección sino una colección de secciones de una variedad de cursos mezclados; Cohen (1981) porque no incluía un estudio multisección sino una meta-análisis de estudios multisección; y Shmanske (1988) porque el examen utilizado difería entre las secciones. Finalmente, seis estudios fueron excluidos porque eran inaccesibles: Crooks y Smock (1974), Spencer y Dick (1965) y Wherry (1952) eran informes internos, y Murray (1983), Reynolds y Hansvick (1978) y Spencer y Dick (1965) eran presentaciones en conferencias.
Variables registradas
Para cada estudio multisección incluido en la meta-análisis, se registraron diversas variables que permitieron un análisis detallado y comparativo. Las variables registradas incluyen:
- Autores: Nombres de los investigadores involucrados en el estudio.
- Año de publicación: Año en que el estudio fue publicado.
- Número de secciones: Cantidad de secciones de curso incluidas en el estudio.
- Correlación SET/aprendizaje: Medida de la relación entre las evaluaciones de enseñanza por los estudiantes (SET) y los resultados de aprendizaje.
- Nombre del curso: Identificación del curso evaluado.
- Disciplina del curso: Área académica del curso (por ejemplo, matemáticas, historia).
- Asignación de estudiantes a secciones: Método utilizado para asignar estudiantes a secciones (autoasignados, asignados aleatoriamente, otros).
- Controles de habilidad/rendimiento previo: Variables controladas como GPA, inteligencia, prueba previa.
- Medida SET: Instrumento o método utilizado para evaluar las SET.
- Medida de aprendizaje/logro: Por ejemplo, examen final, calificación final, examen de competencia.
- Consistencia de la medida de aprendizaje/logro para todas las secciones: Si la medida era la misma, diferente o no especificada para todas las secciones.
- Objetividad de la medida de aprendizaje/logro: Clasificación como subjetiva, mixta u objetiva.
- Experiencia del instructor: Por ejemplo, estudiantes de posgrado, facultad, mezcla de ambos, otros, no especificado.
- Número de estudiantes en todas las secciones: Total de estudiantes involucrados en las secciones estudiadas.
- Número de instructores: Cantidad de instructores que participaron en las secciones evaluadas.
- Número de correlaciones SET/aprendizaje reportadas: Cantidad de correlaciones específicas informadas en el estudio.
- Lugar de publicación: Revista o foro donde se publicó el estudio.
- Presencia de conflicto de interés: Por ejemplo, si un autor estuvo involucrado en el diseño o evaluación de SET utilizado en el estudio, o si estaba asociado con un centro de enseñanza/aprendizaje, una oficina responsable de la evaluación de la enseñanza, o una empresa comercial involucrada en la venta o desarrollo de SETs.
- Calidad del estudio: Incluyendo si el estudio reportó medias, desviaciones estándar, rangos, fiabilidades y distribuciones para las medidas de SET y aprendizaje/logro; y si incluyó cualquier gráfico de dispersión de las relaciones SET/aprendizaje.
Estas variables meticulosamente recopiladas permiten un análisis más riguroso y confiable de las correlaciones entre SET y aprendizaje, ayudando a superar las limitaciones observadas en meta-análisis previos y proporcionando una evaluación más precisa del impacto real de las evaluaciones de enseñanza basadas en estudiantes en los resultados de aprendizaje.
Metodología del meta-análisis
En la metodología de meta-análisis de las correlaciones SET/aprendizaje en estudios multisección, abordamos varias configuraciones de datos reportados. Algunos estudios solo reportaron correlaciones de orden cero entre SET y aprendizaje, mientras que otros ajustaron las correlaciones SET/aprendizaje para el conocimiento previo y/o la capacidad, y otros informaron ambos tipos de correlaciones. Dado que casi nunca se asignaron aleatoriamente los estudiantes a las secciones en los estudios multisección, preferimos utilizar correlaciones SET/aprendizaje ajustadas por conocimiento previo/capacidad cuando estuvieran disponibles, y correlaciones de orden cero solo si las ajustadas no estaban disponibles. Evaluamos si el tipo de correlación SET/aprendizaje disponible (orden cero o ajustada) modera la relación SET/aprendizaje.
Realizamos meta-análisis separados usando solo estudios multisección que proporcionaron correlaciones ajustadas por conocimiento/capacidad, ya que, aunque la prueba del moderador no fue estadísticamente significativa, estas correlaciones ajustadas proporcionan una mejor estimación del aprendizaje que las correlaciones de orden cero.
Algunos estudios reportaron una sola correlación SET/aprendizaje, típicamente entre la calificación global del instructor y el aprendizaje/logro. Otros reportaron múltiples correlaciones SET/aprendizaje, por ejemplo, una para cada ítem SET. Analizamos los datos de dos maneras: en el primer conjunto de meta-análisis, usamos solo una correlación SET/aprendizaje por estudio, es decir, la que mejor capturó la correlación entre la calificación global del instructor y el aprendizaje/logro. Para el segundo conjunto de meta-análisis, usamos correlaciones SET/aprendizaje promediadas a través de todos los ítems SET. No promediamos correlaciones de orden cero con correlaciones ajustadas por habilidad/logro previo.
Examinamos los datos en busca de valores atípicos y efectos de estudios pequeños usando boxplots, scatterplots, funnel plots y pruebas de regresión. Luego, estimamos el tamaño del efecto usando el modelo de efectos aleatorios (usando el estimador de máxima verosimilitud restringida, o REML), pero también proporcionamos estimaciones de efectos fijos para análisis básicos y para comparación con meta-análisis anteriores. Un modelo de efectos aleatorios permite que el tamaño del efecto verdadero varíe de estudio a estudio, lo cual es más apropiado dado la variedad de disciplinas, instituciones, medidas SET y medidas de aprendizaje empleadas por los estudios primarios. Apoyamos estos análisis con forest plots.
Finalmente, estimamos las correlaciones SET/aprendizaje ajustadas por efectos de estudios pequeños usando varios métodos básicos y más sofisticados, incluyendo la estimación de trim-and-fill, meta-análisis acumulativo comenzando con el estudio de muestra más grande y agregando el siguiente estudio más pequeño en cada paso sucesivo, la estimación basada en todos los estudios con una muestra igual o mayor a 30 (NGT30), la estimación basada en el 10% superior de los estudios más precisos (TOP10) y las estimaciones basadas en regresión usando el método de meta-análisis de límite. Basándonos en una variedad de estudios de simulación, cuando hay efectos de estudios pequeños, las estimaciones TOP10 y las estimaciones basadas en regresión usando el método de meta-análisis de límite generalmente presentan los mejores resultados (Moreno et al., 2009; Stanley & Doucouliagos, 2014). También examinamos la sensibilidad de los meta-análisis a los valores atípicos. Todos los análisis reportados se realizaron usando R, y más específicamente, los paquetes meta, metafor y metasens.
Resultados
Los resultados de la nueva meta-análisis comprensiva sobre las correlaciones entre la Evaluación del Estudiante de la Enseñanza (SET) y el aprendizaje en estudios multisección revelan varias observaciones críticas:
- Correlaciones Generales: La meta-análisis muestra una correlación de efectos aleatorios moderada (r = .23, IC 95% [.16, .31]), con una heterogeneidad moderada (I^2 = 54.9%). Sin embargo, las correlaciones SET/aprendizaje se reducen significativamente (r = .12, IC 95% [0, .24]) en estudios que ajustan por conocimiento/habilidad previa comparado con aquellos que no lo hacen (r = .30, IC 95% [.20, .38]).
- Efectos de Tamaño de Estudio Pequeño: Los tests de asimetría de plot de embudo indican la presencia de efectos de tamaño de estudio pequeño. Las estimaciones ajustadas de la correlación SET/aprendizaje, considerando estos efectos, son considerablemente menores:
- TF (Trim and Fill): .12, ajustando por 22 estudios adicionales.
- NGT30 (estudios con 30 o más secciones): .10.
- TOP10 (el 10% superior de estudios más precisos): .08.
- Meta-análisis de límite ajustado r = .12 (IC 95% [.03, .21]).
- Estudios con Ajustes de Conocimiento/Habilidad Previos: Los resultados son consistentemente menores cuando se consideran solo los estudios que ajustan por conocimiento/habilidad previa. El modelo de efectos aleatorios muestra una r más baja (r = .16, IC 95% [-.02, .32]) con heterogeneidad aún más alta (I^2 = 72.2%).
- Impacto de Valores Atípicos: La exclusión de estudios identificados como valores atípicos, como los de Capozza (1973) y Rodin y Rodin (1972), muestra que las correlaciones ajustadas para efectos de estudios pequeños siguen siendo bajas y las heterogeneidades disminuyen, indicando una robustez en los hallazgos frente a la influencia de valores extremos.
- Análisis Sensitivo: Las meta-análisis adicionales que sólo incluyen estudios con ajustes de conocimiento previo revelan que las correlaciones ajustadas para efectos de estudios pequeños son insignificantes y bajas (TF: .01, NGT30: .08, TOP10: .03).
Las figuras ilustrativas de estos análisis muestran que, a medida que se incluyen estudios de menor tamaño en la meta-análisis acumulativa, la magnitud de la correlación SET/aprendizaje aumenta, lo cual es indicativo de un sesgo de publicación y la tendencia a publicar estudios más pequeños con correlaciones más grandes. Esta nueva meta-análisis evidencia que las correlaciones entre SET y aprendizaje son generalmente bajas y son afectadas significativamente por el tamaño de los estudios y el ajuste por conocimiento previo. Esto plantea serias preguntas sobre la validez de usar SET como un indicador fiable de la efectividad de la enseñanza.
Correlaciones generales entre la evaluación del profesorado por parte de los estudiantes (SET) y el aprendizaje
La Figura 7 muestra el gráfico de bosque y los metaanálisis de efectos fijos y aleatorios para las correlaciones de aprendizaje/SET usando todos los SETs. El modelo de efectos aleatorios (k = 97) muestra una r = .23 con un IC del 95% = (.16, .31), con una heterogeneidad moderada medida por I^2 = 54.9%, Q (96) = 212.73, p < .001. Además, el análisis de moderador de efectos mixtos mostró que las correlaciones de aprendizaje/SET eran sustancialmente menores para estudios con ajustes por conocimiento/habilidad previos, r = .12 con IC del 95% = (0, .24) comparado con estudios sin tales ajustes, r = .30 con IC del 95% = (.20, .38), Q(1) = 5.21, p = .022. Sin embargo, esta estimación no tiene en cuenta la presencia de efectos de estudios pequeños. Usando todos los estudios, la prueba de regresión lineal de asimetría del gráfico de embudo indicó asimetría, p = .002. Las estimaciones de r de aprendizaje/SET ajustadas por efectos de estudios pequeños fueron: TF: .12 (con 22 efectos rellenados); NGT30: .10; Top10: .08; y r ajustada de meta-análisis límite = .12 con IC del 95% = (.03, .21) (Prueba de efectos de estudio pequeño: Q-Q'(1) = 21.24, p < .001; prueba de heterogeneidad residual Q(95) = 191.49, p < .001).
Repetimos los análisis anteriores pero solo para estudios con ajustes por conocimiento/habilidad previos. El modelo de efecto aleatorio (k = 34) muestra una r = .16 con IC del 95% = (-.02, .32), con heterogeneidad moderada medida por I^2 = 72.2%, Q(33) = 118.92, p < .001. La prueba de regresión lineal de asimetría del gráfico de embudo no fue significativa, p = .113. Las estimaciones de r de aprendizaje/SET ajustadas por efectos de estudios pequeños fueron: TF: .01 (con 8 efectos rellenados); NGT30: .08; Top10: .03; y r ajustada de meta-análisis límite = .06 con IC del 95% = (.17, .07) (Prueba de efectos de estudio pequeño: Q-Q'(1) = 9.10, p = .003; prueba de heterogeneidad residual Q(32) = 109.82, p < .001).
Finalmente, los dos estudios, Capozza (1973) (n = 8) y Rodin y Rodin (1972) (n = 12), identificados como outliers univariantes en los análisis preliminares, también fueron outliers extremos con residuos estudiantilizados por debajo de 3.0. En consecuencia, repetimos los análisis anteriores con estos dos estudios eliminados. Con los dos outliers eliminados, el modelo de efecto aleatorio (k = 95) muestra una r = .25 con IC del 95% = (.18, .31), con heterogeneidad más baja I^2 = 48.0%, Q(95) = 182.85, p < .001. Además, el análisis de moderador de efectos mixtos mostró que las correlaciones de aprendizaje/SET eran sustancialmente menores para estudios con ajustes por conocimiento/habilidad previos, r = .17 con IC del 95% = (.05, .27) comparado con estudios sin tales ajustes, r = .30 con IC del 95% = (.21, .38), Q(1) = 3.34, p = .068. Sin embargo, como se mencionó anteriormente, esta estimación no tiene en cuenta la presencia de efectos de estudios pequeños. Usando todos los estudios, la prueba de regresión lineal de asimetría del gráfico de embudo indicó asimetría, p < .001. Las estimaciones de r de aprendizaje/SET ajustadas por efectos de estudios pequeños fueron: TF: .13
Correlaciones generales entre la evaluación del profesorado por parte de los estudiantes (SET) y el aprendizaje
La Figura 9 presenta el gráfico de bosque y los metaanálisis de modelos de efectos fijos y aleatorios para las correlaciones de aprendizaje/SET usando todos los SET. El modelo de efectos aleatorios (k = 97) muestra una r = .17 con un IC del 95% = (.11, .23), con baja heterogeneidad, medida por un I^2 del 34.1%, Q(96) = 145.58, p < .001. Además, el análisis de moderadores de efectos mixtos demostró que las correlaciones de aprendizaje/SET eran considerablemente menores en estudios ajustados por conocimiento/habilidad previa, r = .05 con un IC del 95% = (-.04, .14), que en estudios sin tales ajustes, r = .25 con un IC del 95% = (.17, .33), Q(1) = 10.46, p = .001. Sin embargo, esta estimación no considera la presencia de efectos de estudios pequeños. Usando todos los estudios, la prueba de regresión lineal de asimetría del gráfico de embudo indicó asimetría, p = .008. Las estimaciones de r de aprendizaje/SET ajustadas por efectos de estudios pequeños fueron: TF: .10 (con 22 efectos rellenados); NGT30: .10; Top10: .08; y r ajustada de meta-análisis límite = .09 con un IC del 95% = (0, .19) (Prueba de efectos de estudios pequeños: Q-Q'(1) = 10.32, p = .001; prueba de heterogeneidad residual Q(95) = 135.26, p = .004).
Repetimos los análisis anteriores pero solo para estudios con ajustes por conocimiento/habilidad previos. El modelo de efectos aleatorios (k = 34) muestra una r = .06 con un IC del 95% = (-.06, .17), con moderada heterogeneidad medida por un I^2 del 57.0%, Q(33) = 76.75, p < .001. La prueba de regresión lineal de asimetría del gráfico de embudo no fue significativa, p = .373. No obstante, a la luz de los efectos generales de asimetría, recalculamos las estimaciones de r de aprendizaje/SET ajustadas por efectos de estudios pequeños y las proporcionamos en la Tabla 4 junto con los resúmenes de los análisis anteriores.
Finalmente, los dos estudios —Capozza (1973) (n = 8) y Rodin y Rodin (1972) (n = 12)— identificados como outliers univariantes en los análisis preliminares, también fueron outliers extremos con residuos estudiantilizados por debajo de 3.0. En consecuencia, repetimos los análisis anteriores con estos dos estudios eliminados. Con los dos outliers eliminados, el modelo de efectos aleatorios (k = 95) muestra una r = .18 con un IC del 95% = (.12, .24), con una heterogeneidad más baja, I^2 = 19.6%, Q(95) = 116.86, p = .055. Además, el análisis de moderadores de efectos mixtos mostró que las correlaciones de aprendizaje/SET eran sustancialmente menores en estudios con ajustes por conocimiento/habilidad, r = .09 con un IC del 95% = (-.01, .17) en comparación con estudios sin tales ajustes, r = .25 con un IC del 95% = (.17, .32). Sin embargo, como se mencionó anteriormente, esta estimación no tiene en cuenta la presencia de los efectos de estudios pequeños. Usando todos los estudios, la prueba de regresión lineal de asimetría del gráfico de embudo indicó asimetría, p < .001. Las estimaciones de r de aprendizaje/SET ajustadas por efectos de estudios pequeños fueron: TF: .10 (con 24 efectos rellenados), NGT30: .10, Top10: .08, y r ajustada de meta-análisis límite = .08 con un IC del 95% = (.01, .17) (Prueba de efectos de
Discusión
La discusión sobre las correlaciones entre las evaluaciones de enseñanza por parte de los estudiantes (SET) y el aprendizaje revela hallazgos críticos que cuestionan la validez de los SET como medida de efectividad docente. Primero, la mayoría de los estudios de sección múltiple incluyen un número limitado de secciones, y los efectos de tamaño de estudio pequeño son prevalentes, lo que a menudo resulta en correlaciones SET/aprendizaje exageradamente altas en estudios pequeños, mientras que los estudios más grandes muestran correlaciones pequeñas o nulas.
Segundo, cuando se ajustan los análisis para efectos de tamaño de estudio pequeño, las correlaciones entre SET y aprendizaje son extremadamente débiles, con los SET explicando menos del 1% de la varianza en las medidas de aprendizaje/logro. Incluso cuando se consideran solo estudios que controlan el aprendizaje previo o la habilidad, las correlaciones entre SET y aprendizaje son insignificantes.
Tercero, estos hallazgos se mantienen tanto para las calificaciones generales de los instructores como para los promedios de todas las calificaciones SET informadas por los estudios de sección múltiple. Esto sugiere que las afirmaciones de que los estudiantes aprenden más de profesores mejor calificados no están respaldadas por estudios de sección múltiple.
Además, la revisión y reanálisis de los conjuntos de datos de metaanálisis anteriores revelan que si se hubieran considerado los efectos de tamaño de estudio pequeño y se hubieran realizado análisis más rigurosos, las conclusiones habrían sido considerablemente diferentes. Los metaanálisis anteriores, incluidos los de Cohen (1981), Feldman (1989) y Clayson (2009), podrían haber llegado a conclusiones similares sobre la debilidad de las correlaciones SET/aprendizaje si hubieran interpretado adecuadamente los gráficos de dispersión de las correlaciones SET/aprendizaje en función del tamaño del estudio.
Por último, es importante destacar que la noción de que podemos medir la efectividad de la enseñanza simplemente mediante cuestionarios de percepción estudiantil parece poco realista, dada la evidencia establecida en las ciencias cognitivas que muestra fuertes asociaciones entre el aprendizaje y diferencias individuales como el conocimiento previo, la inteligencia, la motivación y el interés.
En conclusión, las correlaciones entre las calificaciones SET y el aprendizaje son consistentes con lo que se esperaría de la generación aleatoria de correlaciones desde una correlación poblacional de rho = 0, aplicando un sesgo de selección de publicación. No existe evidencia que respalde la creencia extendida de que los estudiantes aprenden más de profesores con calificaciones SET más altas. Si algo, los estudios más recientes y de gran muestra muestran que los estudiantes enseñados por profesores altamente calificados en cursos prerrequisitos tienen un desempeño peor en cursos posteriores. Esto sugiere que las universidades y colegios deben reconsiderar la importancia que otorgan a las calificaciones SET al evaluar la enseñanza de su facultad, especialmente si su enfoque institucional está centrado en el aprendizaje del estudiante en lugar de en la percepción o satisfacción del estudiante.