Repensar la evaluación desde la coherencia y la investigación.
En educación hemos normalizado prácticas que rara vez sometemos a análisis. Una de ellas es la ponderación de instrumentos de evaluación como si cada herramienta representara “partes” del aprendizaje.
Pero los instrumentos no son aprendizajes. Son medios para recoger evidencias. Con los instrumentos pretendemos tener pruebas de un desempeño, tomar un juicio de valor en base de una evidencia objetiva.
Y si confundimos el medio con el fin, la evaluación pierde sentido pedagógico.
Instrumentos: medios, no fines
Un instrumento de evaluación es el dispositivo que utilizamos para recoger información sobre el grado de logro de un criterio. No es la evaluación en sí misma, ni el aprendizaje, ni la competencia.
Desde la teoría de la alineación constructiva, Biggs (1996) y Biggs y Tang (2011) sostienen que la calidad del proceso educativo depende de la coherencia entre:
-
-
- Resultados de aprendizaje
- Actividades de enseñanza
- Procedimientos e instrumentos de evaluación
-
Si el instrumento no se ajusta a la naturaleza del criterio que pretende evidenciar, se rompe la alineación y disminuye la validez de la evaluación. Y aquí conviene introducir el concepto clave procedente de la teoría clásica de la evaluación: la validez.
Aquí es imprescindible acudir a Messick (1989), quien redefinió la validez como un concepto unificado que integra evidencia empírica y fundamentación teórica para sostener las interpretaciones que hacemos de los resultados. No se trata de medir por medir, sino de poder interpretar con rigor y fundamento lo que observamos. Si un criterio exige argumentar, resolver problemas en contexto o demostrar competencia profesional, difícilmente un instrumento centrado exclusivamente en la memoria reproductiva podrá ofrecer evidencias válidas. Por lo que:
No todos los aprendizajes son observables del mismo modo.
No todos los desempeños pueden capturarse con la misma herramienta.
Un examen tipo test puede ser válido para comprobar reconocimiento de conceptos. Pero difícilmente lo será para evidenciar pensamiento crítico, resolución contextualizada de problemas o desempeño profesional complejo.
La pregunta no es: — ¿Qué instrumento uso?
La pregunta es: — ¿Qué tipo de desempeño exige el criterio?
Black y Wiliam (1998) ya señalaron que la calidad de la evaluación depende de la calidad de la información que recogemos y de cómo la utilizamos para mejorar el aprendizaje. Si el instrumento no es coherente con el aprendizaje que queremos evidenciar, la retroalimentación que ofreceremos será necesariamente limitada.
Un instrumento no crea el aprendizaje. Solo lo hace visible. Y lo hace con mayor o menor precisión en función de su ajuste a aquello que pretendemos observar.
Naturaleza del criterio y nivel cognitivo
La taxonomía revisada de Bloom (Anderson & Krathwohl, 2001) aporta aquí una clave esencial: no todos los procesos cognitivos tienen la misma naturaleza. Recordar no es lo mismo que analizar. Comprender no es lo mismo que crear. Si un criterio exige analizar, evaluar o crear, el instrumento debe permitir observar ese nivel cognitivo. De lo contrario, estaremos midiendo otra cosa distinta.
La incoherencia entre nivel cognitivo esperado y tipo de instrumento utilizado genera una ilusión de evaluación que no se sostiene teóricamente.
No todos los instrumentos son igualmente válidos para evaluar cualquier criterio. La literatura sobre evaluación insiste en que la calidad de una evaluación depende, en gran medida, de la alineación entre criterios, tareas e instrumentos (Sadler, 1989; Black & Wiliam, 1998).
Si un instrumento no permite recoger evidencias claras, suficientes y representativas del desempeño competencial esperado, no debería incorporarse a la calificación, aunque sí pueda tener valor formativo. La calificación, como síntesis del juicio evaluador, solo debería basarse en evidencias válidas, no en la totalidad de actividades realizadas.
Ponderar instrumentos implica, implícitamente, otorgarles un valor intrínseco independiente de su capacidad real para evidenciar el aprendizaje, lo cual contradice los principios básicos de la evaluación educativa.
Evaluación auténtica y desempeño real
Grant Wiggins (1998) introdujo el concepto de evaluación auténtica, defendiendo que debemos evaluar mediante tareas que simulen o reproduzcan desafíos reales del ámbito profesional o social.
Si hablamos de Formación Profesional, pero también de cualquier etapa, resulta difícil justificar instrumentos desconectados del desempeño real cuando los criterios exigen aplicar conocimientos en contextos complejos. La evaluación auténtica no se centra en cuánto sabe el alumnado, sino en qué es capaz de hacer con lo que sabe. Y eso exige instrumentos ajustados a la naturaleza del desempeño.
La inconsistencia de ponderar instrumentos
En muchos centros se distribuyen porcentajes entre exámenes, trabajos y actitud. Sin embargo, esta práctica responde más a una lógica administrativa que pedagógica. Los instrumentos no representan “trozos” del aprendizaje. Son distintas vías para acceder a evidencias, medios para recoger información.
Popham (2017) advierte del peligro de convertir la evaluación en una suma aritmética desprovista de correlación conceptual sin analizar la coherencia entre lo evaluado y que realmente importa en términos de aprendizaje. Si un criterio se evalúa mediante varios instrumentos, estos no constituyen aprendizajes distintos, sino miradas complementarias sobre el mismo aprendizaje.
Ponderar instrumentos puede conducir a situaciones paradójicas: que un estudiante alcance una calificación positiva sin haber logrado determinados criterios esenciales.
Desde el marco normativo actual en España (LOMLOE y en la Ley Orgánica de Ordenación e Integración de FP), los referentes de la evaluación son los criterios. Los instrumentos son subordinados a ellos.
No se ponderan instrumentos.
Se valoran evidencias en relación con criterios.
Evaluar cómo investigar: triangulación y rigor
La evaluación educativa comparte fundamentos metodológicos con la investigación social. Cuando estudiamos un fenómeno complejo, no utilizamos una única técnica de recogida de datos, se recurre a la triangulación.
Denzin (1978) definió la triangulación como el uso combinado de métodos, fuentes o perspectivas para aumentar la credibilidad de los resultados. Flick (2018) profundiza en esta idea señalando que la triangulación no busca confirmar, sino enriquecer la comprensión, integrar miradas diversas para comprender fenómenos complejos.
El aprendizaje es un fenómeno complejo, situado y contextual. Pretender capturarlo con un único instrumento es metodológicamente débil. Triangular en evaluación significa:
-
-
- Utilizar instrumentos diversos y coherentes con el criterio.
- Recoger evidencias en distintos momentos.
- Contrastar desempeños en contextos variados.
- Reducir el sesgo asociado a una única medición.
-
Stiggins (2005) insiste en que una evaluación eficaz requiere múltiples fuentes de evidencia para apoyar decisiones pedagógicas justas. No se trata de evaluar más. Se trata de evaluar con mayor rigor epistemológico, evaluar mejor.
De la cultura del porcentaje a la cultura de la validez
Quizás el mayor cambio pendiente en muchos centros educativos sea pasar de la cultura del porcentaje a la cultura de la evidencia.
Black y Wiliam (1998) demostraron que la evaluación formativa tiene un impacto significativo en el aprendizaje cuando la información recogida se utiliza para mejorar el proceso. Pero para que esa información sea útil, debe ser válida, coherente y fundamentada. La cultura del porcentaje simplifica. La cultura de la evidencia exige pensar.
Y pensar implica revisar nuestras prácticas, cuestionar inercias y asumir que evaluar no es repartir números, sino interpretar evidencias con criterio profesional.
Referencias
Anderson, L. W., & Krathwohl, D. R. (Eds.). (2001). A taxonomy for learning, teaching, and assessing: A revision of Bloom’s taxonomy of educational objectives. Longman.
Biggs, J. (1996). Enhancing teaching through constructive alignment. Higher Education, 32(3), 347–364.
Biggs, J., & Tang, C. (2011). Teaching for quality learning at university (4th ed.). McGraw-Hill/Open University Press.
Black, P., & Wiliam, D. (1998). Assessment and classroom learning. Assessment in Education, 5(1), 7–74.
Denzin, N. K. (1978). The research act (2nd ed.). McGraw-Hill.
Flick, U. (2018). An introduction to qualitative research (6th ed.). SAGE.
Messick, S. (1989). Validity. En R. L. Linn (Ed.), Educational measurement (3rd ed.). Macmillan.
Popham, W. J. (2017). Classroom assessment: What teachers need to know (8th ed.). Pearson.
Stiggins, R. J. (2005). From formative assessment to assessment for learning. Phi Delta Kappan, 87(4), 324–328.
Wiggins, G. (1998). Educative assessment: Designing assessments to inform and improve student performance. Jossey-Bass.



