Grupo Loga

La evaluaciÃ³n del aprendizaje de los estudiantes: Â¿es realmente tan complicada?

El proceso educativo incluye diversos elementos como los mÃ©todos de enseÃ±anza, el aprendizaje y la evaluaciÃ³n. Frecuentemente se privilegian los mÃ©todos de enseÃ±anza en la formaciÃ³n de los profesores, y la adquisiciÃ³n de conocimientos y habilidades sobre evaluaciÃ³n del aprendizaje en educaciÃ³n es limitada o se lleva a cabo de manera informal. Es importante que los participantes del proceso educativo, estudiantes, docentes, autoridades, asÃ como la sociedad en general, conozcan algunos de los conceptos bÃ¡sicos de evaluaciÃ³n del aprendizaje, ya que como cualquier Ã¡rea tÃ©cnico-cientÃfica, posee una terminologÃa propia. Los actores de la educaciÃ³n debemos adquirir conciencia de los alcances y limitaciones de los instrumentos de evaluaciÃ³n del aprendizaje. Este escrito presenta algunas de las definiciones relevantes en el Ã¡rea de la evaluaciÃ³n del aprendizaje.

Â¿QuÃ© es la evaluaciÃ³n del aprendizaje?

Si le preguntamos a un estudiante probablemente nos dirÃ¡: â€œexÃ¡menesâ€, y si le preguntamos a un profesor podrÃa contestarnos: â€œes algo difÃcil que toma tiempo y experiencia, por lo que generalmente no me pagan, y para lo que no fui capacitadoâ€. Pensamos que la mayor parte de lo que enseÃ±amos es aprendido por los estudiantes, aunque la Ãºnica manera de conocer los efectos de la enseÃ±anza es realizar una evaluaciÃ³n continua y tÃ©cnicamente adecuada, alineada con los planes de estudio y mÃ©todos de enseÃ±anza, que incluya al estudiante como actor activo en el proceso. Esta evaluaciÃ³n debe idealmente arrojar resultados interpretables y utilizables por el mismo estudiante, el docente, la instituciÃ³n educativa y la sociedad.
Existen varias definiciones de evaluaciÃ³n, una de las mÃ¡s utilizadas es: â€œtÃ©rmino genÃ©rico que incluye un rango de procedimientos para adquirir informaciÃ³n sobre el aprendizaje del estudiante, y la formaciÃ³n de juicios de valor respecto al proceso de aprendizajeâ€ (Miller, 2012). Dichos juicios necesitan algÃºn referente, como puede ser el plan de estudios. EvaluaciÃ³n implica obtener informaciÃ³n de diferentes fuentes como realimentaciÃ³n, exÃ¡menes, tareas y diversas interacciones con el educando. Los profesores que interactuamos con estudiantes debemos incorporarla desde una visiÃ³n mÃ¡s profunda, como sugiriÃ³ Derek Rowntree: â€œcuando una persona, con algÃºn tipo de interacciÃ³n directa o indirecta con otra, obtiene e interpreta informaciÃ³n de manera consciente sobre el conocimiento y la comprensiÃ³n, habilidades y actitudes de la otra persona. Hasta cierto punto evaluaciÃ³n es un intento de conocer a esa personaâ€ (Rowntree, 1977). No debemos olvidar que a quienes evaluamos son seres humanos, con todo lo que ello implica.
Las siguientes son algunas recomendaciones para que la evaluaciÃ³n del aprendizaje se lleve a cabo de forma apropiada (Miller, 2012):

Especificar claramente lo que se va a evaluar es fundamental.
La evaluaciÃ³n es un medio para un fin, no un fin en sÃ mismo.
Los mÃ©todos de evaluaciÃ³n del aprendizaje deben elegirse por su relevancia para las caracterÃsticas que se van a evaluar del estudiante.
Requiere de una variedad de procedimientos e instrumentos.
Su uso adecuado requiere tener conciencia de su propÃ³sito y de las bondades y limitaciones de cada mÃ©todo.

Tipos de evaluaciÃ³n del aprendizaje

EvaluaciÃ³n diagnÃ³stica, formativa y sumativa
Una de las clasificaciones tradicionales de la evaluaciÃ³n educativa es desde el punto de vista de su objetivo: diagnÃ³stica, sumativa y formativa.
La evaluaciÃ³n diagnÃ³stica se realiza al principio de un curso o actividad acadÃ©mica con la finalidad de determinar el nivel de conocimiento, habilidad o actitud del educando. Esta informaciÃ³n puede ser de utilidad para el docente, ya que le permite hacer adecuaciones en el contenido y en la implementaciÃ³n de las actividades acadÃ©micas programadas. Un ejemplo de este tipo de evaluaciÃ³n es el Examen DiagnÃ³stico de Ingreso en las licenciaturas de la Universidad Nacional AutÃ³noma de MÃ©xico (UNAM), en el que se valoran los conocimientos generales de EspaÃ±ol y de InglÃ©s de los estudiantes de nuevo ingreso. Los resultados se envÃan a cada facultad o escuela, para su uso y difusiÃ³n. Recientemente colocamos estos resultados en la pÃ¡gina de la CoordinaciÃ³n de Desarrollo Educativo e InnovaciÃ³n Curricular (CODEIC), como material de acceso abierto para cualquier persona que quiera explorar los datos, incluyendo ademÃ¡s del reporte oficial, unas tablas dinÃ¡micas que permiten al usuario realizar comparaciones y visualizarlas.

La evaluaciÃ³n sumativa es aquella compuesta por la suma de valoraciones efectuadas durante un curso, para determinar, al final del mismo, el grado con que los objetivos de la enseÃ±anza se alcanzaron y asÃ otorgar calificaciones. Ejemplos de esta evaluaciÃ³n son los exÃ¡menes de fin de curso, los exÃ¡menes de certificaciÃ³n de profesionistas, el examen profesional de fin de carrera. Estos exÃ¡menes son eventos de alta trascendencia para la vida del estudiante, quien en ocasiones los percibe como obstÃ¡culos a sortear para alcanzar un objetivo, en lugar de oportunidades para identificar su estado real de aprendizaje. Un tipo de exÃ¡menes sumativos que merece atenciÃ³n especial, son los llamados â€œexÃ¡menes de altas consecuencias o de alto impactoâ€ (high-stakes testing, en inglÃ©s), que han generado una intensa controversia en las Ãºltimas dÃ©cadas (SÃ¡nchez Mendiola, 2017).
La evaluaciÃ³n formativa es la que se utiliza para monitorear el progreso del aprendizaje y proporcionar realimentaciÃ³n al estudiante sobre sus logros, deficiencias y oportunidades de mejora. Es un proceso mediante el cual se recaba informaciÃ³n sobre el proceso de enseÃ±anza aprendizaje, que los maestros pueden usar para tomar decisiones sobre cÃ³mo enseÃ±an y los alumnos para mejorar su propio desempeÃ±o, convirtiÃ©ndose en una fuente de motivaciÃ³n para ellos. Esta evaluaciÃ³n idealmente deberÃa ocurrir a lo largo de todo el proceso educativo del estudiante. Puede ser formal si estÃ¡ oficialmente programada y es esperada en determinados momentos del proceso, o informal si ocurre de manera espontÃ¡nea, no programada. Si se reconoce un logro del estudiante para estimularlo y reforzar su conducta se le llama positiva, y si critica de manera explÃcita algo que se hizo mal o que se puede mejorar se le llama negativa. La evaluaciÃ³n formativa tiene un poderoso componente educativo, ya que durante las actividades del dÃa a dÃa permite identificar aquellas que se hacen bien, asÃ como aquellas que tienen alguna deficiencia, para detectarlas a tiempo y corregirlas (MartÃnez Rizo, 2009 y 2013). Este tipo de evaluaciÃ³n forma parte de la llamada â€œevaluaciÃ³n para el aprendizajeâ€, en la que el enfoque no es verificar, sino apoyar y motivar al estudiante, al mismo tiempo que proporciona al profesor informaciÃ³n sobre el aprendizaje del educando.
Desafortunadamente, se ha creado una diferencia artificial entre la evaluaciÃ³n sumativa y formativa, que ha generado mucha controversia. A la sumativa se le ha etiquetado como excesivamente cuantitativa, centrada en los nÃºmeros; punitiva y discriminatoria; usada con fines polÃticos; de ejercicio del poder o de control; demasiado estandarizada e inaplicable en los seres humanos que somos individualmente diferentes. Por el contrario, la evaluaciÃ³n formativa ha surgido como la heroÃna de la pelÃcula, la parte buena, positiva, nutritiva educacionalmente, que toma en cuenta los aspectos afectivos y emocionales de los estudiantes, y que ayuda a los educandos a salir adelante y aprender mejor, sin importar sus limitaciones personales y de contexto. Este debate ha creado una situaciÃ³n que recuerda la frase de George Orwell en RebeliÃ³n en la Granja: â€œCuatro patas bueno, dos patas maloâ€. Creo que debemos ver a estos dos tipos de evaluaciÃ³n como un continuo, ya que todas las evaluaciones pueden tener un componente sumativo y formativo, que dependerÃ¡ del uso de los resultados (Man Sze Lau, 2016).
Por ejemplo, un examen de ingreso a la universidad tiene un fuerte componente sumativo, pero tambiÃ©n puede usarse como evaluaciÃ³n diagnÃ³stica e incluso formativa si se provee de alguna manera la informaciÃ³n a los docentes y estudiantes. En cambio, una sesiÃ³n de realimentaciÃ³n durante el curso puede ser principalmente formativa, pero si esta informaciÃ³n cuenta para la calificaciÃ³n, adquiere una dimensiÃ³n sumativa. Debemos hacer un esfuerzo por lograr un balance razonable, que promueva una mayor integraciÃ³n de la evaluaciÃ³n con el proceso de enseÃ±anza y aprendizaje.
EvaluaciÃ³n referida a norma y criterio
Otra manera de clasificar la evaluaciÃ³n es de acuerdo con la interpretaciÃ³n de los resultados. Puede ser con referencia a norma (relativa) o con referencia a criterio (absoluta). Cuando la evaluaciÃ³n se interpreta con referencia a norma, el resultado se describe en tÃ©rminos del desempeÃ±o del grupo y de la posiciÃ³n relativa de cada uno de los estudiantes evaluados (Miller, 2012; SÃ¡nchez Mendiola et al., 2015). Este tipo de evaluaciÃ³n se utiliza para colocar a los alumnos en listas de rendimiento y puntaje, para asignarles un lugar en el grupo. Un ejemplo en MÃ©xico es el Examen Nacional de Aspirantes a Residencias MÃ©dicas (ENARM), evaluaciÃ³n sumativa que presentan los mÃ©dicos graduados que desean realizar una especialidad. La puntuaciÃ³n obtenida por el aspirante se evalÃºa en relaciÃ³n a lo que obtuvieron los demÃ¡s y de su lugar secuencial en la lista para aspirar a una de las plazas, y no en un criterio de nivel de conocimientos previamente definido.

En cambio, la evaluaciÃ³n con referencia a criterio describe el resultado especÃfico que se encontrÃ³, de acuerdo a criterios o metas preestablecidos. Este tipo de evaluaciÃ³n busca la comparaciÃ³n del estudiante con relaciÃ³n a un nivel o estÃ¡ndar establecido previamente. Un ejemplo es el examen de inglÃ©s como segundo lenguaje, Test of English as a Foreign Language (TOEFL), en que hay niveles de desempeÃ±o previamente determinados y los resultados se interpretan de acuerdo con dichos estÃ¡ndares, no de acuerdo al desempeÃ±o del grupo de sustentantes.
Uno de los retos de la evaluaciÃ³n criterial es que si el nivel exigido es muy alto para la poblaciÃ³n que toma el examen pueden fracasar todos los aspirantes, por lo que este tipo de exÃ¡menes deben â€œcalibrarseâ€ para plantear metas de evaluaciÃ³n congruentes con la realidad. AdemÃ¡s, la evaluaciÃ³n criterial nos permite tener mayor claridad sobre nuestra situaciÃ³n educativa real, ya que no depende del desempeÃ±o del grupo sino de la meta a lograr. En cambio, en la evaluaciÃ³n por norma o relativa si tenemos un grupo de estudiantes con muy baja preparaciÃ³n, de cualquier manera aprobarÃ¡n el examen o serÃ¡n seleccionados los que tengan las puntuaciones mÃ¡s altas, dando una imagen arbitraria del nivel de aprendizaje de los estudiantes.
Instrumentos de evaluaciÃ³n del aprendizaje
Los instrumentos de evaluaciÃ³n son tÃ©cnicas de mediciÃ³n y recolecciÃ³n de datos que tienen distintos formatos, atendiendo a la naturaleza de la evaluaciÃ³n. Existe una gran variedad de instrumentos con diversas ventajas y limitaciones para documentar el aprendizaje de los conocimientos, habilidades y destrezas de los estudiantes. Los instrumentos de evaluaciÃ³n del aprendizaje pueden clasificarse en estas categorÃas:

Evaluaciones escritas: ensayos, preguntas directas de respuesta corta, exÃ¡menes de opciÃ³n mÃºltiple, relaciÃ³n de columnas, disertaciones, reportes.

Evaluaciones prÃ¡cticas: exÃ¡menes orales, prÃ¡cticas con casos, examen clÃnico objetivo estructurado (ECOE).

ObservaciÃ³n: reporte del profesor, listas de cotejo, rÃºbricas.

Registros del desempeÃ±o: libretas de registro, portafolios, registros de procedimientos.

AutoevaluaciÃ³n y evaluaciÃ³n por pares: reporte del educando y de los compaÃ±eros.

Cada uno de estos mÃ©todos tiene sus ventajas y desventajas, asÃ como recomendaciones para su implementaciÃ³n. Es responsabilidad de los profesores y responsables de la evaluaciÃ³n en las instituciones educativas diseÃ±ar, seleccionar y utilizar los instrumentos mÃ¡s apropiados para evaluar el aprendizaje de los estudiantes, de acuerdo al plan de estudios y las caracterÃsticas del contexto local.

Criterios para una buena evaluaciÃ³n

La evaluaciÃ³n educativa es tan buena como la metodologÃa utilizada y el uso que se hace de los resultados. Varias organizaciones internacionales han propuesto criterios sobre las â€œbuenas prÃ¡cticasâ€ en evaluaciÃ³n (American Educational Research Association [AERA], American Psychological Assocation [APA] y National Council on Measurement in Education [NCME], 2014; Norcini et al., 2011). Estos criterios son: validez, confiabilidad, justicia, equivalencia, factibilidad, efecto educativo y aceptabilidad.
Validez
Uno de los conceptos mÃ¡s importantes para que los resultados de los procesos de evaluaciÃ³n tengan sustento sÃ³lido y uso apropiado es el de validez. La validez de un proceso de evaluaciÃ³n es el grado con el que mide lo que se supone que mide. La validez es un concepto unitario, y actualmente se considera que toda la validez es validez de constructo (AERA, APA y NCME, 2014; Downing, 2003; Kane, 2013). La palabra constructo significa colecciones de conceptos abstractos y principios, inferidos de la conducta y explicados por una teorÃa educativa o psicolÃ³gica, es decir, atributos o caracterÃsticas que no pueden observarse directamente (por ejemplo: inteligencia, timidez, conocimientos sobre quÃmica) (Brennan, 2006; Downing, 2003).
Validez es un juicio valorativo holÃstico e integrador que requiere mÃºltiples fuentes de evidencia para la interpretaciÃ³n del constructo evaluado, ya que intenta responder a la pregunta â€œÂ¿quÃ© inferencias pueden hacerse sobre la persona basÃ¡ndose en los resultados del examen?â€ (Downing, 2003; Mendoza Ramos, 2015). No es el examen el que es vÃ¡lido per se, ya que la validez de un examen es especÃfica para un propÃ³sito, se refiere, mÃ¡s bien, a lo apropiado de la interpretaciÃ³n de los resultados. En otras palabras, la validez no es una propiedad intrÃnseca de los exÃ¡menes, sino del significado de los resultados en el entorno educativo especÃfico y las inferencias que pueden hacerse de los mismos. Por ejemplo, los resultados de los mÃ©dicos que sustentan el examen para ingresar a las residencias mÃ©dicas (ENARM), no deben interpretarse como evidencia de la calidad de las escuelas de medicina de donde provienen, ya que el examen no estÃ¡ diseÃ±ado con ese propÃ³sito.
Las cinco fuentes importantes de validez en evaluaciÃ³n del aprendizaje son (AERA, APA y NCME, 2014; Downing, 2003):

Contenido. Debe utilizarse una tabla de especificaciones de la prueba y el proceso seguido para elaborarla, la definiciÃ³n de los temas, la congruencia del contenido de las preguntas con las especificaciones del examen, la representatividad de las preguntas de las diferentes Ã¡reas a examinar, la calidad de las preguntas, las credenciales de las personas que elaboran las preguntas, entre otros.
Procesos de respuesta. Se requiere evidencia de integridad de los datos, de manera que las fuentes de error que se pueden asociar con la administraciÃ³n del examen hayan sido controladas en la medida de lo posible. Por ejemplo, el control de calidad de la elaboraciÃ³n del examen, la validaciÃ³n de la clave de la hoja de respuestas utilizada, el control de calidad del reporte de los resultados del examen, la familiaridad del estudiante con el formato de evaluaciÃ³n (lÃ¡piz y papel o computadora).
Estructura interna. Se refiere a las caracterÃsticas estadÃsticas del examen y de las preguntas que lo componen, como son el anÃ¡lisis estadÃstico de reactivos, el funcionamiento de los distractores en las preguntas de opciÃ³n mÃºltiple, la confiabilidad del examen, entre otros. Muchos de estos datos debieran obtenerse de rutina como parte del proceso de control de calidad del examen, principalmente en los exÃ¡menes de alto impacto.
RelaciÃ³n con otras variables. La relaciÃ³n de los resultados en el examen con otras variables se refiere a la correlaciÃ³n estadÃstica entre los resultados obtenidos por medio de una prueba con otra mediciÃ³n de caracterÃsticas conocidas. Por ejemplo, la correlaciÃ³n entre el examen de admisiÃ³n a la licenciatura y las calificaciones obtenidas en los exÃ¡menes parciales durante la carrera y el examen profesional.
Consecuencias. Se refiere al impacto en los estudiantes de las puntuaciones de la evaluaciÃ³n, de las decisiones que se toman como resultado del examen, y su efecto en la enseÃ±anza y el aprendizaje. Por ejemplo, el mÃ©todo de establecimiento del punto de corte para aprobar o reprobar un examen, las consecuencias para el estudiante y la sociedad, las consecuencias para los profesores y las instituciones educativas.

Validez implica una aproximaciÃ³n cientÃfica a la interpretaciÃ³n de los resultados de los exÃ¡menes, es decir, probar hipÃ³tesis sobre los conceptos evaluados en el examen. La informaciÃ³n proporcionada por un instrumento de evaluaciÃ³n no es vÃ¡lida o invÃ¡lida, sino que los resultados del examen tienen mÃ¡s o menos evidencia de las diferentes fuentes para apoyar o rechazar una interpretaciÃ³n especÃfica (por ejemplo, pasar o reprobar un curso, certificar o no a un especialista, admitir o no a un estudiante en la universidad) (Downing, 2003; Kane, 2013). Las organizaciones que elaboran e implementan el examen (entidades gubernamentales, instituciones educativas, consejos de certificaciÃ³n) son los candidatos obvios para validar las afirmaciones que hacen sobre la interpretaciÃ³n de los resultados de un examen, ya que generalmente son quienes tienen los elementos y recursos para hacerlo (Brennan, 2006). Quienes elaboramos exÃ¡menes tenemos la obligaciÃ³n Ã©tica y el imperativo educativo de documentar quÃ© tan defendible es la interpretaciÃ³n de los resultados, en beneficio de los estudiantes y de la sociedad en general.

Confiabilidad
La confiabilidad o fiabilidad tiene un significado tÃ©cnico en evaluaciÃ³n educativa, que no debe confundirse con el significado coloquial de la palabra. La confiabilidad de un examen se refiere a la consistencia de las puntuaciones obtenidas por las mismas personas en ocasiones diferentes o con diferentes conjuntos de preguntas equivalentes, es decir, la reproducibilidad de la prueba (Downing, 2004). Es un concepto estadÃstico, que representa el grado en el cual las puntuaciones de los alumnos serÃan similares si fueran examinados de nuevo. Generalmente se expresa como un coeficiente de correlaciÃ³n, siendo 1.0 una correlaciÃ³n perfecta y cero ninguna correlaciÃ³n. Mientras mÃ¡s alta es la cifra de confiabilidad, generalmente es mayor su peso como evidencia de validez. La cifra de confiabilidad suficiente para aceptar los resultados de un proceso de evaluaciÃ³n depende del propÃ³sito de la misma, el uso que se harÃ¡ de los resultados del examen y de las consecuencias que tendrÃ¡ la evaluaciÃ³n sobre los estudiantes.
Para exÃ¡menes de muy alto impacto, la confiabilidad debe ser alta para que las inferencias de los resultados del examen sean defendibles. Varios expertos recomiendan una confiabilidad de por lo menos 0.90 para evaluaciones de muy altas consecuencias. Para exÃ¡menes de consecuencias moderadas, como las evaluaciones sumativas de fin de curso en la escuela, es deseable que la confiabilidad sea de 0.80 a 0.89. En exÃ¡menes de menores consecuencias, como la evaluaciÃ³n formativa o exÃ¡menes parciales diagnÃ³sticos, es aceptable una confiabilidad de 0.70 a 0.79. Estas cifras no representan rangos absolutos, ya que hay diferencias de opiniÃ³n entre los expertos, pero pueden servir de marco de referencia (Downing, 2004).
La confiabilidad de una mediciÃ³n es necesaria para obtener resultados vÃ¡lidos, aunque puede haber resultados confiables sin validez (es decir, la confiabilidad es necesaria, pero no suficiente para la validez). La analogÃa con la diana de un blanco de tiro es Ãºtil para entender la relaciÃ³n entre los dos conceptos, como se muestra en la figura 1. Si las flechas estÃ¡n muy dispersas entre sÃ y lejos de la diana, la mediciÃ³n es poco confiable y no es vÃ¡lida; si las flechas estÃ¡n muy juntas pero lejos del centro la mediciÃ³n es reproducible (confiable) pero no es vÃ¡lida; y si las flechas estÃ¡n juntas en la diana, la mediciÃ³n es confiable y vÃ¡lida.

Figura 1. Esquema visual de los conceptos de validez y confiabilidad, con el sÃmil de un blanco de tiro.
Justicia y equidad
En las Ãºltimas dÃ©cadas las principales organizaciones de evaluaciÃ³n educativa del mundo han hecho mucho Ã©nfasis en la necesidad de justicia y equidad en todo el proceso educativo, incluyendo la evaluaciÃ³n del aprendizaje, para ser congruentes con el sentido social de la educaciÃ³n (AERA, APA y NCME, 2014; Instituto Nacional para la EvaluaciÃ³n de la EducaciÃ³n [INEE], 2017). Existe controversia sobre el tema, ya que los exÃ¡menes estandarizados en gran escala â€“que por necesidad se aplican y analizan en contextos altamente controlados para que cada estudiante se enfrente al mismo reto en igualdad de condicionesâ€“, por definiciÃ³n, tratan a todos los estudiantes de la misma manera. Si queremos promover la evaluaciÃ³n formativa para el aprendizaje, deberÃamos individualizar el uso de los instrumentos de evaluaciÃ³n para cada caso especÃfico. Esta permanente tensiÃ³n entre lo ideal y lo real continÃºa sin resolverse. PodrÃamos ampliar el abanico de estrategias de evaluaciÃ³n educativa que utilizamos en la prÃ¡ctica, y capacitar a los profesores en el uso de diversos instrumentos de evaluaciÃ³n para promover el aprendizaje a lo largo del proceso.
Equivalencia
La equivalencia se refiere a que los exÃ¡menes proporcionen puntuaciones o decisiones equivalentes, cuando se administran en diferentes lugares o tiempos (AERA, APA y NCME, 2014; Norcini et al., 2011). La mayorÃa de los docentes y estudiantes no conocemos este concepto, a pesar de su importancia para interpretar exÃ¡menes aplicados de manera periÃ³dica que pretenden evaluar lo mismo, o exÃ¡menes en diferentes contextos en los que queremos asegurar que sean de la misma dificultad, sobre todo en evaluaciÃ³n sumativa de alto impacto (Carter, 1984; Moreno Olivos, 2010). Para lograr equivalencia se requiere de procedimientos estadÃsticos sofisticados, que caen en la familia de mÃ©todos de equiparaciÃ³n o â€œigualaciÃ³nâ€ de exÃ¡menes. Uno de estos mÃ©todos es el uso de â€œreactivos anclaâ€ (preguntas con un grado de dificultad similar y comportamiento estadÃstico bien documentado) en un porcentaje de reactivos de cada versiÃ³n del examen. Para estas tÃ©cnicas se requieren profesionales en dichos procedimientos.
Factibilidad y aceptabilidad
Las evaluaciones deben ser prÃ¡cticas, realistas y apropiadas a las circunstancias del contexto, incluyendo las instalaciones fÃsicas y los recursos humanos y financieros disponibles. Por ejemplo, el mÃ©todo mÃ¡s utilizado en el mundo para evaluar la competencia clÃnica en medicina es el Examen ClÃnico Objetivo Estructurado (ECOE), que consiste en una serie de mÃºltiples estaciones estandarizadas, en las que cada estudiante se enfrenta a un reto que requiere que aplique algunas competencias especÃficas, como pueden ser las habilidades de comunicaciÃ³n, el hacer un diagnÃ³stico, o interpretar radiografÃas y estudios de laboratorio (Boursicot et al., 2011). Este tipo de examen requiere gran cantidad de recursos humanos, instalaciones apropiadas y mucha dedicaciÃ³n en disciplina, tiempo y organizaciÃ³n. Esta disponibilidad de recursos puede no estar al alcance de algunas escuelas, de manera que, aunque el examen sea excelente y se use en muchas partes del mundo, si no se puede hacer en una instituciÃ³n hay que buscar alternativas. Otros ejemplos podrÃan ser el uso de exÃ¡menes adaptativos por computadora, simuladores de alta fidelidad y tecnologÃa de punta, herramientas que requieren una gran inversiÃ³n inicial y de mantenimiento. Las evaluaciones tambiÃ©n deben ser aceptables tanto por los estudiantes como por los profesores. Si hay un rechazo de la comunidad a algÃºn tipo de evaluaciÃ³n â€“por ejemplo, la evaluaciÃ³n por pares que implica ser evaluado por sus compaÃ±erosâ€“, se hace difÃcil su implementaciÃ³n.
Efecto educativo, efecto catalÃtico
Todos los mÃ©todos de evaluaciÃ³n, sobre todo los sumativos, pueden tener efectos en los mÃ©todos de estudio y prioridades de aprendizaje de los estudiantes (Newble, 1983). Aunque los profesores les digamos a nuestros alumnos que un tema o concepto es fundamental, la pregunta comÃºn es: â€œÂ¿y eso va a venir en el examen?â€. La cultura de algunas escuelas es que si algo no cuenta para el examen no se le da mucha importancia, asÃ que la manera cÃ³mo se aplica la evaluaciÃ³n tiene consecuencias en la motivaciÃ³n de los estudiantes y en sus mÃ©todos de estudio. TambiÃ©n la evaluaciÃ³n puede tener un efecto â€œcatalÃticoâ€ en el contexto educativo, ya que puede influir en los demÃ¡s docentes, en los departamentos acadÃ©micos y en la instituciÃ³n misma (Norcini et al., 2011). Si se privilegian los exÃ¡menes escritos de opciÃ³n mÃºltiple, habrÃ¡ un efecto en cascada en los diferentes participantes del proceso educativo. Si se fomenta la evaluaciÃ³n formativa, de la misma manera, habrÃ¡ influencia en las actitudes hacia la evaluaciÃ³n de los participantes, sobre todo cuando vivan sus efectos positivos.
Amenazas a la validez
Existen diversas â€œamenazasâ€ para la validez de un proceso de evaluaciÃ³n del aprendizaje, que disminuyen la credibilidad de las inferencias que se pueden hacer de los resultados de un examen. Al ser la validez uno de los principales elementos de una buena evaluaciÃ³n, todo lo que ponga en riesgo la veracidad de las conclusiones que podamos tener sobre los resultados de una prueba o examen debe identificarse y, en la medida de lo posible, evitarse o corregirse. Pueden clasificarse de la siguiente manera (Downing y Haladyna, 2004):

InfrarrepresentaciÃ³n del constructo (IC). Se refiere a una representaciÃ³n inapropiada del contenido a evaluar por los exÃ¡menes, teniendo en mente que el constructo es aquello que queremos investigar (como los conocimientos de quÃmica en el bachillerato). Son ejemplos de esta amenaza: muy pocas preguntas en el examen, que no exploren apropiadamente el Ã¡rea de conocimiento; uso de preguntas que exploren principalmente memoria o reconocimiento de datos, cuando las metas de la enseÃ±anza son la aplicaciÃ³n o soluciÃ³n de problemas.
Otra amenaza a la validez es el fenÃ³meno de â€œenseÃ±ando para la pruebaâ€ (teaching to the test, en inglÃ©s), en el que se enfatiza demasiado lo que va a venir en el examen, distorsionando el plan de estudios y el proceso educativo, y generando resultados incompletos que no preparan al estudiante para enfrentarse al ejercicio profesional (Popham, 2001). A veces ocurre al grado que algunos profesores utilizan reactivos del examen en clase para aumentar artificialmente las calificaciones de sus alumnos, y mejorar las evaluaciones de su grupo o escuela.
Varianza irrelevante al constructo (VIC). Se refiere a elementos que interfieren con la capacidad de interpretar los resultados de la evaluaciÃ³n de una manera significativa, y que causan â€œruidoâ€ en la evaluaciÃ³n. Por ejemplo, las preguntas elaboradas con fallas, gramaticales o de otro tipo; y las que dan pistas al estudiante sobre cuÃ¡l es la respuesta correcta, aunque no sepa el concepto explorado en la pregunta. Recordemos que escribir buenas preguntas de examen requiere entrenamiento y experiencia. Otro ejemplo son los problemas de seguridad del examen y fuga de informaciÃ³n, de manera que el resultado del examen no refleja los conocimientos de los estudiantes. Este problema invalida los resultados de los exÃ¡menes, con diversas implicaciones Ã©ticas y de uso de recursos, como es repetir el examen con otra versiÃ³n.
La â€œastuciaâ€ o habilidad para responder los exÃ¡menes (en inglÃ©s, testwiseness) ocurre cuando los estudiantes se preparan con estrategias para responder exÃ¡menes y pueden obtener puntajes que no reflejen lo que realmente saben. Se ha creado un mercado de organizaciones que dan cursos para pasar exÃ¡menes, en los que el objetivo es adiestrar a los asistentes en mÃ©todos para obtener la mayor puntuaciÃ³n posible. Las familias de los estudiantes pagan un precio alto por estos cursos, que son de efectividad cuestionable y que ademÃ¡s promueven una competencia poco sana.

Algunas reflexiones y conclusiones

El eterno problema de los usos e inferencias inapropiados de los resultados de la evaluaciÃ³n de los aprendizajes de los estudiantes es uno de los retos mÃ¡s importantes que enfrenta la comunidad de profesionales de evaluaciÃ³n educativa. AÃºn hay un largo trecho por caminar en el incremento de una cultura de la evaluaciÃ³n en alumnos, docentes, directivos y funcionarios gubernamentales, asÃ como de la sociedad en su conjunto. Uno de los efectos negativos mÃ¡s frecuentes de los exÃ¡menes es afirmar y diseminar conclusiones de los resultados que no son congruentes con los objetivos iniciales del mismo, por lo que dichas conclusiones carecen de validez. Con facilidad, las declaraciones breves y sensacionalistas se propagan en los medios de comunicaciÃ³n, generando malentendidos y distorsiÃ³n sobre las conclusiones, limitaciones e implicaciones reales de los exÃ¡menes.
La comprensiÃ³n clara del concepto moderno de validez es fundamental para entender las limitaciones de los resultados de los exÃ¡menes, ya que extrapolar conclusiones y decisiones mÃ¡s allÃ¡ de lo acadÃ©micamente obtenible es inapropiado e incluso puede ser peligroso. Si un estudiante tiene un desempeÃ±o deficiente en una aplicaciÃ³n de un examen sumativo de alto impacto, eso no significa que sea â€œmala personaâ€, â€œincompetenteâ€, alguien que â€œno debiÃ³ estudiar esa carreraâ€, entre otros muchos calificativos que se asignan como etiquetas y que tienen un impacto emocional importante.
Una de las principales recomendaciones de los expertos mundiales en evaluaciÃ³n es: â€œLos desarrolladores del examen son los candidatos obvios para validar las afirmaciones que hacen sobre la interpretaciÃ³n de los resultados de un examenâ€ (Brennan, 2006), por lo que la responsabilidad de realizar buenos exÃ¡menes e informar a la sociedad sobre sus limitaciones recae en nuestras organizaciones y grupos de expertos, en colaboraciÃ³n con las autoridades y los medios de comunicaciÃ³n. La asimetrÃa de poder intrÃnseca en los procesos de evaluaciÃ³n conlleva una enorme responsabilidad de las autoridades acadÃ©micas e institucionales.
Los instrumentos de evaluaciÃ³n y el uso que se hace de ellos en las universidades y otras instituciones son la declaraciÃ³n pÃºblica mÃ¡s importante de â€œlo que realmente cuentaâ€ para la instituciÃ³n. Los estudiantes estÃ¡n muy alertas a estas seÃ±ales, que a veces son sutiles y en ocasiones explÃcitas y visibles, sobre lo que deben aprender y cÃ³mo lo deben aprender, por lo que las instancias evaluadoras deben hacer lo posible para que estos procedimientos de evaluaciÃ³n se realicen con profesionalismo educativo en un entorno de calidad y atenciÃ³n a las facetas humanas y sociales de los estudiantes. Al final del dÃa, el uso de la puntuaciÃ³n de un examen definitivamente implica consecuencias; de otra manera â€œusoâ€ es sÃ³lo una abstracciÃ³n. Los exÃ¡menes han adquirido un enorme grado de sofisticaciÃ³n tÃ©cnica y metodolÃ³gica, y llegaron para quedarse. Tal vez lo mÃ¡s importante es encontrar un balance entre este tipo de evaluaciÃ³n y la evaluaciÃ³n formativa. Por otra parte, es relevante tener conciencia de que aÃºn existen grandes retos para evaluar de forma adecuada varios atributos fundamentales de los profesionistas que requiere la sociedad moderna, como empatÃa, liderazgo, asertividad, creatividad, trabajo en equipo, entre otros muchos, por lo que el campo de estudio de la evaluaciÃ³n educativa debe seguir modernizÃ¡ndose para enfrentar los constantes cambios de nuestra sociedad.
Como ha dicho un acadÃ©mico mexicano, el Dr. Tiburcio Moreno, la evaluaciÃ³n tiene muchas caras, y en paÃses como el nuestro ha estado permeada por una visiÃ³n empirista que descansa en el principio: â€œTodos sabemos de evaluaciÃ³n, porque alguna vez hemos sido evaluadosâ€ (Moreno Olivos, 2010). Debemos mejorar nuestros conocimientos y habilidades en evaluaciÃ³n, como una obligaciÃ³n Ã©tica y moral de todos los docentes, e informar al resto de la sociedad sobre las virtudes, alcances y limitaciones de este fascinante y controversial tema.

Autor:Revista Digital Universitaria Fuente:http://www.revista.unam.mx/2018v19n6/evaluacion-del-aprendizaje-de-los-estudiantes/

La evaluaciÃ³n del aprendizaje de los estudiantes: Â¿es realmente tan complicada?

Â¿QuÃ© es la evaluaciÃ³n del aprendizaje?

Tipos de evaluaciÃ³n del aprendizaje

Criterios para una buena evaluaciÃ³n

Algunas reflexiones y conclusiones

Recursos

Sugerencias

Redes sociales

Contacto