TUTORÍA TÉCNICAS RECOGIDA INFORMACIÓN 31 OCTUBRE

TÉCNICAS DE RECOGIDA DE INFORMACIÓN PEDAGOGÍA

TUTORÍA 24 OCTUBRE LA MEDIDA EN EDUCACIÓN
Tema 2 Características técnicas de los instrumentos de medida
Tema 2 Transparencias Equipo Docente Parte 1
Tema 2 Transparencias Equipo Docente Parte 2
El proceso de medición opera sobre un objeto, según unas reglas –que definen el isomorfismo entre el objeto y la unidad de medida- , y con una unidad de medida.

Este proceso nos lleva a construir unos instrumentos, que se pasan al objeto en el acto de medición, teniendo como resultado unos datos con los que se realizará un tratamiento, generalmente estadístico.
En este capítulo se hablará de las características técnicas de los instrumentos de medida, sobre todo en lo referente a los ítems -componentes de cuestionarios, tests y pruebas objetivas- según un planteamiento clásico -lo que se ha venido en llamar la teoría clásica de los tests-, cuyo resultado depende de la muestra elegida, sobre todo en el aspecto de variabilidad de la misma y son expresados en relación al “grupo normativo”.
Sólo en algunos momentos –coeficiente kappa- se hará mención a los test de referencia criterial, aunque dicho coeficiente no es de uso exclusivo en dichos test.
La segunda parte del capítulo se dedicará a otro modelo de medida basado en la llamada teoría de respuesta al ítem o del rasgo latente, cuyos resultados son invariantes a la muestra elegida aunque exige un importante tamaño de la misma.

Hoy vamos a ver los contenidos del Tema 2, que quizás sea uno de los más importantes de todo el temario, y el que tiene contenidos más técnicos, y en el que hay que hacer cálculos, no muchos, pero sí algunos que requieren que prestemos atención y comprendamos el procedimiento.

El tema lo vamos a dividir en dos partes, en la primera veremos la TCT, la Teoría Clásica de Tests, y en la segunda veremos la TRI, la Teoría de Respuesta al Ítem. No me importa que dediquemos tres sesiones de tutoría al tema porque el resto es más de estudiar, y para estudiar no hace tanta falta la labor de tutoría asistida, sí por supuesto atender las dudas que surjan en cualquier tema, que por definición es un tema técnico. Lo que sí quiero es que como a mitad de la clase veamos la práctica A de la PEC y le demos carpetazo en el día de hoy.

Bien, vamos a empezar, los objetivos que nos planteamos en el tema de hoy son:

Comprender la utilidad de la medición en educación. Ya dijimos el otro día, que lo que no se mide no lo puede estudiar la Ciencia, por lo que en muchos casos se ha cuestionado que en Pedagogía, Psicología, Sociología hagamos ciencia, en especial una corriente de principios del siglo XIX consideraba a la Pedagogía como una pseudociencia o una actividad profesional a la que no se podía tildar de científica, si bien Stevens propuso que la medición en Educación y en Psicología era diferente, pero igual de válida, y creó las cuatro escalas de medida que vimos el otro día: nominal, ordinal, de intervalo y de razón. Y recordad que dijimos que la mayor parte de pruebas pedagógicas podíamos encuadrarlas en un nivel de medida ordinal, siempre y cuando estén bien baremadas.
Otro objetivo es saber calcular una serie de indicadores estadísticos de calidad de los tests: en cuanto a los ítems calcularemos la dificultad, discriminación, homogeneidad, y análisis de distractores, y en cuanto a los tests o pruebas de forma global calcularemos las garantías científicas de fiabilidad (precisión) y validez.
Otro objetivo es saber calcular la dimensionalidad de un test, ya dijimos que habitualmente los constructos relacionados con variables psicológicas, educativas o psicopedagógicas tienen más de un factor o dimensión.
Otro objetivo es diferenciar las dos grandes teorías relacionadas con la medición en psicología y pedagogía, la teoría clásica de tests y la teoría de respuesta al ítem, ya dijimos el otro día que la TCT se refiere a comparar la puntuación de un sujeto con la norma, con un baremo estadístico de la puntuación que se considera normal para un sujeto de su edad y población. Y la TRI compara la puntuación del sujeto consigo mismo y su evolución a lo largo del tiempo.
Al igual que vamos a aprender a calcular los parámetros de calidad de un ítem desde la TCT, aprenderemos a calcular la calidad de un ítem desde la TRI
Y por último aprenderemos a interpretar la información de los parámetros y características de un ítem desde la TRI

En el texto se define el concepto de MEDICIÓN, que el otro día vimos que técnicamente es asignar un número a una variable, y compararlo con otros sujetos o con la evolución del propio sujeto a lo largo del tiempo, medir en definitiva es comparar un instrumento, que denominaremos patrón de medida, el metro, el Kilo, el termómetro, una prueba objetiva bien baremada, con un objeto, una mesa, un conjunto de elementos, la temperatura de una habitación o de una sustancia, o las respuestas del sujeto a la prueba.

Luego la medición opera sobre un objeto, según unas reglas (que intentan establecer una comparación del objeto con la unidad de medida, es lo que denominamos isomorfismo) y con una unidad de medida. Los instrumentos se pasan al objeto y ese es el acto de medición, fruto del cual se obtienen unos datos con los que se suele realizar un tratamiento numérico o estadístico.

En este tema se trata de profundizar en las características técnicas de los instrumentos de medida, sobre todo de la calidad de los ítems que componen las pruebas, recordemos: dificultad, discriminación u homogeneidad, análisis de los distractores, la fiabilidad del test, la validez del test y la dimensionalidad del test, que debe adaptarse y reproducir la dimensionalidad del constructo. Reiteramos en la TCT los resultados se comparan con los de la muestra de su edad y grupo de referencia, y se expresan en relación a ese grupo normativo. Y en la TRI los resultados son invariantes con la muestra de su edad y grupo de referencia, porque lo importante es la respuesta del sujeto, pero eso sí, un test bajo ese modelo requiere un amplio número de sujetos.

Vamos a entrar en el fondo. ¿Cómo se calcula la dificultad de un ítem?. Primero veamos que es la dificultad, y ¿estamos de acuerdo que el grado de dificultad de un test está relacionado con el número de sujetos que responden de forma incorrecta o correcta a un ítem?. Si es fácil, acertarán muchos, si es muy difícil, fallarán muchos. Utilizamos estadísticamente el índice de dificultad, que se define como el número de personas que aciertan el test en relación al número de personas que responden al mismo, de tal manera de ID = A / N, si bien si se trata de un índice de elección múltiple, para evitar que el sujeto se lance a contestar todo probando suerte a modo de quiniela, se utiliza una fórmula en la cual se relaciona el número de sujetos que aciertan y se les restan los errores, corrigiendo los mismos dividiendo los mismos por el número de alternativas menos uno, y el resultado se compara con el número de sujetos que contestan a la prueba, de tal manera que ID = [A - E / n-1] / N.

De ahí, que el índice de dificultad no sea una propiedad intrínseca al ítem, el valor depende de la muestra de sujetos a la que se aplique, por lo que sólo tiene sentido en pruebas objetivas, donde hay respuestas correctas e incorrectas, en una prueba se estima que el 10% de los ítems deben ser muy fáciles y otro 10% muy difíciles, un 20% fáciles y otro 20% difíciles, y un 40% de dificultad media. Los índices irían en esta proporción:

Muy difíciles 0,05 a 0,24
Difíciles 0,25 a 0,44
Normales 0,45 a 0,54
Fáciles 0,55 a 0,74
Muy fáciles 0,75 a 0,95

Veamos un ejemplo, ítem de evocación (sin alternativas), lo contestan bien 17 de los 30 alumnos de la clase, ¿qué ID tiene?, pues comparamos ID = 17 / 30 = 0,56, nos vamos a la tabla, y diremos que es fácil.

Otro problema, ítem de evocación, 32 estudiantes, todos contestan, 25 fallan y 7 aciertan, ¿cuál es el índice de dificultad?, ID = A / N = 7 / 32 = 0,22, su índice de dificultad sería muy difícil.

Otro problema, ítem de 3 alternativas de respuesta, 39 alumnos, aciertan 26, ¿cuál es su índice de dificultad?. Pues si aciertan 26, fallan 13, y tiene 3 alternativas de respuesta, pues nada, vamos a la fórmula:

ID = [A - E / n-1] / N = [26 - 13/2] / 39 = [26 - 6,5] / 39 = 19,5 / 39 = 0,5, sería un ítem normal.

40 alumnos, un ítem con dos alternativas, aciertan 25, ID = A / N = 25 / 40 = 0,625, es un ítem fácil

40 alumnos, un ítem con dos alternativas, aciertan 15, ID = A / N = 15 / 40 = 0,375 es un ítem difícil

40 alumnos, un ítem con tres alternativas, aciertan 15, ID = [A - E / n-1] / N = [15 - 25/2] / 40 =

[15 - 12,5] / 40 = 2,5 / 40 = 0,0625, es un ítem muy difícil

Pasamos a otro elemento relacionado con la calidad del ítem, la discriminación de un ítem, es un concepto que determina la potencia del ítem para discriminar el grupo de sujetos que tiene mayor cantidad de aciertos en la prueba frente al grupo de menos aciertos. Es decir, un ítem discrimina bien cuando existe correlación positiva entre la puntuación del ítem con respecto a la puntuación del test. El índice va de -1 a +1, si es -1 indica que cuando un ítem puntúa alto, el test puntúa bajo, y el 1 que cuando un ítem puntúa alto, es índice de que el test puntúa también alto. En Ciencia Social no hay correlaciones perfectas, normalmente un índice de 0,35 o más es un buen índice.

Se utilizan dos fórmulas:

La primera, compara la proporción de individuos del extremo superior que aciertan un ítem determinado frente a la proporción de individuos del extremo inferior que aciertan dicho ítem. El extremo superior e inferior queda definido por el 27% de sujetos por encima o por debajo.

Por ejemplo aplicamos un test a 600 alumnos, de los 162 con peor puntuación, 30 han acertado el ítem 1, y de los 162 con mejor puntuación, 95 han acertado el ítem. Calcula el índice de discriminación:

95/162 - 30/162 = 0,59 - 0,18 = 0,41, luego discrimina adecuadamente.

Otro ejemplo, 300 estudiantes, de 81 mejores aciertan 40, de los 81 peores aciertan 12, ¿cuál es el índice de discriminación?

40/81 - 12/81 = 0,3456 discrimina bien

La segunda se refiere a calcular la correlación entre las puntuaciones de los sujetos en el ítem y el conjunto del test (eliminando el ítem), que se denomina índice de homogeneidad, al ser un grado de relación del ítem con el resto

r = Sxy / Sx Sy = [N Exy - ExEy] / V [[N Ex^2 - (Ex)^2] [N Ey^2 - (Ey)^2]]

Items 1 2 3 4 Sin ítem 4 Exy Ex^2 Ey^2

A 1 0 1 1 3 2 2 4 1

B 1 1 1 0 3 3 0 9 0

C 0 0 1 0 1 1 0 1 0

D 1 0 0 0 1 1 0 1 0

3 1 4 1 7 2 15 1

[4.2 - 7.1] / V [[ 4. 15 - 7^2] [4. 1 - 1^2]] = 8 - 7 / V 11 . 3 = 1 / V 33 = 1 / 5,74 = 0,174

Las tablas que aplicamos son las siguientes a la hora de valorar el índice de discriminación

El ítem discrimina muy bien > 0,4
El ítem discrimina bien 0,3 - 0,39
El ítem discrimina poco 0,2 - 0,29
El ítem límite (se debe mejorar) 0,10 - 0,19
El ítem carece de utilidad < 0,10

Veamos ahora como analizar distractores, bien los distractores son las diferentes alternativas de respuesta a la pregunta formulada en un ítem, claro lo idóneo es que sean parecidas en dificultad para que el sujeto dude, porque si un distractor está claro que es falso y la pregunta tiene tres alternativas de respuesta, al final el sujeto solo se decanta por dos y tiene más posibilidades de acertar, por lo que todas las alternativas deberían ser igual de probables de que el sujeto las considerara cierta, es decir no supiera por cuál decantarse, de tal manera que todas fueran equiprobables, y eso se comprueba con una prueba estadística, que todos conocéis, de la Estadística de 1º, la X ^2 de Pearson.

Y se halla mediante la siguiente fórmula, sumando el valor de los distractores y dividiendo entre el número de distractores para hallar la frecuencia esperada, y luego se realiza la comparación de cada frecuencia restando la misma de la esperada y elevándola al cuadrado para evitar diferencias negativas, se suma cada comparación y el resultado de la suma se divide entre la frecuencia esperada:

X^2 = E [(fe-fo)^2] / fe

De tal manera, que veamos este ejemplo, 400 individuos contestan un ítem con 5 alternativas de respuesta, la correcta es la E, y el resto las fallan:

A B C D

91 42 66 77

¿Son equiprobables?, pues bien si sumamos las elecciones de los distractores nos da 276, bueno pues 276 / 4 nos da 69, es decir deberían optar si atendemos a la media 69 estudiantes por cada alternativa.

La X ^2 se hallaría [(91-69)^2 + (42-69)^2 + (66-69)^2 + (77-66)^2] / 69 = 18,65 que sería el estadístico empírico, y que habría que comparar con la tabla, recordando que si el X^2 empírico fuera mayor que el teórico no serían equiprobables. Miramos al 95% de probabilidad, con los grados de libertad correspondientes al número de distractores menos 1, es decir 4-1 = 3. Y nos da 7,815. Recordad que podéis llevar las tablas que aparecen en el curso fotocopiadas al examen. Entonces como 18,63 > 7,815 concluimos que no son equiprobables los distractores.

Ítem con 4 allternativas, la D es la correcta, contestan a los distractores 300 individuos

A B C

85 40 73 198

Luego 198/3 = 66

Aplicamos la X^2 = [(85-66)^2 + (40-66)^2 + (73-66)^2] / 66 = 1086 / 66 = 16,45

Buscamos en las tablas al 95% con K-1 = 2 grados de libertad, y nos da 5,991

Como 16,45 empírico es mayor que 5,991 teórico rechazamos la independencia y concluimos que no son equiprobables

Y así terminamos la calidad de los ítems, vayamos ahora a hablar del test, al menos a dejar presentado el concepto de FIABILIDAD, la fiabilidad dijimos que el otro día era una de las garantías científicas, que tenía que ver con la precisión de un test. Y el fundamento de la TCT es que la puntuación de un sujeto en un test es su puntuación verdadera más un margen de error X = V + e, de tal manera que V y e son independientes, y que la media de puntuaciones X es igual a la media de puntuaciones de V, es decir si pasamos muchas veces el instrumento, tendríamos la medida verdadera.

Por eso decimos que un instrumento de medida es fiable si el error es mínimo, pero no sólo tiene que ser fiable, ha de ser fiable y aceptable. La fiabilidad es una condición necesaria, pero no suficiente. La fiabilidad de cualquier instrumento se cuantifica mediante dos aproximaciones,

la fiabilidad absoluta, también llamado error típico de medida, que vendría a ser la desviación típica de las puntuaciones empíricas (X) con respecto a la puntuación verdadera (V) tras la aplicación de un test infinitamente a un sujeto.
Y la fiabilidad relativa, que podemos calcularla estadísticamente, como coeficiente de estabilidad, mediante la correlación entre las puntuaciones obtenidas en dos aplicaciones de un test pasado un tiempo prudencial para que no influya el efecto memoria.

Esta fiabilidad como estabilidad la llamamos test - retest, y debe transcurir al menos 20-25 días entre aplicaciones, algunos autores establecen este intervalo en tres meses
También es posible hallar la fiabilidad pasando dos tests parecidos, que midan lo mismo, el mismi rasgo, que tenga los mismos objetivos, contenidos, misma longitud y condiciones de aplicación similares, por lo que no es sencillo, obtenemos la correlación de sus puntuaciones y entonces la llamamos fiabilidad como equivalencia, o de formas paralelas.
O podemos hallar la correlación entre puntuaciones pares e impares de un test, o de la primera mitad con la segunda, y entonces se denomina fiabilidad como equivalencia, y se halla mediante la fórmula del alfa de Cronbach alfa = n/n-1 [1- ES^2j/S^2x], por ejemplo 8 ítems, la suma de varianzas indiviiduales ítems 16, varianza test 54, ¿alfa Cronbach? alfa = 8/(8-1) . [1 - 16/54] = 0,804

También podemos aplicar la fórmula de Spearman Brown Rxx = 2rxx / (1+rxx), por ejemplo fiabilidad test correlación ítems pares - impares rxx = 0,79, pues como se resolvería Rxx = 2 . 0,79 / (1+0,79) = 0,88
O la fórmula de Rulon determinando la diferencia entre la primera y segunda mitad d = X1 - X2 y después restar a 1 la relación entre la varianza de la diferencia y la varianza total rxx = 1 - S^2d / S^2 x
O la fórmula de Guttman calculando para cada sujeto la varianza en cada mitad y calculando la varianza total rxx = 2[1 - (S^2 1 + S^2 2) / S^2 x]

Hay que pensar que la fiabilidad:

> 0,9 excelente
> 0,8 buena
> 0,7 aceptable
> 0,6 cuestionable
> 0,5 pobre
< 0,5 inaceptable

Hay un tema importante que suele caer en los exámenes y es la relación entre fiabilidad y longitud, cuanto más largo es un test mayor es su fiabilidad, y se haya mediante esta fórmula el número de ítems que debe tener un test para mejorar la fiabilidad (Rxx):

n = Rxx (1-rxx) / rxx (1-Rxx)

Veamos un problema, prueba 25 ítems fiabilidad rxx = 0,64, ¿cuánto alargarlo para llegar a Rxx = 0,80?

Bien, pues n = 0,80 (1-0,64) / 0,64 (1-0,80) = 2,25, luego tendría que aplicar ese 2,25 . 25 y daría 57 ítems.

Otro problema, prueba 30 ítems, fiabilidad rxx = 0,93, ¿cuál sería la fiabilidad con un aumento de 10 ítems?, Rxx = 0,948

n . 30 = 40 ... n = 1,33

1,33 = Rxx (1-0,93) / 0,93 (1-Rxx) = Rxx . 0,07 / 0,93 - 0,93.Rxx

1,24 - 1,24.Rxx = 0,07.Rxx

1,24 = 1,31.Rxx

Rxx = 1,24/1,31 = 0,9465

Y por hoy lo dejamos aquí, vamos con la PEC.

GRADO EN PEDAGOGÍA TÉCNICAS E INSTRUMENTOS PARA LA RECOGIDA DE INFORMACIÓN CURSO 2024/2025

ENUNCIADO DE LA “PRÁCTICA A” (“Diseño, aplicación y valoración de una prueba objetiva”)

Información General:

La “Práctica A” es supervisada por el Tutor/a del Centro Asociado, que es la persona igualmente responsable de su calificación (en una escala de 0 a 10 puntos) a través de la plataforma. Las dudas acerca de la realización de la “Práctica A” deben ser dirigidas, por tanto, al Tutor/a del Centro Asociado, presencialmente durante las tutorías, o telemáticamente a través del correo electrónico y/o foro de tutoría.

La “Práctica A” puede realizarse bien individualmente, bien en grupo (de hasta 3 estudiantes, y que pertenezcan al mismo Centro Asociado o, en su defecto, al mismo Grupo de Tutoría en el curso virtual).

En caso de realización en grupo, éste debe ser comunicado al Tutor/a del Centro Asociado durante el mes de noviembre.

La “Práctica A” puede ser entregada en convocatoria ordinaria (fecha de entrega: 15 de enero de 2023) o en convocatoria extraordinaria (fecha de entrega: 05 de septiembre de 2023). El enunciado que se expondrá a continuación es válido para ambas convocatorias.

En cualquier caso, se recomienda vivamente entregar la “Práctica A” en la convocatoria ordinaria dado que es el periodo en el cual se contará con la supervisión y ayuda del Tutor/a del Centro Asociado (no habrá tutorización para la convocatoria extraordinaria, y las prácticas entregadas en convocatoria extraordinaria serán corregidas por el Equipo Docente de la Sede Central).

Con respecto a la entrega de la “Práctica A”, se realizará exclusivamente a través del curso virtual de la asignatura, en el buzón correspondiente que estará accesible a través del enlace “Entrega de Trabajos” del menú izquierdo del curso.

En caso de realizar la práctica en grupo, todos los miembros deben entregar una copia digital de la misma. Enunciado de la “Práctica A”: Según se indica en la Guía de Estudio de la asignatura, el objetivo general de las prácticas obligatorias es “que el estudiante aprenda a diseñar, aplicar y evaluar, de manera integrada y significativa, algunas de las técnicas e instrumentos que se estudian a lo largo de la asignatura”.

Más concretamente, en esta “Práctica A” del curso 2022/2023, se solicita al estudiante: que diseñe/construya una ‘prueba objetiva’, compuesta por al menos 10 ítems de elección múltiple; que la aplique sobre una muestra (real o simulada), compuesta por al menos 20 sujetos; que analice alguna de las propiedades métricas de la ‘prueba objetiva’ construida, y de los ítems que la componen, desde la Teoría Clásica de los Test (TCT); que evalúe/valore la calidad de dicha prueba; y que reflexione finalmente sobre todo el proceso seguido.

Se recomienda al estudiante repasar los Temas 2 y 4 del texto básico para poder afrontar la práctica con garantías. Igualmente, el estudiante se puede apoyar en los programas Excel y/o R para su realización. Por tanto, el desarrollo de la práctica exige abordar las siguientes 5 fases, en cada una de las cuales se exigen una serie de cuestiones; este desarrollo se expone detalladamente a continuación, y con el apoyo de un ejemplo, y puede servir al estudiante como guion-índice para realizar la práctica:

1ª Fase: Diseño y construcción de la prueba.

Definir el objetivo de la prueba: es decir, definir la variable que será objeto de medida (por ejemplo, “medir la competencia matemática”).
Definir la población diana de la prueba: es decir, definir la población de referencia sobre la cual se aplicará la prueba (por ejemplo, “niños y niñas escolarizados en 5º Primaria en España”).
Definir la utilidad esperada de la prueba: es decir, anticipar a qué uso se van a destinar los resultados derivados de la aplicación de la prueba (por ejemplo, “para detectar niños y niñas susceptibles de recibir atención educativa especial en el área de Matemáticas”).
Fundamentar y definir el contenido de la prueba: es decir, definir el universo de contenidos que serán objeto de la prueba (por ejemplo, “sumas, restas, multiplicaciones y divisiones, con números de hasta dos cifras”); dicha definición debe estar fundamentada, es decir, debe apoyarse en algún tipo de documento que evidencie que el universo de contenidos corresponde a la variable y población definidos anteriormente (por ejemplo, un Real Decreto, Orden, o documento curricular similar, que especifique “la competencia matemática exigida para el nivel de 5º Primaria”).

Los documentos citados deben ser referenciados al final del trabajo, en un apartado de “Referencias”, según el estilo APA.

Realizar la tabla de especificación de la prueba: es decir, construir una tabla en la cual se dispongan en las columnas las áreas que componen el universo de contenidos a medir, y en las filas los procesos cognitivos que operarán sobre dichos contenidos.

Por ejemplo:

Contenidos Suma Resta Multiplicación División
Procesos Conocer/Calcular Comprender/Aplicar

Definir el tipo de prueba: en este caso, es obligatorio que en todos los trabajos se opte por una “prueba objetiva compuesta por ítems de elección múltiple con, al menos, 3 alternativas de respuesta (sólo 1 alternativa correcta)”.

Las alternativas de respuesta deben nombrarse como A, B, C…

Definir la longitud de la prueba: es decir, definir el número de ítems que compondrán la prueba. La prueba debe tener una longitud de, al menos, 10 ítems. Igualmente, debe haber al menos 1 ítem por cada una de las celdas definidas en la tabla de especificación. Siguiendo con nuestro ejemplo, “definimos que nuestra prueba tendrá una longitud de 10 ítems, distribuidos de la siguiente manera”:

Contenidos Suma Resta Multiplicación División TOTAL
Procesos

Conocer/Calcular 1 1 1 1 4
Comprender/Aplicar 2 2 1 1 6
TOTAL 3 3 2 2 10

Redactar los ítems: para lo cual recomendamos seguir las indicaciones de la página 143 del texto básico. Cada ítem redactado, debe acompañarse con sus correspondientes especificaciones.

Por ejemplo: Para tu cumpleaños, quieres regalar a cada uno de tus 25 compañeros de clase, una bolsita con 12 caramelos ¿Cuántos caramelos te hacen falta para conseguirlo?: A. 280 B. 300 C. 320
Contenido Proceso Opción correcta Especificaciones Multiplicación

Comprender/Aplicar B

Ordenar/Numerar los ítems: es decir, especificar el orden en el cual se presentarán los ítems anteriormente redactados (ítem 1, ítem 2, ítem 3…).
Redactar las instrucciones de la prueba: puede tomarse como referencia el ejemplo de instrucciones que se presenta en las páginas 144 y 145 del texto básico.

Nota importante: una vez redactados y ordenados los ítems de la prueba, y redactadas las instrucciones, se puede presentar el conjunto definitivo de la prueba como “Anexo” al final del trabajo.
Se recomienda que dicho anexo incluya igualmente la plantilla con las respuestas correctas a los ítems de la prueba.

2ª Fase: Aplicación y puntuación de la prueba. Nota importante: la aplicación de la prueba puede realizarse sobre una muestra real o simulada.

Definir el tiempo de aplicación: es decir, definir, de manera justificada, cuál es el tiempo de aplicación de la prueba (por ejemplo, “se estima que cada uno de los 10 ítems de la prueba puede ser contestado en un máximo de 3 minutos; por tanto, el tiempo total de aplicación será de 30 minutos”).
Definir el soporte de aplicación: es decir, definir si la prueba será aplicada en formato papel, en formato digital, por teléfono… en caso de realizar el trabajo con una muestra real, recomendamos vivamente aplicar la prueba en formato digital, utilizando para su virtualización la herramienta “Google Forms” o similar; puesto que con ella las respuestas de los sujetos quedarán grabadas automáticamente en una matriz de datos que servirá de base para los posteriores análisis.
Definir el tipo de aplicación: es decir, si la aplicación se hará de manera individual o colectiva; con o sin la presencia del investigador.
Definir la muestra de aplicación: es decir, definir el tamaño de la muestra sobre la cual se va aplicar la prueba. Se exige que se aplique al menos a 20 sujetos.
Obtener la matriz de respuestas directas: una vez aplicada la prueba se obtendrá, y así debe aportarse en el trabajo, una primera matriz de datos con las respuestas directas de los sujetos.

Es decir, una matriz con tantas filas como sujetos, tantas columnas como ítems tenga la prueba, y en cada una de las celdas aparecerá la respuesta directa (“A”, “B”, “C”…) dada por el sujeto al ítem.
Se recomienda añadir una columna inicial a la izquierda que incluya un identificador del sujeto (“Sujeto1”, “Sujeto2”, “Sujeto3”…o “ID1”, “ID2”, “ID3”…).

Obtener la matriz de aciertos/errores: es decir, a partir de la matriz anterior, debe obtenerse, y aportarse en el trabajo, una segunda matriz en donde cada una de las respuestas directas sea sustituida por “0” (en caso de respuesta incorrecta) o “1” (en caso de respuesta correcta”).
Cálculo de la puntuación total de cada sujeto en la prueba: finalmente, a la matriz de aciertos/errores, se le añadirá una columna adicional que contendrá la puntuación total de cada sujeto en la prueba.

Para simplificar los posteriores análisis, se permite calcular la puntuación total como simple suma de aciertos del sujeto a lo largo de la prueba (es decir, sin hacer la corrección por azar = los fallos no restan).

3ª Fase: Análisis de las propiedades métricas de la prueba (y de sus ítems)

Calcular el Índice de Dificultad (ID’), para todos y cada uno de los ítems que componen la prueba. En este caso, sí que se exige que se calcule aplicando la corrección debida a los efectos del azar. Se pide igualmente representar de manera gráfica cómo evoluciona el ID’ a lo largo de los ítems de la prueba.
Escoger 1 de los ítems de la prueba (se recomienda escoger un ítem de dificultad media), y sobre el mismo calcular:

Índice de Discriminación (D). Para simplificar, por ejemplo en el caso de tener 20 sujetos, se puede coger como ‘extremo superior’ el 25% de sujetos (=5 sujetos) con mayor puntuación en la prueba, y como ‘extremo inferior’ el 25% de sujetos (=5 sujetos) con menor puntuación en la prueba.
Índice de Homogeneidad (IH). Se recomienda utilizar el procedimiento de correlación ítem – total (excluido el ítem).
Análisis de los Distractores. Es decir, comprobar la equiprobabilidad de los distractores mediante la prueba Ji-Cuadrado.
Calcular la fiabilidad de la prueba en su conjunto, como consistencia interna. Se admite tanto el procedimiento de las dos mitades como el alfa de Cronbach.
Definir un criterio externo relevante para estudiar la validez criterial de la prueba. (Por ejemplo, “nota media en Matemáticas obtenida en la última evaluación de 5º Primaria”).

Tras definir de manera justificada el criterio elegido, deberá añadirse a la matriz de acierto/error una nueva columna con la puntuación directa de cada sujeto en dicho criterio (que será necesariamente una puntuación simulada).

Calcular la validez criterial de la prueba, con respecto al criterio previamente definido.
Baremar la prueba: se pide calcular el valor de los deciles (percentil 10, 20,…, 80, 90) y cuartiles (percentil 25, 50, 75), correspondientes a la puntuación total en la prueba.
OPCIONAL: De manera opcional, se pide transformar las puntuaciones totales de los sujetos en la prueba a puntuaciones típicas (z).

4ª Fase: Valoración de las propiedades métricas de la prueba (y de sus ítems)

Valorar los Índices de Dificultad (ID’) obtenidos:

¿Cuáles son los dos ítems más fáciles de la prueba?
¿Cuáles son los dos ítems más difíciles?
¿Cuál es el ID’ promedio de la prueba?
¿La prueba en su conjunto es de dificultad baja, media, alta?
¿Sigue la prueba la recomendación de presentar los ítems en dificultad creciente (los más fáciles al principio y los más difíciles al final)?

Para el ítem escogido, valorar el Índice de Discriminación (D), el Índice de Homogeneidad, y la equiprobabilidad de sus distractores.

En conjunto, ¿cómo valorarías la calidad de este ítem? ¿lo incluirías en una próxima versión perfeccionada de tu prueba?
¿Por qué?

Valorar la fiabilidad de la prueba: ¿Cómo dirías que es la fiabilidad de tu prueba? ¿Excelente, Buena, Aceptable, Cuestionable…?

Dada la fiabilidad encontrada, ¿crees que puedes extraer conclusiones de tus resultados?
En caso de que tu prueba tenga una fiabilidad por debajo de 0,80, ¿cómo podrías incrementarla?

Valorar la validez criterial de la prueba: ¿Cómo dirías que es la validez criterial de la prueba? ¿Cómo interpretas el valor de validez criterial que has obtenido?
Aplicación práctica de la baremación realizada:

¿Qué sujetos se encuentran por debajo del percentil 20? ¿les aplicarías alguna medida educativa especial?
¿qué sujetos se encuentra por encima del percentil 80? ¿les aplicarías alguna medida educativa especial?

Valoración global de la prueba construida.

¿Cuáles crees que son los puntos fuertes de tu prueba?
¿Cuáles son sus puntos débiles?
¿Cómo crees que se podría mejorar para el futuro?

5ª Fase: Reflexión final: se debe cerrar el trabajo con una reflexión final sobre el proceso de aprendizaje seguido a lo largo del desarrollo del trabajo.

¿Qué has aprendido?
¿Qué competencias has adquirido?
¿Cómo relacionas dichas competencias con tu futuro perfil profesional de pedagogo/a?
¿Tienes algún comentario o sugerencia al respecto de esta “Práctica A”?

Nota importante: Tras el desarrollo de las anteriores 5 fases, al final del trabajo, se incluirá un apartado de “Referencias” (estilo APA) y otro de “Anexos”, según ya se ha ido comentando en el enunciado.

Criterios de Evaluación: La “Práctica A” será calificada en la convocatoria ordinaria por el Tutor/a del Centro Asociado (y por el Equipo Docente de la Sede Central en la convocatoria extraordinaria), a través de la plataforma virtual, en una escala de 0 a 10 puntos. Para evaluar la práctica, se aplicarán los siguientes criterios:

Adecuado diseño y construcción de la prueba: 20% de la calificación.
Adecuada aplicación y puntuación de la prueba: 20% de la calificación.
Adecuado análisis de las propiedades métricas: 30% de la calificación.
Adecuada valoración de las propiedades métricas: 20% de la calificación.
Adecuada reflexión final: 10% de la calificación.

Nota importante: En el curso virtual se facilita una rúbrica detallada de evaluación que especifica los distintos niveles de logro en cada uno de los anteriores criterios, con el fin de orientar a los estudiantes en la realización de la práctica y motivarles hacia la excelencia. Dicha rúbrica pretende igualmente servir de ayuda a los tutores/as para sus labores de corrección y calificación de los trabajos.

Formato de Entrega: La “Práctica A” se debe entregar en formato Word (.doc, .docx), y con las matrices de datos en formato de tabla editable (no como imagen), de forma que el Tutor/a o Equipo Docente pueda copiar/pegar dicha información en una hoja de cálculo para hacer las comprobaciones necesarias. Se recomienda letra Times New Roman, tamaño de 12 puntos, interlineado 1,15 o 1,5. La extensión orientativa del trabajo es de 15-20 páginas (sin contar anexos).

2ª Fase: Aplicación y puntuación de la prueba.

Nota importante: la aplicación de la prueba puede realizarse sobre una muestra real o simulada. o

Definir el tiempo de aplicación: es decir, definir, de manera justificada, cuál es el tiempo de aplicación de la prueba (por ejemplo, “se estima que cada uno de los 10 ítems de la prueba puede ser contestado en un máximo de 3 minutos; por tanto, el tiempo total de aplicación será de 30 minutos”).

Definir el soporte de aplicación: es decir, definir si la prueba será aplicada en formato papel, en formato digital, por teléfono… en caso de realizar el trabajo con una muestra real, recomendamos vivamente aplicar la prueba en formato digital, utilizando para su virtualización la herramienta “Google Forms”1 o similar; puesto 1 https://www.google.es/intl/es/forms/about/ que con ella las respuestas de los sujetos quedarán grabadas automáticamente en una matriz de datos que servirá de base para los posteriores análisis.
Definir el tipo de aplicación: es decir, si la aplicación se hará de manera individual o colectiva; con o sin la presencia del investigador. o Definir la muestra de aplicación: es decir, definir el tamaño de la muestra sobre la cual se va aplicar la prueba. Se exige que se aplique al menos a 20 sujetos.
Obtener la matriz de respuestas directas: una vez aplicada la prueba se obtendrá, y así debe aportarse en el trabajo, una primera matriz de datos con las respuestas directas de los sujetos. Es decir, una matriz con tantas filas como sujetos, tantas columnas como ítems tenga la prueba, y en cada una de las celdas aparecerá la respuesta directa (“A”, “B”, “C”…) dada por el sujeto al ítem. Se recomienda añadir una columna inicial a la izquierda que incluya un identificador del sujeto (“Sujeto1”, “Sujeto2”, “Sujeto3”…o “ID1”, “ID2”, “ID3”…).
Obtener la matriz de aciertos/errores: es decir, a partir de la matriz anterior, debe obtenerse, y aportarse en el trabajo, una segunda matriz en donde cada una de las respuestas directas sea sustituida por “0” (en caso de respuesta incorrecta) o “1” (en caso de respuesta correcta”).
Cálculo de la puntuación total de cada sujeto en la prueba: finalmente, a la matriz de aciertos/errores, se le añadirá una columna adicional que contendrá la puntuación total de cada sujeto en la prueba. Para simplificar los posteriores análisis, se permite calcular la puntuación total como simple suma de aciertos del sujeto a lo largo de la prueba (es decir, sin hacer la corrección por azar = los fallos no restan).

3ª Fase: Análisis de las propiedades métricas de la prueba (y de sus ítems)

Calcular el Índice de Dificultad (ID’), para todos y cada uno de los ítems que componen la prueba. En este caso, sí que se exige que se calcule aplicando la corrección debida a los efectos del azar. Se pide igualmente representar de manera gráfica cómo evoluciona el ID’ a lo largo de los ítems de la prueba. o Escoger 1 de los ítems de la prueba (se recomienda escoger un ítem de dificultad media), y sobre el mismo calcular:

Índice de Discriminación (D). Para simplificar, por ejemplo en el caso de tener 20 sujetos, se puede coger como ‘extremo superior’ el 25% de sujetos (=5 sujetos) con mayor puntuación en la prueba, y como ‘extremo inferior’ el 25% de sujetos (=5 sujetos) con menor puntuación en la prueba.
Índice de Homogeneidad (IH). Se recomienda utilizar el procedimiento de correlación ítem – total (excluido el ítem).
Análisis de los Distractores. Es decir, comprobar la equiprobabilidad de los distractores mediante la prueba Ji-Cuadrado.

Calcular la fiabilidad de la prueba en su conjunto, como consistencia interna. Se admite tanto el procedimiento de las dos mitades como el alfa de Cronbach.
Definir un criterio externo relevante para estudiar la validez criterial de la prueba. (Por ejemplo, “nota media en Matemáticas obtenida en la última evaluación de 5º Primaria”). Tras definir de manera justificada el criterio elegido, deberá añadirse a la matriz de acierto/error una nueva columna con la puntuación directa de cada sujeto en dicho criterio (que será necesariamente una puntuación simulada).
Calcular la validez criterial de la prueba, con respecto al criterio previamente definido. o Baremar la prueba: se pide calcular el valor de los deciles (percentil 10, 20,…, 80, 90) y cuartiles (percentil 25, 50, 75), correspondientes a la puntuación total en la prueba.
OPCIONAL: De manera opcional, se pide transformar las puntuaciones totales de los sujetos en la prueba a puntuaciones típicas (z).

4ª Fase: Valoración de las propiedades métricas de la prueba (y de sus ítems)

Valorar los Índices de Dificultad (ID’) obtenidos:

¿Cuáles son los dos ítems más fáciles de la prueba?
¿Cuáles son los dos ítems más difíciles? ¿Cuál es el ID’ promedio de la prueba?
¿La prueba en su conjunto es de dificultad baja, media, alta?
¿Sigue la prueba la recomendación de presentar los ítems en dificultad creciente (los más fáciles al principio y los más difíciles al final)?

Para el ítem escogido, valorar el Índice de Discriminación (D), el Índice de Homogeneidad, y la equiprobabilidad de sus distractores.

En conjunto, ¿cómo valorarías la calidad de este ítem?
¿lo incluirías en una próxima versión perfeccionada de tu prueba? ¿Por qué?

Valorar la fiabilidad de la prueba:

¿Cómo dirías que es la fiabilidad de tu prueba? ¿Excelente, Buena, Aceptable, Cuestionable…?
Dada la fiabilidad encontrada, ¿crees que puedes extraer conclusiones de tus resultados?
En caso de que tu prueba tenga una fiabilidad por debajo de 0,80, ¿cómo podrías incrementarla?

Valorar la validez criterial de la prueba:

¿Cómo dirías que es la validez criterial de la prueba? ¿Cómo interpretas el valor de validez criterial que has obtenido?

Aplicación práctica de la baremación realizada:

¿Qué sujetos se encuentran por debajo del percentil 20?
¿les aplicarías alguna medida educativa especial?
¿qué sujetos se encuentra por encima del percentil 80?
¿les aplicarías alguna medida educativa especial?

Valoración global de la prueba construida.

¿Cuáles crees que son los puntos fuertes de tu prueba?
¿Cuáles son sus puntos débiles?
¿Cómo crees que se podría mejorar para el futuro?

5ª Fase: Reflexión final: se debe cerrar el trabajo con una reflexión final sobre el proceso de aprendizaje seguido a lo largo del desarrollo del trabajo.

¿Qué has aprendido?
¿Qué competencias has adquirido?
¿Cómo relacionas dichas competencias con tu futuro perfil profesional de pedagogo/a?
¿Tienes algún comentario o sugerencia al respecto de esta “Práctica A”?

Nota importante: Tras el desarrollo de las anteriores 5 fases, al final del trabajo, se incluirá un apartado de “Referencias” (estilo APA 7ª edición) y otro de “Anexos”, según ya se ha ido comentando en el enunciado. Criterios de Evaluación:

La “Práctica A” será calificada en la convocatoria ordinaria por el Tutor/a del Centro Asociado (y por el Equipo Docente de la Sede Central en la convocatoria extraordinaria), a través de la plataforma virtual, en una escala de 0 a 10 puntos. Para evaluar la práctica, se aplicarán los siguientes criterios:

Adecuado diseño y construcción de la prueba: 20% de la calificación.
Adecuada aplicación y puntuación de la prueba: 20% de la calificación.
Adecuado análisis de las propiedades métricas: 30% de la calificación.
Adecuada valoración de las propiedades métricas: 20% de la calificación.
Adecuada reflexión final: 10% de la calificación.

Formato de Entrega: MUY IMPORTANTE: La “Práctica A” se debe entregar en formato Word (.doc, .docx), y con las matrices de datos en formato de tabla editable (no como imagen), de forma que el Tutor/a o Equipo Docente pueda copiar/pegar dicha información en una hoja de cálculo para hacer las comprobaciones necesarias.

Se recomienda letra Times New Roman, tamaño de 12 puntos, interlineado 1,15 o 1,5.

La extensión orientativa del trabajo es de 15-20 páginas (sin contar anexos).

Buscar este blog

TUTORIAS UNED 2020

TUTORÍA TÉCNICAS RECOGIDA INFORMACIÓN 31 OCTUBRE

Comentarios

Publicar un comentario

Entradas populares de este blog

TUTORIA MIES 20 MARZO 2025

TUTORÍA TÉCNICAS DE RECOGIDA DE INFORMACIÓN 24 OCTUBRE

TUTORIA MIES 12 FEBRERO 2026