TUTORÍA TÉCNICAS DE RECOGIDA DE INFORMACIÓN 6 NOVIEMBRE 2025

TÉCNICAS DE RECOGIDA DE INFORMACIÓN

Vamos a seguir con los contenidos del tema 2, no os preocupéis si lo vemos en dos o tres tutorías, lo importante es comprenderlo, porque es la base para hacer luego la PEC, y los problemas que pongan en el examen.

En la tutoría anterior vimos el concepto de medición, y nos iniciamos en la determinación de la calidad de los ítems que es algo que tendréis que hacer en vuestra práctica, vimos la dificultad de un ítem en una prueba directa o con varias alternativas de respuesta corrigiendo el efecto del azar ID = [A - E / n-1] / N. Vimos también como calcular la discriminación de un ítem comparando los sujetos que aciertan o fracasan con respecto al 27% mejor o peor, o el índice de homogeneidad hallando la correlación de Pearson entre las respuestas de los sujetos a un test y las respuestas a ese test eliminando el ítem cuya calidad queramos medir.

¿Alguna duda al respecto de lo que vimos el otro día?

Veamos ahora como analizar distractores, bien los distractores son las diferentes alternativas de respuesta a la pregunta formulada en un ítem, claro lo idóneo es que sean parecidas en dificultad para que el sujeto dude, porque si un distractor está claro que es falso y la pregunta tiene tres alternativas de respuesta, al final el sujeto solo se decanta por dos y tiene más posibilidades de acertar, por lo que todas las alternativas deberían ser igual de probables de que el sujeto las considerara cierta, es decir no supiera por cuál decantarse, de tal manera que todas fueran equiprobables, y eso se comprueba con una prueba estadística, que todos conocéis, de la Estadística de 1º, la X ^2 de Pearson.

Y se halla mediante la siguiente fórmula, sumando el valor de los distractores y dividiendo entre el número de distractores para hallar la frecuencia esperada, y luego se realiza la comparación de cada frecuencia restando la misma de la esperada y elevándola al cuadrado para evitar diferencias negativas, se suma cada comparación y el resultado de la suma se divide entre la frecuencia esperada:

X^2 = E [(fe-fo)^2] / fe

De tal manera, que veamos este ejemplo, 400 individuos contestan un ítem con 5 alternativas de respuesta, la correcta es la E, y el resto las fallan:

A B C D

91 42 66 77

¿Son equiprobables?, pues bien si sumamos las elecciones de los distractores nos da 276, bueno pues 276 / 4 nos da 69, es decir deberían optar si atendemos a la media 69 estudiantes por cada alternativa.

La X ^2 se hallaría [(91-69)^2 + (42-69)^2 + (66-69)^2 + (77-66)^2] / 69 = 18,65 que sería el estadístico empírico, y que habría que comparar con la tabla, recordando que si el X^2 empírico fuera mayor que el teórico no serían equiprobables. Miramos al 95% de probabilidad, con los grados de libertad correspondientes al número de distractores menos 1, es decir 4-1 = 3. Y nos da 7,815. Recordad que podéis llevar las tablas que aparecen en el curso fotocopiadas al examen. Entonces como 18,63 > 7,815 concluimos que no son equiprobables los distractores.

Ítem con 4 allternativas, la D es la correcta, contestan a los distractores 300 individuos

A B C

85 40 73 198

Luego 198/3 = 66

Aplicamos la X^2 = [(85-66)^2 + (40-66)^2 + (73-66)^2] / 66 = 1086 / 66 = 16,45

Buscamos en las tablas al 95% con K-1 = 2 grados de libertad, y nos da 5,991

Como 16,45 empírico es mayor que 5,991 teórico rechazamos la independencia y concluimos que no son equiprobables

Hemos terminado con esto la calidad de los ítems, como procedimiento para valorar la calidad de una prueba objetiva atendiendo a los ítems, y ahora veremos la calidad de la prueba de forma global por una parte, identificando la fiabilidad y la validez de la prueba en su conjunto, y recordad que estamos para el paraguas de la TEORÍA CLÁSICA DE TESTS. También veremos la calidad de una prueba desde la TEORÍA DE RESPUESTA AL ÍTEM.

Bien, comencemos con el concepto de FIABILIDAD, la fiabilidad dijimos que el otro día era una de las garantías científicas, que tenía que ver con la precisión de un test. Y el fundamento de la TCT es que la puntuación de un sujeto en un test es su puntuación verdadera más un margen de error X = V + e, de tal manera que V y e son independientes, y que la media de puntuaciones X es igual a la media de puntuaciones de V, es decir si pasamos muchas veces el instrumento, tendríamos la medida verdadera.

Por eso decimos que un instrumento de medida es fiable si el error es mínimo, pero no sólo tiene que ser fiable, ha de ser fiable y aceptable. La fiabilidad es una condición necesaria, pero no suficiente. La fiabilidad de cualquier instrumento se cuantifica mediante dos aproximaciones,

la fiabilidad absoluta, también llamado error típico de medida, que vendría a ser la desviación típica de las puntuaciones empíricas (X) con respecto a la puntuación verdadera (V) tras la aplicación de un test infinitamente a un sujeto.
Y la fiabilidad relativa, que podemos calcularla estadísticamente, como coeficiente de estabilidad, mediante la correlación entre las puntuaciones obtenidas en dos aplicaciones de un test pasado un tiempo prudencial para que no influya el efecto memoria.

Esta fiabilidad como estabilidad la llamamos test - retest, y debe transcurir al menos 20-25 días entre aplicaciones, algunos autores establecen este intervalo en tres meses
También es posible hallar la fiabilidad pasando dos tests parecidos, que midan lo mismo, el mismi rasgo, que tenga los mismos objetivos, contenidos, misma longitud y condiciones de aplicación similares, por lo que no es sencillo, obtenemos la correlación de sus puntuaciones y entonces la llamamos fiabilidad como equivalencia, o de formas paralelas.
O podemos hallar la correlación entre puntuaciones pares e impares de un test, o de la primera mitad con la segunda, y entonces se denomina fiabilidad como equivalencia, y se halla mediante la fórmula del alfa de Cronbach alfa = n/n-1 [1- ES^2j/S^2x], por ejemplo 8 ítems, la suma de varianzas indiviiduales ítems 16, varianza test 54, ¿alfa Cronbach? alfa = 8/(8-1) . [1 - 16/54] = 0,804

También podemos aplicar la fórmula de Spearman Brown Rxx = 2rxx / (1+rxx), por ejemplo fiabilidad test correlación ítems pares - impares rxx = 0,79, pues como se resolvería Rxx = 2 . 0,79 / (1+0,79) = 0,88
O la fórmula de Rulon determinando la diferencia entre la primera y segunda mitad d = X1 - X2 y después restar a 1 la relación entre la varianza de la diferencia y la varianza total rxx = 1 - S^2d / S^2 x
O la fórmula de Guttman calculando para cada sujeto la varianza en cada mitad y calculando la varianza total rxx = 2[1 - (S^2 1 + S^2 2) / S^2 x]

Hay que pensar que la fiabilidad:

> 0,9 excelente
> 0,8 buena
> 0,7 aceptable
> 0,6 cuestionable
> 0,5 pobre
< 0,5 inaceptable

Hay un tema importante que suele caer en los exámenes y es la relación entre fiabilidad y longitud, cuanto más largo es un test mayor es su fiabilidad, y se haya mediante esta fórmula el número de ítems que debe tener un test para mejorar la fiabilidad (Rxx):

n = Rxx (1-rxx) / rxx (1-Rxx)

Veamos un problema, prueba 25 ítems fiabilidad rxx = 0,64, ¿cuánto alargarlo para llegar a Rxx = 0,80?

Bien, pues n = 0,80 (1-0,64) / 0,64 (1-0,80) = 2,25, luego tendría que aplicar ese 2,25 . 25 y daría 57 ítems.

Otro problema, prueba 30 ítems, fiabilidad rxx = 0,93, ¿cuál sería la fiabilidad con un aumento de 10 ítems?, Rxx = 0,948

n . 30 = 40 ... n = 1,33

1,33 = Rxx (1-0,93) / 0,93 (1-Rxx) = Rxx . 0,07 / 0,93 - 0,93.Rxx

1,24 - 1,24.Rxx = 0,07.Rxx

1,24 = 1,31.Rxx

Rxx = 1,24/1,31 = 0,9465

Hemos visto el concepto de FIABILIDAD, pero la fiabilidad de un instrumento es condición necesaria, pero no suficiente para valorar positivamente su calidad, necesita la validez como complemento, que es otra de las garantías científicas. Y la validez precisamente es que el test o la prueba mide lo que dice medir. Es decir que el título del test responde a la realidad del mismo.

Nos encontramos con diferentes perspectivas cuando hablamos de Validez, así hablamos de:

VALIDEZ DE CONTENIDO cuando tiene una longitud adecuada, y el conjunto de ítems recoge una muestra representativa y suficiente de las conductas que el constructo evalúa
VALIDEZ DE CONSTRUCTO que es consistente y replica el número de dimensiones o factores que tiene el constructo que se está midiendo. De alguna manera, permite ir a la raíz del problema, eso qué medimos, ¿qué es?. La cuantificación de esta validez requiere una acumulación progresiva de información que irá dando más consistencia a la construcción inicial, o por el contrario irá desechando el planteamiento presentado. La dimensionalidad hace referencia a el número de dimensiones o factores que mide un test, que habitualmente se halla sometiendo al test a un análisis factorial, cuanto menos dimensiones mida, más homogéneo es el test.
VALIDEZ APARENTE que indica que cualquier persona a la que se presente el test, diría que mide lo que decimos que mide, y se refiere a cuestiones de aspecto externo: legibilidad, claridad, instrucciones, manejo.
Y la más importante, que requiere cálculos matemáticos, y es la que vais a utilizar en la PEC, y la que utilizaréis en los problemas de la prueba de examen es la VALIDEZ CRITERIAL, es decir, las puntuaciones del test correlacionan con la puntuación en el rasgo que estamos midiendo que aporte un experto externo, que puede ser otro test, o la puntuación que un experto profesional otorgue, y que a su vez podemos que es PREDICTIVA (y la utilizamos como inferencia para predecir el éxito en el rasgo que estamos midiendo, midiendo el criterio después del test) o CONCURRENTE (las dos medidas del test y del criterio se toman simultáneamente). Y a su vez podemos hablar del índice de validez de un ítem cuando correlacionamos un ítem con un criterio, o del test, cuando correlacionamos la puntuación del test con un criterio, recordando la fórmula de la correlación de Pearson:

N Exy - Ex Ey
rqsr [[N Ex^2 - (Ex)^2] [N Ey^2 - (Ey)^2]]
Items
Sujetos 1 2 3 4 CriterioY Ex Ex^2 EY^2 Exy
A 1 0 1 1 4 3 9 16 12
B 0 1 1 0 2 2 4 4 4
C 0 1 1 1 4 3 9 16 12
D 1 0 0 0 1 1 1 1 1
11 9 23 37 29
4 29 - 9 11
rqsr [4.23 - 9^2] [4.37- 11^2]
116 - 99
rqsr [92 - 81] [148 - 121]
17 / rqsr 11 . 27
17 / rqsr 297
17 / 17,23
0,986

Podríamos perfectamente, hallar del mismo modo la calidad del ítem 1 con el criterio, tomando como X la puntuación del ítem 1 (1, 0, 0, 1) con su suma 2 y hallar la correlación de Pearson. ¿Vale?.

Al igual que decíamos en el tema anterior, que había una relación entre longitud y fiabilidad, en el sentido que un test es más fiable cuanto más largo es, y podíamos determinar como se modificaba la fiabilidad al incrementar el número de ítems, o cuántos ítems teníamos que añadir para mejorar la fiabilidad hasta el índice deseado, también tenemos una fórmula para relacionar la validez del test con su longitud:

Rxy = rxy . sqr n / sqr [1 + (n-1). rxx´]

n = 50/30 = 1,66
Rxy = 0,50 . sqr 1,66
_________________
sqr [1 + (1,66-1) . 0,8]
Rxy = 0,50 . 1,288
_______________
sqr [1 + 0,66 . 0,8]
Rxy = 0,644 / sqr [1 + 0,528] = 0,644 / sqr 1,528 = 0,644 / 1,236 = 0,521

Vamos a ver a continuación los tres últimos objetivos del Tema 2, que recordad que eran:

Diferenciar la TCT de la TRI
Calcular los parámetros de un ítem desde la TRI
Interpretar la información de los parámetros y características de un ítem desde la TRI

Ya comentamos que mientras la TCT los resultados de un sujeto en una prueba se comparan con una muestra de sujetos parecidos al que contesta, y los resultados se expresan en relación a esa muestra, la teoría de respuesta al ítem son independientes de la muestra, se compara al sujeto consigo mismo, intenta brindar una fundamentación probabilística al probllema de medir constructos latentes (no observables) y considera al ítem como unidad básica de medición, centrándose exclusivamente en el ítem, no como la TCT en la suma del sujeto a la ejecución de la prueba con el conjunto de ítems.

Mientras que la TCT se halla la calidad métrica de los ítems y del test una vez que el sujeto ha contestado, y recordemos que se basa en que la puntuación del test es igual a la puntuación verdadera más un componente de error X = V + e, la teoría de respuesta al ítem no necesita muestra, por lo que la calidad de los ítems se puede determinar previamente en función de un parámetro teórico que depende de un modelo y que llamamos aptitud, con una estimación no lineal como la TCT sino exponencial, comprobando el ajuste del modelo para una muestra grande, superior a los 300 sujetos.

La teoría de respuesta al ítem se basa en los postulados de que la respuesta al ítem está determinada exclusivamente por una variable denominada rasgo latente y se ajusta a modelos exclusivamente unidimensionales, y claro la probabilidad de responder adecuadamente a un ítem es independiente de la probabilidad de responder adecuada no inadecuadamente a otro ítem de la prueba. Es decir, el resultado de un sujeto en un test determinado, viene dado por la aptitud que mide el test, por el grado de aptitud que presenta el sujeto en un rasgo, que es latente, por lo que a medida que el sujeto incrementa su aptitud, mejora igualmente la probabilidad de que responda adecuadamente a ese ítem que está relacionado directamente con la aptitud que mide. La función que mide la probabilidad de responder a un ítem en función de la aptitud P (0) se llama función característica o curva característica del ítem (CCI) y es una función monótona creciente. Y nos vamos a centrar en la asignatura en los modelos donde la CCI obedece a una función logística, en concreto el modelo de Rasch de 1, 2 y 3 parámetros.

La curva en el eje de abscisas, de las Y, se representa la probabilidad de que el sujeto posea un rasgo latente determinado P (0) de 1,00 a 0,00 y en el eje de ordenadas (X), el rasgo latente de -4 a 4, aunque su dominio real es de -3 a 3, siendo de -4 a -3 y de 3 a 4 plana la respuesta, uniendo el punto 0,5 de abscisas al 0 de ordenadas. La función tiene forma de S.

La fórmula es P (0) = e ^ D (0-b) / 1+e^D(0-b) donde 0 es el nivel de habilidad del sujeto, b el índice de dificultad del ítem cuyo parámetro viene expresado en la misma escala que 0 y el valor de b se corresponde al valor de 0 para el cual P (0) = 0,5; e la base de los logaritmos neperianos, por definición 2,718 y la D es una constante, cuyo valor es 1,7. b si nos damos cuenta va a representarse en el punto donde se cruzan P (0) con 0, que es cero, por lo que b también será cero, por lo que sería un ítem con dificultad media. Si 0 = -1, la probabilidad de acertarlo sería de un 10%, mientras que si 0 = 2 la probabilidad de acertarlo, subimos en abscisas y nos da un 90%.

P (-1) = e ^ 1,7 (-1-0) / 1+e^-1,7
P (-1) = e ^-1,7 / 1+e^-1,7
En la calculadora e^x -1,7 = 0,18
P (0) = e^1,7 (0-0) / 1+e^1,7.0
P (0) = e^0 / 1+e^0
P (0) 1 / 1+1
P(0) 1 / 2 = 0,5
P (2) = e^1,7 (2-0) / 1+e^3,4
P (2) = e^3,4 / 1+e^3,4
P (2) = 29,96 / 30,96 = 0,96

La curva superior más plana correspondiente al ítem 1 es más fácil que el ítem 2. El b del ítem 1 es -1 y el b del ítem 2 es 1.

El modelo de Rasch de 2 parámetros añade el parámetro a, que indica la mayor o menor inclinación de la CCI cuando teta = b, los valores de a van de 0,3 a 2,5 y se consideran discriminativos los superiores a 1. La fórmula es P (0) = e ^ D.a (0-b) / 1+e^D.a(0-b). Cuanto mayor sea la a, más pendiente tiene la CCI.

Y el modelo de Rasch de 3 parámetros añade el parámetro c, que representa la probabilidad de acertar el ítem por azar, es decir la probabilidad de acertar el ítem sujetos con teta = - infinito, es decir sujetos sin aptitud o competencia adecuada, su fórmula es:

P (0) = c + [ e ^ D (0-b) / (1-c)+e^D(0-b) ]

Sigamos, al proceso de estimación de los parámetros de los modelos TRI se denomina calibración, y para ello se opta por el modelo de Rash de 1, 2 o 3 parámetros, se estiman los parámetros de cada ítem mediante procedimientos matemáticos complejos con herramientas informáticas como el LOGIST, o el propio R, determinando la correlación de valores simulados y estimados, el índice de los ajustes o la bondad de ajuste de las curvas CCI a los datos proporcionados por los sujetos. Lo importante para nuestro tema en este curso a nivel teórico sería la fórmula de los residuos estandarizados:

RE = P (teta j) - Pe (teta j) / sqr [P (teta j) . Q (teta j) / n j]

Siendo n el número de sujetos en la categoría j y Q = (1-P)

Cuanto mayor sea RE peor es el ajuste de las curvas a los datos, rechazando los modelos qe superen un RE de 1,96. De esto no se va a preguntar nada en los exámenes. Hay un problema en el libro, en la página 79-80, solo mirarlo si queréis.

Importante, porque esto si puede caer, aplicaciones de la TRI:

Creación de bancos de ítems

Conjunto de ítems con propiedades métricas conocidas

De éstos se escogen aquellos relacionados con el rasgo que pretendamos medir

Diseño de tests adaptativos

Se adaptan al nivel de competencia del sujeto

Maximizamos la información que nos dan sobre el sujeto, minimizando el error
Consiguen la misma precisión que los no adaptativos con menor número de ítems

Y por hoy lo dejamos aquí, vamos con la PEC. El otro día presentamos la PEC A, que vale dijimos el 75% del total de la PEC, que recordemos que es el 60% de la nota del trimestre. Dijimos que la PEC tenía 5 fases.

GRADO EN PEDAGOGÍA TÉCNICAS E INSTRUMENTOS PARA LA RECOGIDA DE INFORMACIÓN CURSO 2024/2025

ENUNCIADO DE LA “PRÁCTICA A” (“Diseño, aplicación y valoración de una prueba objetiva”)

1ª Fase: Diseño y construcción de la prueba.

Definir el objetivo de la prueba: es decir, definir la variable que será objeto de medida (por ejemplo, “medir la competencia matemática”).
Definir la población diana de la prueba: es decir, definir la población de referencia sobre la cual se aplicará la prueba (por ejemplo, “niños y niñas escolarizados en 5º Primaria en España”).
Definir la utilidad esperada de la prueba: es decir, anticipar a qué uso se van a destinar los resultados derivados de la aplicación de la prueba (por ejemplo, “para detectar niños y niñas susceptibles de recibir atención educativa especial en el área de Matemáticas”).
Fundamentar y definir el contenido de la prueba: es decir, definir el universo de contenidos que serán objeto de la prueba (por ejemplo, “sumas, restas, multiplicaciones y divisiones, con números de hasta dos cifras”); dicha definición debe estar fundamentada, es decir, debe apoyarse en algún tipo de documento que evidencie que el universo de contenidos corresponde a la variable y población definidos anteriormente (por ejemplo, un Real Decreto, Orden, o documento curricular similar, que especifique “la competencia matemática exigida para el nivel de 5º Primaria”).

Los documentos citados deben ser referenciados al final del trabajo, en un apartado de “Referencias”, según el estilo APA.

Realizar la tabla de especificación de la prueba: es decir, construir una tabla en la cual se dispongan en las columnas las áreas que componen el universo de contenidos a medir, y en las filas los procesos cognitivos que operarán sobre dichos contenidos.

Por ejemplo:

Contenidos Suma Resta Multiplicación División
Procesos Conocer/Calcular Comprender/Aplicar

Definir el tipo de prueba: en este caso, es obligatorio que en todos los trabajos se opte por una “prueba objetiva compuesta por ítems de elección múltiple con, al menos, 3 alternativas de respuesta (sólo 1 alternativa correcta)”.

Las alternativas de respuesta deben nombrarse como A, B, C…

Definir la longitud de la prueba: es decir, definir el número de ítems que compondrán la prueba. La prueba debe tener una longitud de, al menos, 10 ítems. Igualmente, debe haber al menos 1 ítem por cada una de las celdas definidas en la tabla de especificación. Siguiendo con nuestro ejemplo, “definimos que nuestra prueba tendrá una longitud de 10 ítems, distribuidos de la siguiente manera”:

Contenidos Suma Resta Multiplicación División TOTAL
Procesos

Conocer/Calcular 1 1 1 1 4
Comprender/Aplicar 2 2 1 1 6
TOTAL 3 3 2 2 10

Redactar los ítems: para lo cual recomendamos seguir las indicaciones de la página 143 del texto básico. Cada ítem redactado, debe acompañarse con sus correspondientes especificaciones.

Por ejemplo: Para tu cumpleaños, quieres regalar a cada uno de tus 25 compañeros de clase, una bolsita con 12 caramelos ¿Cuántos caramelos te hacen falta para conseguirlo?: A. 280 B. 300 C. 320
Contenido Proceso Opción correcta Especificaciones Multiplicación

Comprender/Aplicar B

Ordenar/Numerar los ítems: es decir, especificar el orden en el cual se presentarán los ítems anteriormente redactados (ítem 1, ítem 2, ítem 3…).
Redactar las instrucciones de la prueba: puede tomarse como referencia el ejemplo de instrucciones que se presenta en las páginas 144 y 145 del texto básico.

Nota importante: una vez redactados y ordenados los ítems de la prueba, y redactadas las instrucciones, se puede presentar el conjunto definitivo de la prueba como “Anexo” al final del trabajo.
Se recomienda que dicho anexo incluya igualmente la plantilla con las respuestas correctas a los ítems de la prueba.

2ª Fase: Aplicación y puntuación de la prueba. Nota importante: la aplicación de la prueba puede realizarse sobre una muestra real o simulada.

Definir el tiempo de aplicación: es decir, definir, de manera justificada, cuál es el tiempo de aplicación de la prueba (por ejemplo, “se estima que cada uno de los 10 ítems de la prueba puede ser contestado en un máximo de 3 minutos; por tanto, el tiempo total de aplicación será de 30 minutos”).
Definir el soporte de aplicación: es decir, definir si la prueba será aplicada en formato papel, en formato digital, por teléfono… en caso de realizar el trabajo con una muestra real, recomendamos vivamente aplicar la prueba en formato digital, utilizando para su virtualización la herramienta “Google Forms” o similar; puesto que con ella las respuestas de los sujetos quedarán grabadas automáticamente en una matriz de datos que servirá de base para los posteriores análisis.
Definir el tipo de aplicación: es decir, si la aplicación se hará de manera individual o colectiva; con o sin la presencia del investigador.
Definir la muestra de aplicación: es decir, definir el tamaño de la muestra sobre la cual se va aplicar la prueba. Se exige que se aplique al menos a 20 sujetos.
Obtener la matriz de respuestas directas: una vez aplicada la prueba se obtendrá, y así debe aportarse en el trabajo, una primera matriz de datos con las respuestas directas de los sujetos.

Es decir, una matriz con tantas filas como sujetos, tantas columnas como ítems tenga la prueba, y en cada una de las celdas aparecerá la respuesta directa (“A”, “B”, “C”…) dada por el sujeto al ítem.
Se recomienda añadir una columna inicial a la izquierda que incluya un identificador del sujeto (“Sujeto1”, “Sujeto2”, “Sujeto3”…o “ID1”, “ID2”, “ID3”…).

Obtener la matriz de aciertos/errores: es decir, a partir de la matriz anterior, debe obtenerse, y aportarse en el trabajo, una segunda matriz en donde cada una de las respuestas directas sea sustituida por “0” (en caso de respuesta incorrecta) o “1” (en caso de respuesta correcta”).
Cálculo de la puntuación total de cada sujeto en la prueba: finalmente, a la matriz de aciertos/errores, se le añadirá una columna adicional que contendrá la puntuación total de cada sujeto en la prueba.

Para simplificar los posteriores análisis, se permite calcular la puntuación total como simple suma de aciertos del sujeto a lo largo de la prueba (es decir, sin hacer la corrección por azar = los fallos no restan).

3ª Fase: Análisis de las propiedades métricas de la prueba (y de sus ítems)

Calcular el Índice de Dificultad (ID’), para todos y cada uno de los ítems que componen la prueba. En este caso, sí que se exige que se calcule aplicando la corrección debida a los efectos del azar. Se pide igualmente representar de manera gráfica cómo evoluciona el ID’ a lo largo de los ítems de la prueba.
Escoger 1 de los ítems de la prueba (se recomienda escoger un ítem de dificultad media), y sobre el mismo calcular:

Índice de Discriminación (D). Para simplificar, por ejemplo en el caso de tener 20 sujetos, se puede coger como ‘extremo superior’ el 25% de sujetos (=5 sujetos) con mayor puntuación en la prueba, y como ‘extremo inferior’ el 25% de sujetos (=5 sujetos) con menor puntuación en la prueba.
Índice de Homogeneidad (IH). Se recomienda utilizar el procedimiento de correlación ítem – total (excluido el ítem).
Análisis de los Distractores. Es decir, comprobar la equiprobabilidad de los distractores mediante la prueba Ji-Cuadrado.
Calcular la fiabilidad de la prueba en su conjunto, como consistencia interna. Se admite tanto el procedimiento de las dos mitades como el alfa de Cronbach.
Definir un criterio externo relevante para estudiar la validez criterial de la prueba. (Por ejemplo, “nota media en Matemáticas obtenida en la última evaluación de 5º Primaria”).

Tras definir de manera justificada el criterio elegido, deberá añadirse a la matriz de acierto/error una nueva columna con la puntuación directa de cada sujeto en dicho criterio (que será necesariamente una puntuación simulada).

Calcular la validez criterial de la prueba, con respecto al criterio previamente definido.
Baremar la prueba: se pide calcular el valor de los deciles (percentil 10, 20,…, 80, 90) y cuartiles (percentil 25, 50, 75), correspondientes a la puntuación total en la prueba.
OPCIONAL: De manera opcional, se pide transformar las puntuaciones totales de los sujetos en la prueba a puntuaciones típicas (z).

4ª Fase: Valoración de las propiedades métricas de la prueba (y de sus ítems)

Valorar los Índices de Dificultad (ID’) obtenidos:

¿Cuáles son los dos ítems más fáciles de la prueba?
¿Cuáles son los dos ítems más difíciles?
¿Cuál es el ID’ promedio de la prueba?
¿La prueba en su conjunto es de dificultad baja, media, alta?
¿Sigue la prueba la recomendación de presentar los ítems en dificultad creciente (los más fáciles al principio y los más difíciles al final)?

Para el ítem escogido, valorar el Índice de Discriminación (D), el Índice de Homogeneidad, y la equiprobabilidad de sus distractores.

En conjunto, ¿cómo valorarías la calidad de este ítem? ¿lo incluirías en una próxima versión perfeccionada de tu prueba?
¿Por qué?

Valorar la fiabilidad de la prueba: ¿Cómo dirías que es la fiabilidad de tu prueba? ¿Excelente, Buena, Aceptable, Cuestionable…?

Dada la fiabilidad encontrada, ¿crees que puedes extraer conclusiones de tus resultados?
En caso de que tu prueba tenga una fiabilidad por debajo de 0,80, ¿cómo podrías incrementarla?

Valorar la validez criterial de la prueba: ¿Cómo dirías que es la validez criterial de la prueba? ¿Cómo interpretas el valor de validez criterial que has obtenido?
Aplicación práctica de la baremación realizada:

¿Qué sujetos se encuentran por debajo del percentil 20? ¿les aplicarías alguna medida educativa especial?
¿qué sujetos se encuentra por encima del percentil 80? ¿les aplicarías alguna medida educativa especial?

Valoración global de la prueba construida.

¿Cuáles crees que son los puntos fuertes de tu prueba?
¿Cuáles son sus puntos débiles?
¿Cómo crees que se podría mejorar para el futuro?

5ª Fase: Reflexión final: se debe cerrar el trabajo con una reflexión final sobre el proceso de aprendizaje seguido a lo largo del desarrollo del trabajo.

¿Qué has aprendido?
¿Qué competencias has adquirido?
¿Cómo relacionas dichas competencias con tu futuro perfil profesional de pedagogo/a?
¿Tienes algún comentario o sugerencia al respecto de esta “Práctica A”?

Nota importante: Tras el desarrollo de las anteriores 5 fases, al final del trabajo, se incluirá un apartado de “Referencias” (estilo APA) y otro de “Anexos”, según ya se ha ido comentando en el enunciado.

Criterios de Evaluación: La “Práctica A” será calificada en la convocatoria ordinaria por el Tutor/a del Centro Asociado (y por el Equipo Docente de la Sede Central en la convocatoria extraordinaria), a través de la plataforma virtual, en una escala de 0 a 10 puntos. Para evaluar la práctica, se aplicarán los siguientes criterios:

Adecuado diseño y construcción de la prueba: 20% de la calificación.
Adecuada aplicación y puntuación de la prueba: 20% de la calificación.
Adecuado análisis de las propiedades métricas: 30% de la calificación.
Adecuada valoración de las propiedades métricas: 20% de la calificación.
Adecuada reflexión final: 10% de la calificación.

Nota importante: En el curso virtual se facilita una rúbrica detallada de evaluación que especifica los distintos niveles de logro en cada uno de los anteriores criterios, con el fin de orientar a los estudiantes en la realización de la práctica y motivarles hacia la excelencia. Dicha rúbrica pretende igualmente servir de ayuda a los tutores/as para sus labores de corrección y calificación de los trabajos.

Formato de Entrega: La “Práctica A” se debe entregar en formato Word (.doc, .docx), y con las matrices de datos en formato de tabla editable (no como imagen), de forma que el Tutor/a o Equipo Docente pueda copiar/pegar dicha información en una hoja de cálculo para hacer las comprobaciones necesarias. Se recomienda letra Times New Roman, tamaño de 12 puntos, interlineado 1,15 o 1,5. La extensión orientativa del trabajo es de 15-20 páginas (sin contar anexos).

2ª Fase: Aplicación y puntuación de la prueba.

Nota importante: la aplicación de la prueba puede realizarse sobre una muestra real o simulada. o

Definir el tiempo de aplicación: es decir, definir, de manera justificada, cuál es el tiempo de aplicación de la prueba (por ejemplo, “se estima que cada uno de los 10 ítems de la prueba puede ser contestado en un máximo de 3 minutos; por tanto, el tiempo total de aplicación será de 30 minutos”).

Definir el soporte de aplicación: es decir, definir si la prueba será aplicada en formato papel, en formato digital, por teléfono… en caso de realizar el trabajo con una muestra real, recomendamos vivamente aplicar la prueba en formato digital, utilizando para su virtualización la herramienta “Google Forms”1 o similar; puesto 1 https://www.google.es/intl/es/forms/about/ que con ella las respuestas de los sujetos quedarán grabadas automáticamente en una matriz de datos que servirá de base para los posteriores análisis.
Definir el tipo de aplicación: es decir, si la aplicación se hará de manera individual o colectiva; con o sin la presencia del investigador. o Definir la muestra de aplicación: es decir, definir el tamaño de la muestra sobre la cual se va aplicar la prueba. Se exige que se aplique al menos a 20 sujetos.
Obtener la matriz de respuestas directas: una vez aplicada la prueba se obtendrá, y así debe aportarse en el trabajo, una primera matriz de datos con las respuestas directas de los sujetos. Es decir, una matriz con tantas filas como sujetos, tantas columnas como ítems tenga la prueba, y en cada una de las celdas aparecerá la respuesta directa (“A”, “B”, “C”…) dada por el sujeto al ítem. Se recomienda añadir una columna inicial a la izquierda que incluya un identificador del sujeto (“Sujeto1”, “Sujeto2”, “Sujeto3”…o “ID1”, “ID2”, “ID3”…).
Obtener la matriz de aciertos/errores: es decir, a partir de la matriz anterior, debe obtenerse, y aportarse en el trabajo, una segunda matriz en donde cada una de las respuestas directas sea sustituida por “0” (en caso de respuesta incorrecta) o “1” (en caso de respuesta correcta”).
Cálculo de la puntuación total de cada sujeto en la prueba: finalmente, a la matriz de aciertos/errores, se le añadirá una columna adicional que contendrá la puntuación total de cada sujeto en la prueba. Para simplificar los posteriores análisis, se permite calcular la puntuación total como simple suma de aciertos del sujeto a lo largo de la prueba (es decir, sin hacer la corrección por azar = los fallos no restan).

3ª Fase: Análisis de las propiedades métricas de la prueba (y de sus ítems)

Calcular el Índice de Dificultad (ID’), para todos y cada uno de los ítems que componen la prueba. En este caso, sí que se exige que se calcule aplicando la corrección debida a los efectos del azar. Se pide igualmente representar de manera gráfica cómo evoluciona el ID’ a lo largo de los ítems de la prueba. o Escoger 1 de los ítems de la prueba (se recomienda escoger un ítem de dificultad media), y sobre el mismo calcular:

Índice de Discriminación (D). Para simplificar, por ejemplo en el caso de tener 20 sujetos, se puede coger como ‘extremo superior’ el 25% de sujetos (=5 sujetos) con mayor puntuación en la prueba, y como ‘extremo inferior’ el 25% de sujetos (=5 sujetos) con menor puntuación en la prueba.
Índice de Homogeneidad (IH). Se recomienda utilizar el procedimiento de correlación ítem – total (excluido el ítem).
Análisis de los Distractores. Es decir, comprobar la equiprobabilidad de los distractores mediante la prueba Ji-Cuadrado.

Calcular la fiabilidad de la prueba en su conjunto, como consistencia interna. Se admite tanto el procedimiento de las dos mitades como el alfa de Cronbach.
Definir un criterio externo relevante para estudiar la validez criterial de la prueba. (Por ejemplo, “nota media en Matemáticas obtenida en la última evaluación de 5º Primaria”). Tras definir de manera justificada el criterio elegido, deberá añadirse a la matriz de acierto/error una nueva columna con la puntuación directa de cada sujeto en dicho criterio (que será necesariamente una puntuación simulada).
Calcular la validez criterial de la prueba, con respecto al criterio previamente definido. o Baremar la prueba: se pide calcular el valor de los deciles (percentil 10, 20,…, 80, 90) y cuartiles (percentil 25, 50, 75), correspondientes a la puntuación total en la prueba.
OPCIONAL: De manera opcional, se pide transformar las puntuaciones totales de los sujetos en la prueba a puntuaciones típicas (z).

4ª Fase: Valoración de las propiedades métricas de la prueba (y de sus ítems)

Valorar los Índices de Dificultad (ID’) obtenidos:

¿Cuáles son los dos ítems más fáciles de la prueba?
¿Cuáles son los dos ítems más difíciles? ¿Cuál es el ID’ promedio de la prueba?
¿La prueba en su conjunto es de dificultad baja, media, alta?
¿Sigue la prueba la recomendación de presentar los ítems en dificultad creciente (los más fáciles al principio y los más difíciles al final)?

Para el ítem escogido, valorar el Índice de Discriminación (D), el Índice de Homogeneidad, y la equiprobabilidad de sus distractores.

En conjunto, ¿cómo valorarías la calidad de este ítem?
¿lo incluirías en una próxima versión perfeccionada de tu prueba? ¿Por qué?

Valorar la fiabilidad de la prueba:

¿Cómo dirías que es la fiabilidad de tu prueba? ¿Excelente, Buena, Aceptable, Cuestionable…?
Dada la fiabilidad encontrada, ¿crees que puedes extraer conclusiones de tus resultados?
En caso de que tu prueba tenga una fiabilidad por debajo de 0,80, ¿cómo podrías incrementarla?

Valorar la validez criterial de la prueba:

¿Cómo dirías que es la validez criterial de la prueba? ¿Cómo interpretas el valor de validez criterial que has obtenido?

Aplicación práctica de la baremación realizada:

¿Qué sujetos se encuentran por debajo del percentil 20?
¿les aplicarías alguna medida educativa especial?
¿qué sujetos se encuentra por encima del percentil 80?
¿les aplicarías alguna medida educativa especial?

Valoración global de la prueba construida.

¿Cuáles crees que son los puntos fuertes de tu prueba?
¿Cuáles son sus puntos débiles?
¿Cómo crees que se podría mejorar para el futuro?

5ª Fase: Reflexión final: se debe cerrar el trabajo con una reflexión final sobre el proceso de aprendizaje seguido a lo largo del desarrollo del trabajo.

¿Qué has aprendido?
¿Qué competencias has adquirido?
¿Cómo relacionas dichas competencias con tu futuro perfil profesional de pedagogo/a?
¿Tienes algún comentario o sugerencia al respecto de esta “Práctica A”?

Nota importante: Tras el desarrollo de las anteriores 5 fases, al final del trabajo, se incluirá un apartado de “Referencias” (estilo APA 7ª edición) y otro de “Anexos”, según ya se ha ido comentando en el enunciado. Criterios de Evaluación:

La “Práctica A” será calificada en la convocatoria ordinaria por el Tutor/a del Centro Asociado (y por el Equipo Docente de la Sede Central en la convocatoria extraordinaria), a través de la plataforma virtual, en una escala de 0 a 10 puntos. Para evaluar la práctica, se aplicarán los siguientes criterios:

Adecuado diseño y construcción de la prueba: 20% de la calificación.
Adecuada aplicación y puntuación de la prueba: 20% de la calificación.
Adecuado análisis de las propiedades métricas: 30% de la calificación.
Adecuada valoración de las propiedades métricas: 20% de la calificación.
Adecuada reflexión final: 10% de la calificación.

Formato de Entrega: MUY IMPORTANTE: La “Práctica A” se debe entregar en formato Word (.doc, .docx), y con las matrices de datos en formato de tabla editable (no como imagen), de forma que el Tutor/a o Equipo Docente pueda copiar/pegar dicha información en una hoja de cálculo para hacer las comprobaciones necesarias.

Se recomienda letra Times New Roman, tamaño de 12 puntos, interlineado 1,15 o 1,5.

La extensión orientativa del trabajo es de 15-20 páginas (sin contar anexos).

Buscar este blog

TUTORIAS UNED 2020

TUTORÍA TÉCNICAS DE RECOGIDA DE INFORMACIÓN 6 NOVIEMBRE 2025

Comentarios

Publicar un comentario

Entradas populares de este blog

TUTORIA MIES 20 MARZO 2025

TUTORÍA TÉCNICAS DE RECOGIDA DE INFORMACIÓN 24 OCTUBRE

TUTORIA MIES 12 FEBRERO 2026