TÉCNICAS RECOGIDA INFORMACIÓN 14 NOVIEMBRE

 TÉCNICAS DE RECOGIDA DE INFORMACIÓN


El otro día estuvimos viendo la calidad de los ítems, como procedimiento para valorar la calidad de una prueba objetiva atendiendo a los ítems, y hoy veremos la calidad de la prueba de forma global por una parte, identificando la fiabilidad y la validez de la prueba en su conjunto, y recordad que estamos para el paraguas de la TEORÍA CLÁSICA DE TESTS. También veremos la calidad de una prueba desde la TEORÍA DE RESPUESTA AL ÍTEM.

¿Hay alguna duda con respecto a lo que indicamos el otro día?

Bien, comencemos con el concepto de FIABILIDAD, la fiabilidad dijimos que el otro día era una de las garantías científicas, que tenía que ver con la precisión de un test. Y el fundamento de la TCT es que la puntuación de un sujeto en un test es su puntuación verdadera más un margen de error  X = V + e, de tal manera que V y e son independientes, y que la media de puntuaciones X es igual a la media de puntuaciones de V, es decir si pasamos muchas veces el instrumento, tendríamos la medida verdadera.

Por eso decimos que un instrumento de medida es fiable si el error es mínimo, pero no sólo tiene que ser fiable, ha de ser fiable y aceptable. La fiabilidad es una condición necesaria, pero no suficiente. La fiabilidad de cualquier instrumento se cuantifica mediante dos aproximaciones, 
  • la fiabilidad absoluta, también llamado error típico de medida, que vendría a ser la desviación típica de las puntuaciones empíricas (X) con respecto a la puntuación verdadera (V) tras la aplicación de un test infinitamente a un sujeto. 
  • Y la fiabilidad relativa, que podemos calcularla estadísticamente, como coeficiente de estabilidad, mediante la correlación entre las puntuaciones obtenidas en dos aplicaciones de un test pasado un tiempo prudencial para que no influya el efecto memoria.
    • Esta fiabilidad como estabilidad la llamamos test - retest, y debe transcurir al menos 20-25 días entre aplicaciones, algunos autores establecen este intervalo en tres meses
    • También es posible hallar la fiabilidad pasando dos tests parecidos, que midan lo mismo, el mismi rasgo, que tenga los mismos objetivos, contenidos, misma longitud y condiciones de aplicación similares, por lo que no es sencillo, obtenemos la correlación de sus puntuaciones y entonces la llamamos fiabilidad como equivalencia, o de formas paralelas.
    • O podemos hallar la correlación entre puntuaciones pares e impares de un test, o de la primera mitad con la segunda, y entonces se denomina fiabilidad como equivalencia, y se halla mediante la fórmula del  alfa de Cronbach  alfa = n/n-1 [1- ES^2j/S^2x], por ejemplo 8 ítems, la suma de varianzas indiviiduales ítems 16, varianza test 54, ¿alfa Cronbach?  alfa = 8/(8-1) . [1 - 16/54] = 0,804 
      • También podemos aplicar la fórmula de Spearman Brown Rxx = 2rxx / (1+rxx), por ejemplo fiabilidad test correlación ítems pares - impares rxx = 0,79, pues como se resolvería Rxx = 2 . 0,79 / (1+0,79) = 0,88
      • O la fórmula de Rulon determinando la diferencia entre la primera y segunda mitad d = X1 - X2 y después restar a 1 la relación entre la varianza de la diferencia y la varianza total rxx = 1 - S^2d / S^2 x
      • O la fórmula de Guttman calculando para cada sujeto la varianza en cada mitad y calculando la varianza total rxx = 2[1 - (S^2 1 + S^2 2) / S^2 x]

Hay que pensar que la fiabilidad:
  • > 0,9 excelente
  • > 0,8 buena
  • > 0,7 aceptable
  • > 0,6 cuestionable
  • > 0,5 pobre
  • < 0,5 inaceptable

Hay un tema importante que suele caer en los exámenes y es la relación entre fiabilidad y longitud, cuanto más largo es un test mayor es su fiabilidad, y se haya mediante esta fórmula el número de ítems que debe tener un test para mejorar la fiabilidad (Rxx):

n = Rxx (1-rxx) / rxx (1-Rxx)

Veamos un problema, prueba 25 ítems fiabilidad rxx = 0,64, ¿cuánto alargarlo para llegar a Rxx = 0,80?
Bien, pues n = 0,80 (1-0,64) / 0,64 (1-0,80) = 2,25, luego tendría que aplicar ese 2,25 . 25 y daría 57 ítems.

Otro problema, prueba 30 ítems, fiabilidad rxx = 0,93, ¿cuál sería la fiabilidad con un aumento de 10 ítems?, Rxx = 0,948
n . 30 = 40 ... n = 1,33
1,33 = Rxx (1-0,93) / 0,93 (1-Rxx) = Rxx . 0,07 / 0,93 - 0,93.Rxx 
1,24 - 1,24.Rxx = 0,07.Rxx
1,24 = 1,31.Rxx
Rxx = 1,24/1,31 = 0,9465

Hemos visto el concepto de FIABILIDAD, pero la fiabilidad de un instrumento es condición necesaria, pero no suficiente para valorar positivamente su calidad, necesita la validez como complemento, que es otra de las garantías científicas. Y la validez precisamente es que el test o la prueba mide lo que dice medir. Es decir que el título del test responde a la realidad del mismo.

Nos encontramos con diferentes perspectivas cuando hablamos de Validez, así hablamos de:
  • VALIDEZ DE CONTENIDO cuando tiene una longitud adecuada, y el conjunto de ítems recoge una muestra representativa y suficiente de las conductas que el constructo evalúa
  • VALIDEZ DE CONSTRUCTO que es consistente y replica el número de dimensiones o factores que tiene el constructo que se está midiendo. De alguna manera, permite ir a la raíz del problema, eso qué medimos, ¿qué es?. La cuantificación de esta validez requiere una acumulación progresiva de información que irá dando más consistencia a la construcción inicial, o por el contrario irá desechando el planteamiento presentado. La dimensionalidad hace referencia a el número de dimensiones o factores que mide un test, que habitualmente se halla sometiendo al test a un análisis factorial, cuanto menos dimensiones mida, más homogéneo es el test. 
  • VALIDEZ APARENTE que indica que cualquier persona a la que se presente el test, diría que mide lo que decimos que mide, y se refiere a cuestiones de aspecto externo: legibilidad, claridad, instrucciones, manejo.
  • Y la más importante, que requiere cálculos matemáticos, y es la que vais a utilizar en la PEC, y la que utilizaréis en los problemas de la prueba de examen es la VALIDEZ CRITERIAL, es decir, las puntuaciones del test  correlacionan con la puntuación en el rasgo que estamos midiendo que aporte un experto externo, que puede ser otro test, o la puntuación que un experto profesional otorgue, y que a su vez podemos que es PREDICTIVA (y la utilizamos como inferencia para predecir el éxito en el rasgo que estamos midiendo, midiendo el criterio después del test) o CONCURRENTE (las dos medidas del test y del criterio se toman simultáneamente). Y a su vez podemos hablar del índice de validez de un ítem cuando correlacionamos un ítem con un criterio, o del test, cuando correlacionamos la puntuación del test con un criterio, recordando la fórmula de la correlación de Pearson:
    • N Exy - Ex Ey
    • rqsr  [[N Ex^2 - (Ex)^2] [N Ey^2 - (Ey)^2]]
    •                Items
    • Sujetos    1      2    3     4   CriterioY    Ex    Ex^2    EY^2  Exy
    • A               1      0    1     1      4              3       9           16     12
    • B               0      1    1     0      2              2       4             4       4
    • C               0      1    1     1      4              3       9           16     12
    • D               1       0   0      0     1              1       1             1        1
    •                                                11             9      23          37      29
    • 4 29  - 9 11
    • rqsr [4.23 - 9^2] [4.37- 11^2]
    • 116 - 99
    • rqsr [92 - 81] [148 - 121]
    • 17 / rqsr 11 . 27
    • 17 / rqsr 297
    • 17 / 17,23
    • 0,986
Podríamos perfectamente, hallar del mismo modo la calidad del ítem 1 con el criterio, tomando como X la puntuación del ítem 1 (1, 0, 0, 1) con su suma 2 y hallar la correlación de Pearson. ¿Vale?. 

Al igual que decíamos en el tema anterior, que había una relación entre longitud y fiabilidad, en el sentido que un test es más fiable cuanto más largo es, y podíamos determinar como se modificaba la fiabilidad al incrementar el número de ítems, o cuántos ítems teníamos que añadir para mejorar la fiabilidad hasta el índice deseado, también tenemos una fórmula para relacionar la validez del test con su longitud: 

Rxy = rxy . sqr n / sqr [1 + (n-1). rxx´]
  • n = 50/30 = 1,66
  • Rxy = 0,50 . sqr 1,66 
  •            _________________
  •            sqr [1 + (1,66-1) . 0,8]
  • Rxy = 0,50 . 1,288
  •           _______________
  •           sqr [1 + 0,66 . 0,8]
  • Rxy = 0,644 / sqr [1 + 0,528] = 0,644 / sqr 1,528 = 0,644 / 1,236 = 0,521

Vamos a ver a continuación los tres últimos objetivos del Tema 2, que recordad que eran:
  • Diferenciar la TCT de la TRI
  • Calcular los parámetros de un ítem desde la TRI
  • Interpretar la información de los parámetros y características de un ítem desde la TRI

Ya comentamos que mientras la TCT los resultados de un sujeto en una prueba se comparan con una muestra de sujetos parecidos al que contesta, y los resultados se expresan en relación a esa muestra, la teoría de respuesta al ítem son independientes de la muestra, se compara al sujeto consigo mismo, intenta brindar una fundamentación probabilística al probllema de medir constructos latentes (no observables) y considera al ítem como unidad básica de medición, centrándose exclusivamente en el ítem, no como la TCT en la suma del sujeto a la ejecución de la prueba con el conjunto de ítems. 

Mientras que la TCT se halla la calidad métrica de los ítems y del test una vez que el sujeto ha contestado, y recordemos que se basa en que la puntuación del test es igual a la puntuación verdadera más un componente de error X = V + e, la teoría de respuesta al ítem no necesita muestra, por lo que la calidad de los ítems se puede determinar previamente en función de un parámetro teórico que depende de un modelo y que llamamos aptitud, con una estimación no lineal como la TCT sino exponencial, comprobando el ajuste del modelo para una muestra grande, superior a los 300 sujetos. 

La teoría de respuesta al ítem se basa en los postulados de que la respuesta al ítem está determinada exclusivamente por una variable denominada rasgo latente y se ajusta a modelos exclusivamente unidimensionales, y claro la probabilidad de responder adecuadamente a un ítem es independiente de la probabilidad de responder adecuada no inadecuadamente a otro ítem de la prueba. Es decir, el resultado de un sujeto en un test determinado, viene dado por la aptitud que mide el test, por el grado de aptitud que presenta el sujeto en un rasgo, que es latente, por lo que a medida que el sujeto incrementa su aptitud, mejora igualmente la probabilidad de que responda adecuadamente a ese ítem que está relacionado directamente con la aptitud que mide. La función que mide la probabilidad de responder a un ítem en función de la aptitud P (0) se llama función característica o curva característica del ítem (CCI) y es una función monótona creciente. Y nos vamos a centrar en la asignatura en los modelos donde la CCI obedece a una función logística, en concreto el modelo de Rasch de 1, 2 y 3 parámetros.

La curva en el eje de abscisas, de las Y, se representa la probabilidad de que el sujeto posea un rasgo latente determinado P (0) de 1,00 a 0,00 y en el eje de ordenadas (X), el rasgo latente de -4 a 4, aunque su dominio real es de -3 a 3, siendo de -4 a -3 y de 3 a 4 plana la respuesta, uniendo el punto 0,5 de abscisas al 0 de ordenadas. La función tiene forma de S. 

La fórmula es P (0) = e ^ D (0-b) / 1+e^D(0-b) donde 0 es el nivel de habilidad del sujeto, b el índice de dificultad del ítem cuyo parámetro viene expresado en la misma escala que 0 y el valor de b se corresponde al valor de 0 para el cual P (0) = 0,5; e la base de los logaritmos neperianos, por definición 2,718 y la D es una constante, cuyo valor es 1,7.  b si nos damos cuenta va a representarse en el punto donde se cruzan P (0) con 0, que es cero, por lo que b también será cero, por lo que sería un ítem con dificultad media. Si 0 = -1, la probabilidad de acertarlo sería de un 10%, mientras que si 0 = 2 la probabilidad de acertarlo, subimos en abscisas y nos da un 90%. 
  • P (-1) = e ^ 1,7 (-1-0) / 1+e^-1,7 
  • P (-1) = e ^-1,7 / 1+e^-1,7 
  • En la calculadora e^x -1,7 = 0,18 
  • P (0) = e^1,7 (0-0) / 1+e^1,7.0
  • P (0) = e^0 / 1+e^0 
  • P (0) 1 / 1+1
  • P(0) 1 / 2 = 0,5
  • P (2) = e^1,7 (2-0) / 1+e^3,4
  • P (2) = e^3,4 / 1+e^3,4
  • P (2) = 29,96 / 30,96 = 0,96
La curva superior más plana correspondiente al ítem 1 es más fácil que el ítem 2. El b del ítem 1 es -1 y el b del ítem 2 es 1. 

El modelo de Rasch de 2 parámetros añade el parámetro a, que indica la mayor o menor inclinación de la CCI cuando teta = b, los valores de a van de 0,3 a 2,5 y se consideran discriminativos los superiores a 1.  La fórmula es P (0) = e ^ D.a (0-b) / 1+e^D.a(0-b). Cuanto mayor sea la a, más pendiente tiene la CCI.

Y el modelo de Rasch de 3 parámetros añade el parámetro c, que representa la probabilidad de acertar el ítem por azar, es decir la probabilidad de acertar el ítem sujetos con teta = - infinito, es decir sujetos sin aptitud o competencia adecuada, su fórmula es:
P (0) = c + [ e ^ D (0-b) / (1-c)+e^D(0-b) ]

Sigamos, al proceso de estimación de los parámetros de los modelos TRI se denomina calibración, y para ello se opta por el modelo de Rash de 1, 2 o 3 parámetros, se estiman los parámetros de cada ítem mediante procedimientos matemáticos complejos con herramientas informáticas como el LOGIST, o el propio R, determinando la correlación de valores simulados y estimados, el índice de los ajustes o la bondad de ajuste de las curvas CCI a los datos proporcionados por los sujetos.  Lo importante para nuestro tema en este curso a nivel teórico sería la fórmula de los residuos estandarizados:

RE = P (teta j) - Pe (teta j) / sqr [P (teta j) . Q (teta j) / n j]
Siendo n el número de sujetos en la categoría j y Q = (1-P)

Cuanto mayor sea RE peor es el ajuste de las curvas a los datos, rechazando los modelos qe superen un RE de 1,96. De esto no se va a preguntar nada en los exámenes. Hay un problema en el libro, en la página 79-80, solo mirarlo si queréis. 

Importante, porque esto si puede caer, aplicaciones de la TRI: 
  • Creación de bancos de ítems
    • Conjunto de ítems con propiedades métricas conocidas
      • De éstos se escogen aquellos relacionados con el rasgo que pretendamos medir
  • Diseño de tests adaptativos
    • Se adaptan al nivel de competencia del sujeto
      • Maximizamos la información que nos dan sobre el sujeto, minimizando el error
      • Consiguen la misma precisión que los no adaptativos con menor número de ítems

Y por hoy lo dejamos aquí, vamos con la PEC.  El otro día presentamos la PEC A, que vale dijimos el 75% del total de la PEC, que recordemos que es el 60% de la nota del trimestre. Dijimos que la PEC tenía 5 fases.

Comentarios

Entradas populares de este blog

TUTORIA MIES 20 MARZO 2025

TUTORÍA TÉCNICAS DE RECOGIDA DE INFORMACIÓN 24 OCTUBRE

TUTORIA MIES 12 FEBRERO 2026