TECNICAS DE RECOGIDA DE INFORMACIÓN 21 NOVIEMBRE

TEMA2TUTORIA14112024

TEMA2

Hemos visto del Tema 2 el concepto de fiabilidad como calidad métrica de los ítems hace dos semanas y la última semana estuvimos viendo la calidad métrica de las pruebas globales, mediante el recurso a los conceptos de fiabilidad y validez, recordemos que tenemos cuatro tipos de validez, que repasamos brevemente:

VALIDEZ DE CONTENIDO cuando tiene una longitud adecuada, y el conjunto de ítems recoge una muestra representativa y suficiente de las conductas que el constructo evalúa
VALIDEZ DE CONSTRUCTO que es consistente y replica el número de dimensiones o factores que tiene el constructo que se está midiendo. De alguna manera, permite ir a la raíz del problema, eso qué medimos, ¿qué es?. La cuantificación de esta validez requiere una acumulación progresiva de información que irá dando más consistencia a la construcción inicial, o por el contrario irá desechando el planteamiento presentado. La dimensionalidad hace referencia a el número de dimensiones o factores que mide un test, que habitualmente se halla sometiendo al test a un análisis factorial, cuanto menos dimensiones mida, más homogéneo es el test.
VALIDEZ APARENTE que indica que cualquier persona a la que se presente el test, diría que mide lo que decimos que mide, y se refiere a cuestiones de aspecto externo: legibilidad, claridad, instrucciones, manejo.
Y la más importante, que requiere cálculos matemáticos, y es la que vais a utilizar en la PEC, y la que utilizaréis en los problemas de la prueba de examen es la VALIDEZ CRITERIAL, es decir, las puntuaciones del test correlacionan con la puntuación en el rasgo que estamos midiendo que aporte un experto externo, que puede ser otro test, o la puntuación que un experto profesional otorgue, y que a su vez podemos que es PREDICTIVA (y la utilizamos como inferencia para predecir el éxito en el rasgo que estamos midiendo, midiendo el criterio después del test) o CONCURRENTE (las dos medidas del test y del criterio se toman simultáneamente). Y a su vez podemos hablar del índice de validez de un ítem cuando correlacionamos un ítem con un criterio, o del test, cuando correlacionamos la puntuación del test con un criterio, recordando la fórmula de la correlación de Pearson:

N Exy - Ex Ey
rqsr [[N Ex^2 - (Ex)^2] [N Ey^2 - (Ey)^2]]
Items
Sujetos 1 2 3 4 CriterioY Ex Ex^2 EY^2 Exy
A 1 0 1 1 4 3 9 16 12
B 0 1 1 0 2 2 4 4 4
C 0 1 1 1 4 3 9 16 12
D 1 0 0 0 1 1 1 1 1
11 9 23 37 29
4 29 - 9 11
rqsr [4.23 - 9^2] [4.37- 11^2]
116 - 99
rqsr [92 - 81] [148 - 121]
17 / rqsr 11 . 27
17 / rqsr 297
17 / 17,23
0,986

Podríamos perfectamente, hallar del mismo modo la calidad del ítem 1 con el criterio, tomando como X la puntuación del ítem 1 (1, 0, 0, 1) con su suma 2 y hallar la correlación de Pearson. ¿Vale?.

Al igual que decíamos en el tema anterior, que había una relación entre longitud y fiabilidad, en el sentido que un test es más fiable cuanto más largo es, y podíamos determinar como se modificaba la fiabilidad al incrementar el número de ítems, o cuántos ítems teníamos que añadir para mejorar la fiabilidad hasta el índice deseado, también tenemos una fórmula para relacionar la validez del test con su longitud:

Rxy = rxy . sqr n / sqr [1 + (n-1). rxx´]

n = 50/30 = 1,66
Rxy = 0,50 . sqr 1,66
_________________
sqr [1 + (1,66-1) . 0,8]
Rxy = 0,50 . 1,288
_______________
sqr [1 + 0,66 . 0,8]
Rxy = 0,644 / sqr [1 + 0,528] = 0,644 / sqr 1,528 = 0,644 / 1,236 = 0,521

Vamos a ver a continuación los tres últimos objetivos del Tema 2, que recordad que eran:

Diferenciar la TCT de la TRI
Calcular los parámetros de un ítem desde la TRI
Interpretar la información de los parámetros y características de un ítem desde la TRI

Ya comentamos que mientras la TCT los resultados de un sujeto en una prueba se comparan con una muestra de sujetos parecidos al que contesta, y los resultados se expresan en relación a esa muestra, la teoría de respuesta al ítem son independientes de la muestra, se compara al sujeto consigo mismo, intenta brindar una fundamentación probabilística al probllema de medir constructos latentes (no observables) y considera al ítem como unidad básica de medición, centrándose exclusivamente en el ítem, no como la TCT en la suma del sujeto a la ejecución de la prueba con el conjunto de ítems.

Mientras que la TCT se halla la calidad métrica de los ítems y del test una vez que el sujeto ha contestado, y recordemos que se basa en que la puntuación del test es igual a la puntuación verdadera más un componente de error X = V + e, la teoría de respuesta al ítem no necesita muestra, por lo que la calidad de los ítems se puede determinar previamente en función de un parámetro teórico que depende de un modelo y que llamamos aptitud, con una estimación no lineal como la TCT sino exponencial, comprobando el ajuste del modelo para una muestra grande, superior a los 300 sujetos.

La teoría de respuesta al ítem se basa en los postulados de que la respuesta al ítem está determinada exclusivamente por una variable denominada rasgo latente y se ajusta a modelos exclusivamente unidimensionales, y claro la probabilidad de responder adecuadamente a un ítem es independiente de la probabilidad de responder adecuada no inadecuadamente a otro ítem de la prueba. Es decir, el resultado de un sujeto en un test determinado, viene dado por la aptitud que mide el test, por el grado de aptitud que presenta el sujeto en un rasgo, que es latente, por lo que a medida que el sujeto incrementa su aptitud, mejora igualmente la probabilidad de que responda adecuadamente a ese ítem que está relacionado directamente con la aptitud que mide. La función que mide la probabilidad de responder a un ítem en función de la aptitud P (0) se llama función característica o curva característica del ítem (CCI) y es una función monótona creciente. Y nos vamos a centrar en la asignatura en los modelos donde la CCI obedece a una función logística, en concreto el modelo de Rasch de 1, 2 y 3 parámetros.

La curva en el eje de abscisas, de las Y, se representa la probabilidad de que el sujeto posea un rasgo latente determinado P (0) de 1,00 a 0,00 y en el eje de ordenadas (X), el rasgo latente de -4 a 4, aunque su dominio real es de -3 a 3, siendo de -4 a -3 y de 3 a 4 plana la respuesta, uniendo el punto 0,5 de abscisas al 0 de ordenadas. La función tiene forma de S.

La fórmula es P (0) = e ^ D (0-b) / 1+e^D(0-b) donde 0 es el nivel de habilidad del sujeto, b el índice de dificultad del ítem cuyo parámetro viene expresado en la misma escala que 0 y el valor de b se corresponde al valor de 0 para el cual P (0) = 0,5; e la base de los logaritmos neperianos, por definición 2,718 y la D es una constante, cuyo valor es 1,7. b si nos damos cuenta va a representarse en el punto donde se cruzan P (0) con 0, que es cero, por lo que b también será cero, por lo que sería un ítem con dificultad media. Si 0 = -1, la probabilidad de acertarlo sería de un 10%, mientras que si 0 = 2 la probabilidad de acertarlo, subimos en abscisas y nos da un 90%.

P (-1) = e ^ 1,7 (-1-0) / 1+e^-1,7
P (-1) = e ^-1,7 / 1+e^-1,7
En la calculadora e^x -1,7 = 0,18
P (0) = e^1,7 (0-0) / 1+e^1,7.0
P (0) = e^0 / 1+e^0
P (0) 1 / 1+1
P(0) 1 / 2 = 0,5
P (2) = e^1,7 (2-0) / 1+e^3,4
P (2) = e^3,4 / 1+e^3,4
P (2) = 29,96 / 30,96 = 0,96

La curva superior más plana correspondiente al ítem 1 es más fácil que el ítem 2. El b del ítem 1 es -1 y el b del ítem 2 es 1.

El modelo de Rasch de 2 parámetros añade el parámetro a, que indica la mayor o menor inclinación de la CCI cuando teta = b, los valores de a van de 0,3 a 2,5 y se consideran discriminativos los superiores a 1. La fórmula es P (0) = e ^ D.a (0-b) / 1+e^D.a(0-b). Cuanto mayor sea la a, más pendiente tiene la CCI.

Y el modelo de Rasch de 3 parámetros añade el parámetro c, que representa la probabilidad de acertar el ítem por azar, es decir la probabilidad de acertar el ítem sujetos con teta = - infinito, es decir sujetos sin aptitud o competencia adecuada, su fórmula es:

P (0) = c + [ e ^ D (0-b) / (1-c)+e^D(0-b) ]

Sigamos, al proceso de estimación de los parámetros de los modelos TRI se denomina calibración, y para ello se opta por el modelo de Rash de 1, 2 o 3 parámetros, se estiman los parámetros de cada ítem mediante procedimientos matemáticos complejos con herramientas informáticas como el LOGIST, o el propio R, determinando la correlación de valores simulados y estimados, el índice de los ajustes o la bondad de ajuste de las curvas CCI a los datos proporcionados por los sujetos. Lo importante para nuestro tema en este curso a nivel teórico sería la fórmula de los residuos estandarizados:

RE = P (teta j) - Pe (teta j) / sqr [P (teta j) . Q (teta j) / n j]

Siendo n el número de sujetos en la categoría j y Q = (1-P)

Cuanto mayor sea RE peor es el ajuste de las curvas a los datos, rechazando los modelos qe superen un RE de 1,96. De esto no se va a preguntar nada en los exámenes. Hay un problema en el libro, en la página 79-80, solo mirarlo si queréis.

Importante, porque esto si puede caer, aplicaciones de la TRI:

Creación de bancos de ítems

Conjunto de ítems con propiedades métricas conocidas

De éstos se escogen aquellos relacionados con el rasgo que pretendamos medir

Diseño de tests adaptativos

Se adaptan al nivel de competencia del sujeto

Maximizamos la información que nos dan sobre el sujeto, minimizando el error
Consiguen la misma precisión que los no adaptativos con menor número de ítems

A continuación vamos con el Tema 4, el tema 3 recordad que era sobre observación y lo vimos en la segunda tutoría. En el tema 4 nos marcamos cuatro objetivos bien definidos, que como vais a comprobar tienen relación muy directa con los objetivos de la PEC que tenéis que elaborar:

Aprender el significado de tests y pruebas objetivas
Conocer las etapas de construcción y aplicación de tests o pruebas objetivas
Conocer estrategias para construir buenos ítems
Saber construir tests y pruebas objetivas en el contexto educativo

Empezando por el principio, y aquí se ha suscitado en más de una ocasión, por la cuestión de la PEC, que piden una prueba objetiva, en muchos casos por economía semántica hablamos de tests o pruebas objetivas, pero no es lo mismo, un test es un instrumento destinado a medir comportamientos inteligentes, aptitudes, habilidades o competencias específicas vinculadas a un área concreta del funcionamiento competencial del sujeto. En este sentido representan una medida objetiva, contienen una muestra representativa del rasgo o constructo a medir, se responde siguiendo las instrucciones prefijadas por el autor del test y permite obtener un valor que sitúa al sujeto en un determinado lugar respecto a un grupo de referencias o a un criterio externo.

En este sentido tenemos tests de aptitudes intelectuales generales diferenciales o especiales como la habilidad psicomotriz o destreza manual, de personalidad, autoconcepto, cuestionarios de intereses, valores, tests sociométricos o tests proyectivos. Y los tests como tal son seguros y precisos, recordad que la precisión está ligada como calidad métrica al concepto de fiabilidad, son validos en el sentido que reunen una muestra de la conducta que queremos medir lo cual se identifca con un tipo de validez estudiada, la de contenido, y remiten a la necesidad de una baremación, es decir la obtención con una muestra significativa de sujetos, de puntuaciones en torno a la media, a los sujetos más competentes que se situarán estadísticamente en un percentil más alto, y a los sujetos menos competentes que se situarán en un percentil más bajo. El procedimiento para obtener dichos percentiles y ubicar la muestra con la que se compararán los sujetos que contesten el test se denomina baremación. Y por último los tests se utilizan en función de otro tipo de validez que hemos estudiado, de criterio, para predecir que la puntuación del test nos permite obtener una valoración de las posibilidades de éxito o fracaso frente al criterio externo que queremos o pretendemos medir, que también está relacionado con el concepto de validez predictiva.

Por lo tanto los tests son útiles para:

Clasificar a los sujetos y grupos en diversas categorías, por ejemplo si pasamos un test a un grupo de alumnos concreto podemos identificar aquellos que superan un determinado nivel, por ejemplo identificamos en un centro educativo a aquellos alumnos que superan un CI de 120 para aplicarles un programa de excelencia educativa.
Analizar diferencias intragrupos, intergrupos, interindividuales o intraindividuales, cuando pasamos una batería de tests en un centro educativo, es muy común en centros privados en que al final de pasar una batería de tests intelectuales y de personalidad. Por ejemplo en la página web del colegio Arcangel Rafael, de Madrid, podemos ver que aplican a los sujetos pruebas de inteligencia general (para valorar el razonamiento lógico, la capacidad de abstracción, la resolución de problemas y la capacidad de aprendizaje), personalidad (para determinar intereses, valores, actitudes, motivación y estilo de aprendizaje), elaboran un informe psicopedagógico con fortalezas, debilidades y necesidades del alumnado), normalmente se comparan los resultados sobre todo intelectuales con respecto al grupo clase y al baremo de sujetos de su edad, y eso les gusta a la familia en el caso de que el alumno sobresalga. Posteriormente los datos que obtiene el sujeto se van almacenando para ir comparando en sucesivas administraciones de pruebas, que pueden pasarse al menos dos veces en cada etapa, al principio y final, y se ve la evolución del propio alumno a lo largo del tiempo. También se facilitan los datos a los tutores para ajustar la respuesta educativa. Realmente, ¿tiene mucho interés esta práctica?, de cara a las familias es muy vistosa, y sobre todo con el alumnado más competente permite que la familia se sienta orgullosa del propio hijo/a e incluso del centro, el propio centro dice que este tipo de herramientas le sirve para comprender mejor al alumno y su funcionamiento, para la detección temprana de dificultades, para orientarle tanto académica como profesionalmente, para fortalecer su autoestima, y mejora sensiblemente la comunicación familia - escuela, pero más allá, desde un modelo inclusivo, no tiene más sentido, la competencia se demuestra en la capacidad de solucionar problemas en un contexto real, y lo importante, no es vender expectativas creadas, sino que el alumno o alumna alcance las competencias específicas vinculadas a una determinada materia académica, y progrese a lo largo del sistema educativo en función de sus intereses y motivaciones. Es decir, un alumno puede ser muy inteligente, pero no saber resolver tareas de aprendizaje en un determinado área, que requieren poner en práctica estrategias, habilidades y conocimientos adquiridos en el aula mediante el trabajo individual y en equipo, fuera del aula en actividades complementarias, en el contexto familiar y en el contexto social.

De tal manera que en vuestro gabinete psicopedagógico para un estudio psicopedagógico completo debemos valorar aspectos cognitivos capacidades y procesos, estilo de aprendizaje, creatividad, dificultades específicas en lectura y escritura que son la base de las distintas dificultades de aprendizaje, aspectos emocionales y salud mental, entendiendo que éste último apartado incluso sería adecuado realizarlo en cooperación con un clínico.
En inteligencia yo propondría el K-BIT que es un test breve de inteligencia cuyo autor es Kauffman y nos sirve de screaning a través de identificación de figuras, definiciones a las que le falta algunas letras y matrices progresivas https://cotoga.es/wp-content/uploads/2021/08/test-k-bit-pearson.pdf, el test de matrices progresivas de Raven http://www.avlisad.com.ar/test/, que evalúa razonamiento analógico, percepción y capacidad de abstracción, las escalas Wechsler en función de la edad de los sujetos evaluados, en DN-CAS una batería dirigida a evaluar cuatro procesos cognitivos: planificación (emparejamiento de números, planificación de códigos y conexiones), procesamiento simultáneo (matrices no verbales, relaciones espacioverbales y memoria de figuras), atención (expresiva, receptiva y búsqueda de números) y procesamiento sucesivo (series de palabras, repetición de frases, velocidad de habla y preguntas sobre frases), esta prueba nos permite determinar si el procesamiento emocional condiciona los procesos cognitivos, determinando la causa de algunas de las dificultades de aprendizaje más comunes, suele utilizarse con niños con TDAH y permite orientar la respuesta educativa. Y el test de Bender que consiste en que el niño copie 9 figuras geométricas, pudiendo estimar si se aparta del modelo posibles problemas neurológicos.
En cuanto al estilo de aprendizaje puede valorarse por el test de cambios, caras revisado, figura compleja de Rey, el cuestionario de 80 preguntas CHAEA, y el test de 16 preguntas de VARK.
En cuanto a creativividad, el test de Guilford sería la elección.
Para valorar las dificultades en lectura y escritura el PROLEC, PROEC y TALE.
Para aspectos emocionales el test de frases incompletas de Rotter, el test de casa arbol y persona, el test de la familia, o el test de dibujo de un animal y un relato sobre el mismo.
Y para salud mental el CDS de depresión, el STAIC de ansiedad, el EPQ-J o el HSPQ de personalidad.
Aquí tenéis una página de una empresa editorial, la más conocida, que se llama TEA, con sus pruebas habituales https://web.teaediciones.com/Catalogo.aspx, podéis ver el ATENTO un cuestionario para evaluar funciones ejecutivas y TDAH, el RCFT o test de la figura compleja de Rey, el NEO-PI-3 que es un inventario de personalidad que evalúa neuroticismo extraversión apertura amabilidad y responsabilidad, el DSM-V-TR que es el manual de diagnóstico psiquiátrico por excelencia.
Posteriormente han surgido otras empresas que van siendo novedosas y gran aceptación, como Pearson https://www.pearsonclinical.es/tests, que actualmente comercializa el BSI-18 de distrés psicológico, las escalas Wechsler de inteligencia, el Raven, las escalas McCarthy para evaluar inteligencia en niños sin lenguaje, o el K-BIT de Kauffman.

Verificar hipótesis, cuando utilizamos un test en investigación, y decimos "Los sujetos que saquen altas puntuaciones en el WISC son más proclives a entender las emociones de iguales y adultos en su contexto habitual".
Predecir comportamientos, si utilizamos por ejemplo, esta herramienta https://www.thomas.co/es-LA/evaluaciones/pruebas-de-personalidad-en-el-entorno-de-trabajo nos permite identificar en un colectivo empresarial aquellos trabajadores con más automotivación, iniciativa y cómo soportan la presión y el riesgo los trabajadores de una compañía.
Seleccionar individuos o grupos, una vuelta a lo mismo, sirven para seleccionar de un conjunto aquellos individuos que superan un determinado nivel o que no lo superan en el caso negativo para someterles a un programa determinado.

En cambio, una prueba objetiva es un instrumento destinado a medir conocimientos o conceptos, también procedimientos o actitudes. Tiene en común con los tests el área de las competencias, para medir competencias específicas podemos medirlas a través de un test o una prueba objetiva. Hay pruebas de rendimiento en un área curricular.

Y para elaborar una prueba que mida conocimientos, o para elaborar un test nos ceñimos a los mismos pasos:

Primero, identificar claramente que queremos medir, el constructo en el caso de los tests, o los conocimientos que queremos evaluar con la prueba, y por qué nos parece útil diseñar una prueba. Eso se hace buscando en la bibliografía, valorando artículos científicos en revistas de los cinco últimos años, y para eso podemos buscar en una Base de Datos, por ejemplo ERIC, las Universidades suelen tener convenio con esta base de datos, yo suelo utilizar el enlace de la Universidad Oberta de Catalunya: https://biblioteca.uoc.edu:8080/es/Coleccion-digital-por-areas-de-estudio/coleccion/ERIC-Educational-Resources-Information-Center/, y obtenemos la siguiente información si ponemos comprensión lectora Primaria España:

https://www.psicothema.com/pdf/4100.pdf, en este estudio por ejemplo consiste en un Estudio predictivo de la comprensión lectora en estudiantes españoles
de tercero de Primaria. Antecedentes: el estudio de la contribución de habilidades lingüísticas y cognitivas a la comprensión lectora es un objetivo relevante de la investigación actual de la lectura. Sin embargo, la
comprensión lectora no es fácilmente explicada ni medida por una única prueba ya que los diferentes test de comprensión varían en el tipo de tareas utilizadas y en las demandas cognitivas requeridas. Método: el presente estudio examina la contribución de habilidades lingüísticas y cognitivas (decodificación, reconocimiento de palabras, velocidad lectora, inteligencia verbal y no verbal y memoria de trabajo) a la comprensión lectora, evaluada por dos test que utilizan diferentes tareas y requieren diferentes habilidades. Resultados: la medida de velocidad en pseudopalabras predijo la comprensión evaluada por el test PROLEC-R. Sin embargo, la medida de reconocimiento de palabras (la tarea de elección ortográfica) y la medida de memoria de trabajo verbal predijeron la comprensión medida por el test DARC. Conclusiones: estos resultados muestran, por un lado, que la velocidad lectora y el reconocimiento de palabras son mejores predictores de la comprensión en español que la precisión lectora, y por el otro, que el test de comprensión lectora utilizado es una variable crítica cuando analizamos e interpretamos resultados sobre este tema.
Respecto al PROLEC es una batería que se ha convertido en el referente más importante para la evaluación de la lectura en español. Basada en el modelo cognitivo, se centra en los procesos que intervienen en la comprensión del material escrito: Identificación de letras, Reconocimiento de palabras, Procesos sintácticos y Procesos semánticos. La batería está compuesta por nueve tareas: Nombre o sonido de las letras, Igual-Diferente, Lectura de palabras, Lectura de pseudopalabras, Estructuras gramaticales, Signos de puntuación, Comprensión de oraciones, Comprensión de textos y Comprensión oral. Se pueden ver sus características aquí: https://web.teaediciones.com/PROLEC-R-Bateria-de-Evaluacion-de-los-Procesos-Lectores--Revisad.aspx, y aquí se puede ver el ejemplo del cuadernillo: https://es.slideshare.net/slideshow/350980354-cuadernillo-de-aplicacion-prolec-r-docx/272174969

Segundo: Habría que definir la población a la que se aplicará la prueba, población diana, población escolar, población trabajadora, público en general, teniendo en cuenta que cuanto más amplio sea el espectro, más muestra tendremos que coger para baremarla, pues la variabilidad de intereses, motivaciones, rasgos de personalidad y aptitudes intelectuales se diversifican.
En tercer lugar, habría que elaborar una tabla de especificaciones que sirva para muestrear conductas que formarán parte de la prueba, y este apartado es fundamental, dicha tabla atendiendo a los contenidos que formen parte de la entidad gnoscitiva que queramos medir, tanto conceptuales, procedimentales como actitudinales, que irán en cada columna, y las filas estáran destinadas a las operaciones cognitivas que subyacen al campo que queramos medir, que son seis: conocimiento o recuerdo, comprensión, aplicación, análisis, evaluación o sintetizar y composición, elementos extraídos de la taxonomía de Bloom

Cultura cientif ... Tecnolog y digitaliz ... Socied y territ
Identif, reconoc y reproducc inf
Interpretac información
Producción informac

Cultura científica (iniciac activ científica, vida en planeta, materia fuerzas y egía)
Tecnología y digitalización (entorno personal aprendizaje, diseño y pensam computac)
Sociedades y territorio (retos, sociedades tiempo, alfabetizac cívica, conciencia ecosocial)
CUADRO

Título ítem
Competencia a evaluar
Contenido
Opciones A, B, C, D y justificación distractores
Grado dificultad
Nombre redactor
Observaciones

Pasaríamos a elaborar un banco de ítems para luego seleccionar los más adecuados, teniendo en cuenta los criterios de elaboración de los ítems. Hay que establecer el formato de los ítems, y el número de ítems, teniendo en cuenta la tabla de especificación anterior.

En cuanto al formato de los ítems tenemos de respuesta cerrada o abierta. De los de respuesta cerrada, más fáciles para luego corregir porque directamente la elección del sujeto la asignamos a un número tenemos de emparejamiento entre columnas o relación, de elección múltiple o elección binaria, es decir V ó F. De los de respuesta abierta, tenemos ítems de respuesta corta o de rellenar huecos en una frase pudiendo dar las alternativas o no, o respuesta extensa que puede ser a su vez de describir, comparar, reflexionar, sintetizar, o desarrollar estrategias de resolución de conflictos. HAY QUE DEFINIR EL TIPO DE PRUEBA, EN LA PEC PRUEBA OBJETIVA COMPUESTA POR ÍTEMS DE ELECCIÓN MÚLTIPLE, CON AL MENOS TRES ALTERNATIVAS DE RESPUESTA, DE LAS QUE SÓLO UNA DEBE DE SER CORRECTA.
No podemos decir que sean mejores las pruebas tipo test que las preguntas abiertas, cierto es que las pruebas tipo test son igual para todos, mientras que las preguntas abiertas permiten enmascarar el desconocimiento por una mejor habilidad redactora y hay más divergencia entre evaluadores a la hora de corregir. Igualmente con preguntas abiertas por la limitación del tiempo sólo se pueden preguntar unas pocas cosas, mientras que una prueba objetiva tipo test bien construida puede incluir preguntas relacionadas con todas las operaciones cognitivas de Bloom.
Respecto a la longitud de la prueba hay que tener en cuenta la tabla de especificaciones, y al menos incluir dos ítems por celda y teniendo en cuenta que podemos dar algo más de un minuto por ítem para su contestación, 1 m 25 segundos.
Respecto a los ítems, si tenemos en cuenta que tiene que evaluar conocimientos, la mayor parte de ítems tiene que dirigirse a que los sujetos de la población que va destinada con un conocimiento medio respondan adecuadamente la mayor parte de la prueba, y que sólo los más aptos o competentes resuelvan los ítems más complicados, al igual que sólo unos pocos, que serían los claramente faltos de competencia no sean capaces de resolver la mayor parte de los ítems. De esta manera podemos decir que el 40% de los ítems deben ser de aquellos que cuando hablamos de la calidad métrica de los ítems consideramos normales, y cuyo índice de dificultad vaya de 0,45 a 0,54. Debemos contemplar un 20% de ítems difíciles y otro 20% de ítems fáciles, cuyos índices de dificultad vayan de 0,25 a 0,44 y de 0,55 a 0,74, y por último un 10% de ítems muy difíciles cuyo índice de dificultad sea menor de 0,24, y un 10% de ítems muy fáciles, cuyo índice de dificultad sea superior al 0,75. EN LA PEC OS PIDEN AL MENOS 10 ÍTEMS, UNO POR CELDA DE LA TABLA DE ESPECIFICACIÓN.
Para construir ítems debemos reunir a expertos en la materia, y que conozcan la población sobre la que vamos a aplicar la prueba, de tal manera que los expertos aconsejan diseñar tres veces más items que los necesarios para la prueba, cuando menos un 25% más, y tener en cuenta una serie de reglas prácticas:
Es adecuado controlar los siguientes sesgos en la confección de ítems

Los ítems deben redactarse con un lenguaje claro y sencillo, evitando tecnicismos
Hay que evitar las negaciones en el enunciado, el NO en el enunciado, porque las frases negativas se entienden peor
Las preguntas deben ser concretas para encontrar respuestas concretas
Sólo debe expresar una única idea por ítem
No incorporal términos morales o juicios de valor
Evitar respuestas todas las anteriores son ciertas, o ninguna de las anteriores es cierta
Controlar la posición de la opción correcta
No dar pistas sobre la opción correcta
Controlar los sesgos relacionados

Con la deseabilidad o aceptación social
Hay sujetos que siempre están de acuerdo o en desacuerdo con las expresiones (aquiescencia)
O la tendencia a responder con la opción más extrema

Las instrucciones deben facilitar la comprensión de la mecánica para evitar que no se produzcan errores por falta de comprensión de las mismas, que el sujeto no sepa qué hacer o cómo contestar. Si es necesario, se puede ejemplificar con un ejemplo concreto, o con una imagen. Las instrucciones evidentemente no pueden ser iguales si se administra presencialmente, que por web o por correo electrónico.
En el formato de presentación hay que tener en cuenta el orden de presentación de los ítems, ya que puede influir en la ejecución de la misma, en el éxito o fracaso de la prueba, no es lo mismo encontrarse con ítems más fáciles e ir contestando gracias a encontrarse competente, que encontrarse con un ítems con ítems más difíciles y con la fatiga del fracaso no acertar en las respuestas. Al inicio de la prueba debe facilitarse la colaboración de los sujetos evaluados, e informar sobre el objetivo de la prueba, habitualmente se ordenan en orden de dificultad, la ordenación se refiere a la lógica conceptual y temática, hay que evitar si se incluyen imágenes que tengan poca resolución o estén deslocalizadas, deben estar junto al ítem para no perder tiempo en localizarlas, los datos sociodemográficos hay autores que recomiendan situarlos al final, aunque mayoritariamente se colocan al principio, e insistimos al principio en que se cumplimenten.
El sistema de registro suele contestarse en una hoja aparte, aunque también hay que hacer algunos ejemplos para comprender cómo se cumplimenta, en los sujetos más pequeños puede ocasionar alguna dificultad.
Tenemos que pensar que la prueba se puede aplicar de forma individual o colectiva, escrita o en formato electrónico a través de correo electrónico o web, también pueden cumplimentarse telefónicamente. También se pueden utilizar situaciones de simulación, en que pretendemos evaluar la respuesta del sujeto en una situación de conflicto simulado.
Para la puntuación de la prueba, se identifica la respuesta del sujeto con un número, el 1 suele asignarse a la respuesta correcta y el 0 a la respuesta errónea. Una vez corregida la prueba, se obtiene la puntuación de la misma, cuando la prueba objetiva es una prueba de contenido con ítems de elección múltiple, se utiliza una fórmula para corregir el efecto de que los sujetos contesten al azar, añadiendo un factor de corrección: X = A - [E/(k-1)]
Por otra parte, hay pruebas que evalúan la velocidad en que el sujeto responde a un estímulo o ítem, en pruebas que evalúan atención, y otras que evalúan potencia o dificultad de los ítems, especialmente en pruebas que evaúan conocimiento.
La interpretación de los resultados de la prueba, una vez obtenida la puntuación de una prueba, se compara con un grupo normativo o un criterio externo. En el tema 4 se estudia la interpretación normativa, y se utilizan tres expresiones:

Puntuaciones cronológicas, relación entre la EM / EC
Puntuaciones centiles, % que está por debajo de la puntuación del individuo
Puntuaciones típicas, traduciendo la puntuación directa del sujeto en una puntuación típica, en función de la media y desviación típica

Luego pasaríamos la prueba en plan piloto a una pequeña muestra para comprobar su funcionamiento. EN LA PEC OS PIDEN DEFINIR EL TIEMPO DE APLICACIÓN, EL SOPORTE, TIPO INDIVIDUAL O COLECTIVA, MUESTRA AL MENOS 20 SUJETOS

It 1 It 2 ... It 10
Sj1
Sj2
...
Sj20

Pasaríamos tras corregir la prueba, a administrarla a una muestra significativa
Analizaríamos los datos para determinar la calidad métrica de los ítems, la fiabilidad de la prueba, la validez de la misma, y su baremación

En la PEC se pide

PUNTUACIÓN TOTAL CADA SUJETO EN LA PRUEBA, SUMA ACIERTOS SIN APLICAR LA FÓRMULA DEL ERROR
INDICE DIFICULTAD CADA ÍTEM APLICANDO CORRECCIÓN EFECTO AZAR Y GRÁFICA EVOLUCIÓN ÍNDICE DIFICULTAD

ID = [A - E / n-1] / N
¿DOS ÍTEMS MÁS FÁCILES?
¿DOS ÍTEMS MÁS DIFÍCILES?
¿PROMEDIO?
PRUEBA GLOBAL DIFICULTAD ALTA MEDIA O BAJA
¿ÍTEMS DIFICULTAD CRECIENTE?

COGER UN ÍTEM DIFICULTAD MEDIA

ÍNDICE DISCRIMINACIÓN

0,27 x 20 = 5,4 = 5

Amejorpuntac/5 - Amejorpuntuac/5

ÍNDICE HOMOGENEIDAD CORRELACIÓN ÍTEM - TOTAL EXCLUYENDO ÍTEM

[N Exy - ExEy] / V [[N Ex^2 - (Ex)^2] [N Ey^2 - (Ey)^2]]

El ítem discrimina muy bien > 0,4
El ítem discrimina bien 0,3 - 0,39
El ítem discrimina poco 0,2 - 0,29
El ítem límite (se debe mejorar) 0,10 - 0,19
El ítem carece de utilidad < 0,10

ANÁLISIS DISTRACTORES JI CUADRADO

Media elección distractores
X^2 = E [(fe-fo)^2] / fe

¿CALIDAD ÍTEM?
¿MANTENIMIENTO ÍTEM EN PRÓXIMAS REVISIONES?

PRUEBA GLOBAL

FIABILIDAD COMO CONSISTENCIA INTERNA MEDIANTE ALFA CRONBACH O PROCEDIMIENTO DOS MITADES

alfa = n/n-1 [1- ES^2j/S^2x]
[N Exy - ExEy] / V [[N Ex^2 - (Ex)^2] [N Ey^2 - (Ey)^2]]
VALORACIÓN FIABILIDAD Y CÓMO INCREMENTARLA

ELECCIÓN CRITERIO EXTERNO, AÑADIENDO COLUMNA A MATRIZ CON PUNTUACIÓN EN CRITERIO
VALIDEZ CRITERIAL

[N Exy - ExEy] / V [[N Ex^2 - (Ex)^2] [N Ey^2 - (Ey)^2]]

BAREMAR PRUEBA EN PERCENTILES

i = 20/100 x 12, el número i de las puntuaciones ordenadas
Nº SUJETOS POR DEBAJO PC 20
Nº SUJETOS POR ENCIMA PC 80

¿PUNTOS FUERTES?
¿PUNTOS DÉBILES?
¿POSIBILIDAD MEJORA?

Y elaboraríamos con todo el material obtenido el Manual de la prueba

VALORACIÓN QUÉ HAS APRENDIDO, COMPETENCIAS ADQUIRIDAS

Vamos a ver algunos problemas relacionados con este tema, primer problema, un profesor tiene los resultados de una prueba objetiva que realiza a sus estudiantes y sabe que Sara ha obtenido 20 puntos, pero los padres de la niña quieren saber la calificación de la misma en relación a un grupo normativo cuyas puntuaciones se han obtenido a nivel nacional, la media de dicho grupo es 22,4 y la desviación típica 4,2. Nos piden calcular e interpretar la puntuación típica de Sara.

Xi = 20 Media = 22,4 Sd = 4,2

Zi = (Xi - Media) / Sd = (20-22,4) / 4,2 = - 0,57

Vamos a la tabla y vemos donde convergen el 0,5 en filas y el 0,07 en columnas y sale 0,7157 en negativo, luego el percentil donde está Sara sería 1-0,7157 = 0,2843, es decir el 28%. P (Z<= 0,57) = 0,7157

Ahora nos piden transformar la puntuación de la escala Z (0,1), a la escala normal (50, 10), que se llama escala T, que es la más común, luego la fórmula sería t = 50 + 10 . z = 50 + 10 . (-0,57) = 50 - 5,7 = 44,28, o 44 simplemente, porque estas escalas tienen el objetivo de simplificar, y eso se hace eliminando los decimales. En el formulario teneís la escala D, pero eso no os lo van a preguntar.

Y por último nos preguntan, ¿sobre qué puntuación tendría el estudiante peor valoración en la escala nacional?, Pues en la z que arroja valores negativos.

Siguiente problema, un test de inteligencia general tiene una media de 20 y una desviación típica de 5, una persona que haya tenido una puntuación de 30, hay una errata en el texto, no es 10 sino 30, ¿cuál será su puntuación típica?, pues como antes (30 - 20) / 5 = 10/5 = 2, de todas formas si fuera 10 sería -2 la puntuación típica.

Ahora nos piden interpretar la puntuación en términos de probabilidad, si vamos a la tabla buscamos 2,00 en las filas, y nos sale una p junto a la columna 0 de 0,9772, ya sabéis que si hubiera que pasarlo a centiles sería 97,72%, o 98%. Pero en términos de probabilidad, ¿qué quiere decir?, pues que P (Z <= 2) = 0,9772, y si fuera 10 sería 1 - 0,9772 = 0,0228, es decir Pc 2. Ya sabéis que R no entra.

Hay otro problema que tampoco tiene más enjundia, se aplica un test A formado por 10 ítems a una muestra de 400 sujetos, obteniéndose una media de 20 puntos y una desviación típica de 6. Una forma paralela de ese mismo test (test B) se aplicó a la misma muestra de sujetos. Las correlaciones entre las puntuaciones en el test A y en el test B fue de 0,80. Sabiendo que la distribución de ambos test se distribuye normalmente, calcule el centil que le corresponde a un sujeto que obtiene una puntuación de 16 en el test A.

Buscar este blog

TUTORIAS UNED 2020

TECNICAS DE RECOGIDA DE INFORMACIÓN 21 NOVIEMBRE

Comentarios

Publicar un comentario

Entradas populares de este blog

TUTORÍA TÉCNICAS DE RECOGIDA DE INFORMACIÓN 24 OCTUBRE

TUTORÍA TÉCNICAS DE RECOGIDA INFORMACIÓN 12 DICIEMBRE

TUTORIA TÉCNICAS DE RECOGIDA 9 DE ENERO 2025