Tema 5: Estadísticos univariables: medidas resumen para variables cuantitativas
Resumen numérico de una serie estadística
Además de las tablas, podemos resumir una serie de observaciones mediante “estadísticos”: es lo
que llamamos “Función de los datos observados”
Hay tres grandes tipos de medidas estadísticas:
- Medidas de tendencia central: dan idea de los valores alrededor de los cuales el resto de los datos tienen tendencia a agruparse.
- Medidas de dispersión o variabilidad: dan información acerca de la heterogeneidad u homogeneidad de nuestras observaciones.
- Medidas de posición: dividen un conjunto ordenado de datos e grupos con la misma cantidad de individuos, es decir, ordenamos de menor a mayor.
Medidas de tendencia central
- Media aritmética o media (x):
- Se calcula para variables cuantitativas y se trata del centro geométrico o de gravedad de nuestros datos. Es la suma de todos los valores de la variable observada entre el total de observaciones.
- Cuando los datos son agrupados, para calcular la media utilizamos como valor de referencia de cada intervalo su marca de clase.
- Mediana:
- Es el valor de la observación tal que un 50% de los datos es menor y otro 50% es mayor.
- Si el número de observaciones es impar, el valor de la observación será justamente la observación que ocupa la posición (n/2) +1
- Si n es par, el valor de la mediana corresponde a la media entre los dos valores centrales, es decir, la media entre la observación n/2 y la observación (n/2) +1. Hay que hacer la media entre el niño 20 y el 21.
- Propiedad: robustez. Sólo tiene en cuenta la posición de los valores en la muestra y por tanto tiene mucho mejor comportamiento que la media cuando hay observaciones extremas.
- Moda:
- Es el valor con mayor frecuencia (que más veces se repite).
- Si hay más de una, se dice que la muestra es bimodal (dos modas) o multimodal (más de dos).
- Se puede calcular para cualquier tipo de variable (cualitativa y cuantitativa).
- Si los datos están agrupados, se habla de clase modal y corresponde al intervalo en el que el cociente entre la frecuencia relativa y la amplitud es mayor (hi/ci), cuando el cociente es mayor, ese intervalo es el modal.
Medidas de posición
Hablamos de variables numéricas.
- Cuantil: es la medida más general. Para variables continuas.
- Se calculan para variables cuantitativas y, al igual que la mediana, sólo tiene en cuenta la posición de los valores en la muestra.
- Los cuantiles más usuales son los percentiles, los deciles y los cuartiles, según dividan la muestra ordenada en 100, 10 ó 4 partes, respectivamente. Un percentil 25 sería por ejemplo la altura que deja al 75% por arriba de él y al 25% por debajo de él. El percentil 5 sería el que deja a un 5% de los sujetos por debajo y al 95% por encima, por lo tanto, ese hombre sería bajito puesto que está en la posición número 5 ordenados de menor a mayor.
- Percentil: dividen la muestra ordenada en 100 partes. El percentil “i” (PI), es aquél valor que, ordenadas las observaciones en forma crecente, el i% de ellas son menores que él y el (100-i) % restante son mayores. Para buscar la posición de un percentil en una serie de datos agrupados, buscamos el intervalo en el que la frecuencia relativa acumulada sea superior al valor del percentil. El valor del percentil 50 es igual que la mediana. En la tabla de consulta del niño sano: el percentil 30 estaría en el intervalo [4,25,4,75) puesto que en la frecuencia relativa acumulada ese intervalo es el primero que pasa el 30% o 0,3.
- Deciles: dividen la muestra en 10 partes. El decil “i”, es aquél valor que, ordenadas las observaciones en forma creciente, el i/10% de ellas son menores que él y el (100- i) /10% restante son mayores. El valor del decil 5 corresponde al valor de la mediana y, por tanto, al del percentil 50.
- Cuartiles: dividen la muestra ordenada en 4 partes. El primer cuartil (Q1) indica el valor que ocupa una posición en la serie numérica de forma que el 25% de las observaciones son menores y que el 75% son mayores. El Q2, segundo cuartil, indica el valor que ocupa una posición en la serie numérica de forma que el 50% de las observaciones son menores y el 50% son mayores. Por tanto, el Q2 coincide con elvalor del decil 5, con el valor de la mediana de percentil 50. El Q3, tercer cuartil indica el valor que ocupa una posición en la serie numérica de forma que que el 75% de las observaciones son menores y que el 25% son mayores. El Q4, cuarto cuartil indica el valor mayor que se alcanza en la seria numérica.
Medidas de dispersión
Se llaman también medidas de variabilidad.
- Calculamos medidas de dispersión porque la información aportada por las medidas de tendencia central es limitada. Homogeneidad: los valores están más concentrados. Por esto se utilizan unas medidas que informen sobre la dispersión o variabilidad, hay que acompañarlas siempre de las medidas de tendencia central.
- Rango o recorrido: primera medida de dispersión. Es la diferencia entre el valor mayor y el menor de la muestra.
- Desviación media: media aritmética de las distancias de cada observación con respecto a la media de la muestra. No se utiliza mucho.
- Desviación típica o estándar: Se prefiere ésta a la media. Cuantifica el error que cometemos si representamos una muestra únicamente por su media (el parámetro en la población se representa por ơ). Expresa lo mismo que la desviación media. Para las muestras se representa con una s. Contempla una serie de ajustes en la fórmula que permite estandarizar los datos y conocer el error que cometemos. Nunca puede ser superior a la media.
- Varianza: es el cuadrado de la desviación típica. Expresa la misma información en valores cuadráticos. La fórmula es la misma que la desviación típica, pero sin raíz.
- Recorrido intercuartílico: diferencia entre el tercer y el primer cuartil = |Q3-Q1|. Diferencia entre el que ocupa el lugar 75-25.
- Coeficiente de variación: es una medida de dispersión relativa (adimensional) ya que todas las demás se expresan en la unidad de medida de la variable. Nos sirve para comparar la heterogeneidad de dos series numéricas con independencia de las unidades de medidas. Adopta valores entre 0 y 1.
Distribuciones normales
- En estadística se llama distribución normal, distribución de Gauss o distribución gaussiana, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales.
- La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto de los valores de posición central (media, mediana y moda, que coinciden en estas distribuciones).
- Esta curva se conoce como la campana de Gauss.
Asimetrías y curtosis
Cuando la parte baja está hacia la izquierda es asimetría hacia la izquierda, cuando la parte baja está a la derecha es asimetría hacia la derecha.
En la asimétrica hacia la izquierda, aparece primero la meda, luego la mediana y luego la moda (que siempre coincide con el punto más alto ya que es el valor más frecuente) primero viene la media y luego la mediana.
En la asimetría hacia la derecha, aparece primero la mediana y luego la media. En la simétrica coinciden media, mediana y moda.
Coeficiente de asimetría de una variable: grado de asimetría de la distribución de sus datos en torno a su media. Es adimensional y adopta valores entre -1 y 1.
Los resultados pueden ser los siguientes:
- Si el grado de asimetría es 0 (distribución simétrica; existe la misma concentración de valores a la derecha y a la izquierda de la media). Gráfica de en medio.
- Si el grado de asimetría es >0 (distribución asimétrica positiva; existe mayor concentración de valores a la derecha de la media que a su izquierda). Gráfica de la izquierda. Cuanto más se acerque al 1 más asimétrica es asimetría positiva.
- Si el grado de asimetría <0 (distribución asimétrica negativa; existe mayor concentración de valores a la izquierda de la media que a su derecha). Gráfica de la derecha. Cuanto más se acerque al -1 más asimétrica es asimetría negativa.
Curtosis o apuntamiento
Coeficiente de apuntamiento o curtosis de una variable, sirve para medir el grado de concentración de los valores que toma en torno a su media. Se elige como referencia de una variable con distribución normal, de modo que para ella el coeficiente de curtosis es 0.
Los resultados pueden ser los siguientes:
- Si el grado de curtosis es 0 (distribución mesocúrtica). Presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal).
- Si el grado de curtosis es >0 (distribución leptocúrtica). Presenta un elevado grado de concentración alrededor de los valores centrales de la variable.
- Si el grado de curtosis es <0 (distribución platicúrtica). Presenta un reducido grado de concentración alrededor de los valores centrales de la variable. La platicúrtica tiene una mayor medida de dispersión.
Comentarios
Publicar un comentario