Medidas de posición: Percentiles y Diagrama de Caja

Percentiles

Los percentiles son medidas estadísticas fundamentales que nos permiten conocer la posición relativa de un dato dentro de un conjunto de datos. En otras palabras, indican el porcentaje de datos que se encuentran por debajo de un valor determinado. Imagina que tienes una lista de notas de un curso. Los percentiles te indican en qué posición se encuentra una nota específica dentro de esa lista. Por ejemplo, si tu nota está en el percentil 80, significa que el 80% de tus compañeros obtuvieron una nota igual o inferior a la tuya. ¡Sos un crack!

¿Por qué son tan importantes los percentiles?

  • Comparación estandarizada: Los percentiles permiten comparar datos de diferentes conjuntos o poblaciones, incluso si las escalas de medición son distintas. Por ejemplo, podemos comparar el rendimiento de un estudiante en un examen con el rendimiento de otros estudiantes a nivel nacional, sin importar si las pruebas fueron diferentes.
  • Identificación de valores atípicos: Los percentiles extremos (muy bajos o muy altos) pueden indicar la presencia de valores atípicos o outliers, que podrían influir en los resultados de otros análisis estadísticos.
  • Evaluación del desempeño: Se utilizan ampliamente para evaluar el desempeño de las personas en relación con sus pares. Los percentiles permiten identificar las áreas en las que necesitan mejorar y aquellas en las que sobresale.
  • Control de calidad: En la industria, los percentiles se utilizan para establecer estándares de calidad y monitorear los procesos de producción. Por ejemplo, se puede establecer que el 95% de los productos fabricados deben cumplir con ciertas especificaciones.
  • Investigación científica: Los percentiles son fundamentales en la investigación científica para describir y analizar datos. Se utilizan en estudios epidemiológicos, estudios clínicos y en muchas otras áreas.
  • Finanzas: En el mundo financiero, los percentiles se utilizan para evaluar el riesgo de una inversión y para comparar el rendimiento de diferentes activos.

Cómo calcular los percentiles

Los percentiles serán nuestro comodín ya que podemos encontrar una equivalencia entre los percentiles y cualquier otra medida de posición.

\(P_k\) corresponde al percentil \(k\) de un conjunto de datos ordenados de menor a mayor, si el \(k%\) de los valores son menores o iguales a \(P_k\), y por lo tanto, \((100-k)%\) de los valores son mayores o iguales a \(P_k\).

Una forma de calcular el percentil  es, primero determinar la posición \(\frac{k\cdot (n+1)}{100}\), donde \(n\) es la cantidad de datos, y luego determinar el dato que ocupa esa posición.

Existen diferentes maneras válidas de calcular percentiles. Sin embargo, utilizaremos los siguientes métodos pues resultan ser utilizados de manera repetitiva en las soluciones de facsímiles oficiales DEMRE.

Percentiles para datos sin agrupar paso a paso

Paso 1. Se ordenan los datos de menor a mayor.

Paso 2. Se calcula la posición \(\frac{k\cdot (n+1)}{100}\) donde \(k={1,2,3,…,98,99}\) y depende del percentil a calcular, y \(n\) es el número de datos.

Paso 3. Se busca el dato \(P_k\) que ocupa la posición encontraba. Se tienen dos opciones:

  • Si \(\frac{k\cdot (n+1)}{100}\) resulta un número entero: se busca el dato en esa posición, que será \(P_k\)
  • Si \(\frac{k\cdot (n+1)}{100}\) resulta un número decimal: se promedian los dos datos que ocupan las posiciones más cercanas a él. Ese resultado será \(P_k\)

Percentiles para datos en tabla sin intervalos paso a paso

Paso 1. Se calcula la posición \(\frac{k\cdot (n+1)}{100}\), en donde \(k={1,2,3,…,98,99}\) y depende del percentil a calcular, y \(n\) es la cantidad de datos.

Paso 2. Se busca el dato \(P_k\) que ocupa la posición encontrada. Al igual que en datos no agrupados, se tienen dos opciones:

  • Si \(\frac{k\cdot (n+1)}{100}\) resulta un número entero: se busca el dato en esa posición, que será \(P_k\). Para encontrar ese dato, usamos la Frecuencia acumulada como se muestra en el ejemplo.
  • Si \(\frac{k\cdot (n+1)}{100}\) resulta un número decimal: se promedian los dos datos que ocupan las posiciones más cercanas a él. Ese resultado será \(P_k\). Para encontrar esos datos, se usa la Frecuencia acumulada como se muestra en el ejemplo.

Ejemplo: Dada la siguiente tabla, calcular el percentil 30 (\(P_{30})\)

Calculamos entonces \(P_{30}\), \(n\) es igual a 40 (la suma de todas las frecuencias, o bien la última fila de la frecuencia acumulada (F))

\[P_{30}=\frac{k(n+1)}{100}\]

\[P_{30}=\frac{30(40+1)}{100}\]

\[P_{30}=\frac{30(41)}{100}\]

\[P_{30}=12.3\]

Hemos obtenido 12.3, esto no es la respuesta final, es la posición del dato que buscamos, debemos encontrar el dato en la posición 12.3, como es un número decimal vamos a promediar el dato en la posición 12 y 13. Para encontrarlo en la tabla les dejo una nueva imagen

Como el dato 12 se encuentra en la primera fila y el dato 13 se encuentra en la segunda, tendremos que promediar los valores 15 y 16.

\[P_{30}=\frac{15+16}{2}\]

\[P_{30}=15.5\]

Está es la respuesta final.

Intervalo que contiene a un percentil (\(k\))

El intervalo que contiene al percentil \(P_k\) corresponde al intervalo que contiene al dato en la posición \(\frac{k\cdot n}{100}\). Por lo tanto, para determinar este intervalo, se debe calcular \(\frac{k\cdot n}{100}\) y buscar el intervalo que tiene el dato que ocupa esa posición, usando la Frecuencia acumulada. Si \(\frac{k\cdot n}{100}\) resulta un número decimal, este se aproxima al entero mayor más cercano.

Ejemplo: Dada la siguiente tabla, determinar el intervalo que contiene al percentil 45.

Calculamos entonces \(P_{45}\), \(n\) es igual a 20 (la suma de todas las frecuencias, o bien la última fila de la frecuencia acumulada (F))

\[P_{45}=\frac{k(n)}{100}\]

\[P_{45}=\frac{45(20)}{100}\]

\[P_{45}=\frac{900}{100}\]

\[P_{45}=9\]

En el 2° intervalo se encuentran los datos que ocupan la posición desde la 8 hasta la posición 11. Por lo tanto, el dato en la posición 9 se encuentra en ese mismo intervalo:

\[[4,6[\]

\(P_{45}\) se encuentra en el intervalo [4,6[ (ojo que no sabemos que dato en específico es, solo conocemos donde se ubica, “donde vive”).

IMPORTANTE:  \(P_{50}\) coincide con la mediana.

Cuartiles

Son los tres valores que dividen a un conjunto ordenado, en cuatro subconjuntos con la misma cantidad de datos: cuartil 1 \((Q_1)\), cuartil 2 \((Q_2)\) y cuartil 3 \((Q_3)\): corresponden a valores hasta los cuales se acumula al menos el 25%, 50% y 75% de los datos, respectivamente.

Es decir, los cuartiles corresponden a casos particulares de percentiles:

  • Cuartil 1 = Percentil 25
  • Cuartil 2 = Percentil 50 = Mediana
  • Cuartil 3 = Percentil 75

Por lo tanto, para calcular cuartiles, se debe calcular el percentil correspondiente.

Importante:

Se llama Recorrido o Rango Intercuartilico a la diferencia positiva entre el Cuartil 1 y el Cuartil 3.

Ejemplo: Para los datos 7, 9, 16 , 36, 39, 45, 45, 46, 48, 51, obtener los tres cuartiles.

Lo primero es verificar que los datos estén ordenados de menor a mayor, en este caso, están listos. Luego procedemos a calcular el percentil que nos sirve.

\[Q_1=P_{25}=\frac{k(n+1)}{100}\]

\[P_{25}=\frac{25(11)}{100}\]

\[P_{25}=\frac{(11)}{4}\]

\[P_{25}=2.75\]

Como nos ha dado decimal la posición, promediamos el dato 2 con el dato 3

\[P_{25}=\frac{9+16}{2}\]

\[P_{25}=\frac{25}{2}\]

\[P_{25}=12.5=Q_1\]

Si repetimos el proceso para los otros cuartiles (considerando los percentiles 50 y 75) tendremos la respuesta, pero también podríamos acelerar el proceso multiplicando las posiciones, es decir, la posición encontrada es el \(P_{25}\), para sacar \(P_{50}\), basta multiplicarla por dos y para sacar \(P_{75}\), basta multiplicarla por 3. (OJO la posición, no el resultado final)

\[P_{50}=2\cdot 2.75=5.5\]

Promediamos el dato 5 y 6

\[P_{50}=\frac{39+45}{2}\]

\[P_{50}=42=Q_2\]

\[P_{75}=3\cdot 2.75=8.25\]

Promediamos el dato 8 y 9

\[P_{75}=\frac{46+48}{2}\]

\[P_{75}=47=Q_3\]

tenemos los tres datos, con esto podríamos hacer un diagrama de caja :3.

Diagramas de Caja

Un diagrama de caja es como una radiografía de tus datos. Te muestra de un vistazo cómo se distribuyen tus datos, desde el valor más pequeño hasta el más grande. Es una herramienta muy útil para identificar valores atípicos y comparar diferentes conjuntos de datos.

¿Para qué sirven los diagramas de caja?

Supón que quieres comparar los resultados de dos grupos de trabajadores en un mes. Al crear diagramas de caja para cada grupo, podrás visualizar rápidamente cuál grupo tiene mejores resultados en promedio, cuál tiene una mayor variabilidad y si hay algún trabajador con una resultado excepcionalmente alto o bajo.

Ventajas de los diagramas de caja:

  • Visualización rápida: Permiten visualizar la distribución de los datos de forma sencilla e intuitiva.
  • Comparación de grupos: Facilitan la comparación de múltiples conjuntos de datos.
  • Identificación de valores atípicos: Ayudan a detectar posibles errores en los datos o situaciones inusuales.
  • Resumen de la información: Proporcionan un resumen conciso de las principales estadísticas de un conjunto de datos.

Como se interpretar un diagrama de caja

Vimos que un diagrama de caja es una representación gráfica basada en cuartiles. Para elaborar este gráfico, se necesitan cinco datos: el valor mínimo, el primer cuartil, la mediana o segundo cuartil, el tercer cuartil y el valor máximo de la muestra. Gráficos más detallados también añaden los valores «atípicos».

Diagrama de caja y bigote

Mucho cuidado al momento de interpretar estos gráficos, ya que en él no vemos cantidades de datos sino que, agrupamos de a 25%, podemos observar claramente lo variados (heterogéneos que son los datos), mientras más larga la caja y los bigotes más variados serán los datos.

Es interesante en estos gráficos comparar mediante las medianas (Q2) ya que este valor nos da una mirada certera del centro de los datos.

Ejercicios de Medidas de posición y diagramas de caja tipo PAES

Las siguientes preguntas son recopiladas de Pruebas creadas por el DEMRE, compartiré con ustedes mi forma de desarrollar e interpretar, así que vamos allá 😀

Ejercicio I

Ejercicio II

Ejercicio III

Ejercicio IV

Ejercicio V

Ejercicio VI

2 comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *