Medidas de posición: Percentiles y Diagrama de Caja (¿Qué son y cómo se calculan?)

Vamos a hablar sobre Percentiles, Deciles, Quintiles, Cuartiles y todos los iles que se imaginen :D, también aparecerá por ahí un diagrama de caja, diagrama de caja y bigote o box plot (ula la :3). Si ustedes se han preguntado ¿Qué son las medidas de posición y cómo se calculan? están en el lugar correcto, aunque imagino que fue su profesor(a) quién hizo esa pregunta :D.

¿Qué es un percentil y cómo se calcula?

Los percentiles serán nuestro comodín ya que podemos encontrar una equivalencia entre los percentiles y cualquier otra medida de posición.

\(P_k\) corresponde al percentil \(k\) de un conjunto de datos ordenados de menor a mayor, si el \(k%\) de los valores son menores o iguales a \(P_k\), y por lo tanto, \((100-k)%\) de los valores son mayores o iguales a \(P_k\).

Una forma de calcular el percentil  es, primero determinar la posición \(\frac{k\cdot (n+1)}{100}\), donde \(n\) es la cantidad de datos, y luego determinar el dato que ocupa esa posición.

Existen diferentes maneras válidas de calcular percentiles. Sin embargo, utilizaremos los siguientes métodos pues resultan ser utilizados de manera repetitiva en las soluciones de facsímiles oficiales DEMRE.

Percentiles para datos sin agrupar

Paso a paso:

Paso 1. Se ordenan los datos de menor a mayor.

Paso 2. Se calcula la posición \(\frac{k\cdot (n+1)}{100}\) donde \(k={1,2,3,…,98,99}\) y depende del percentil a calcular, y \(n\) es el número de datos.

Paso 3. Se busca el dato \(P_k\) que ocupa la posición encontraba. Se tienen dos opciones:

  • Si \(\frac{k\cdot (n+1)}{100}\) resulta un número entero: se busca el dato en esa posición, que será \(P_k\)
  • Si \(\frac{k\cdot (n+1)}{100}\) resulta un número decimal: se promedian los dos datos que ocupan las posiciones más cercanas a él. Ese resultado será \(P_k\)

Percentiles para datos en tabla sin intervalos

Paso a paso:

Paso 1. Se calcula la posición \(\frac{k\cdot (n+1)}{100}\), en donde \(k={1,2,3,…,98,99}\) y depende del percentil a calcular, y \(n\) es la cantidad de datos.

Paso 2. Se busca el dato \(P_k\) que ocupa la posición encontrada. Al igual que en datos no agrupados, se tienen dos opciones:

  • Si \(\frac{k\cdot (n+1)}{100}\) resulta un número entero: se busca el dato en esa posición, que será \(P_k\). Para encontrar ese dato, usamos la Frecuencia acumulada como se muestra en el ejemplo.
  • Si \(\frac{k\cdot (n+1)}{100}\) resulta un número decimal: se promedian los dos datos que ocupan las posiciones más cercanas a él. Ese resultado será \(P_k\). Para encontrar esos datos, se usa la Frecuencia acumulada como se muestra en el ejemplo.

Ejemplo: Dada la siguiente tabla, calcular el percentil 30 (\(P_{30})\)

Calculamos entonces \(P_{30}\), \(n\) es igual a 40 (la suma de todas las frecuencias, o bien la última fila de la frecuencia acumulada (F))

\[P_{30}=\frac{k(n+1)}{100}\]

\[P_{30}=\frac{30(40+1)}{100}\]

\[P_{30}=\frac{30(41)}{100}\]

\[P_{30}=12.3\]

Hemos obtenido 12.3, esto no es la respuesta final, es la posición del dato que buscamos, debemos encontrar el dato en la posición 12.3, como es un número decimal vamos a promediar el dato en la posición 12 y 13. Para encontrarlo en la tabla les dejo una nueva imagen

Como el dato 12 se encuentra en la primera fila y el dato 13 se encuentra en la segunda, tendremos que promediar los valores 15 y 16.

\[P_{30}=\frac{15+16}{2}\]

\[P_{30}=15.5\]

Está es la respuesta final.

Intervalo que contiene a un percentil (\(k\))

El intervalo que contiene al percentil \(P_k\) corresponde al intervalo que contiene al dato en la posición \(\frac{k\cdot n}{100}\). Por lo tanto, para determinar este intervalo, se debe calcular \(\frac{k\cdot n}{100}\) y buscar el intervalo que tiene el dato que ocupa esa posición, usando la Frecuencia acumulada. Si \(\frac{k\cdot n}{100}\) resulta un número decimal, este se aproxima al entero mayor más cercano.

Ejemplo: Dada la siguiente tabla, determinar el intervalo que contiene al percentil 45.

Calculamos entonces \(P_{45}\), \(n\) es igual a 20 (la suma de todas las frecuencias, o bien la última fila de la frecuencia acumulada (F))

\[P_{45}=\frac{k(n)}{100}\]

\[P_{45}=\frac{45(20)}{100}\]

\[P_{45}=\frac{900}{100}\]

\[P_{45}=9\]

En el 2° intervalo se encuentran los datos que ocupan la posición desde la 8 hasta la posición 11. Por lo tanto, el dato en la posición 9 se encuentra en ese mismo intervalo:

\[[4,6[\]

\(P_{45}\) se encuentra en el intervalo [4,6[ (ojo que no sabemos que dato en específico es, solo conocemos donde se ubica, “donde vive”).

IMPORTANTE:  \(P_{50}\) coincide con la mediana.

Cuartiles

Son los tres valores que dividen a un conjunto ordenado, en cuatro subconjuntos con la misma cantidad de datos: cuartil 1 \((Q_1)\), cuartil 2 \((Q_2)\) y cuartil 3 \((Q_3)\): corresponden a valores hasta los cuales se acumula al menos el 25%, 50% y 75% de los datos, respectivamente.

Es decir, los cuartiles corresponden a casos particulares de percentiles:

  • Cuartil 1 = Percentil 25
  • Cuartil 2 = Percentil 50 = Mediana
  • Cuartil 3 = Percentil 75

Por lo tanto, para calcular cuartiles, se debe calcular el percentil correspondiente.

Importante:

Se llama Recorrido o Rango Intercuartilico a la diferencia positiva entre el Cuartil 1 y el Cuartil 3.

Ejemplo: Para los datos 7, 9, 16 , 36, 39, 45, 45, 46, 48, 51, obtener los tres cuartiles.

Lo primero es verificar que los datos estén ordenados de menor a mayor, en este caso, están listos. Luego procedemos a calcular el percentil que nos sirve.

\[Q_1=P_{25}=\frac{k(n+1)}{100}\]

\[P_{25}=\frac{25(11)}{100}\]

\[P_{25}=\frac{(11)}{4}\]

\[P_{25}=2.75\]

Como nos ha dado decimal la posición, promediamos el dato 2 con el dato 3

\[P_{25}=\frac{9+16}{2}\]

\[P_{25}=\frac{25}{2}\]

\[P_{25}=12.5=Q_1\]

Si repetimos el proceso para los otros cuartiles (considerando los percentiles 50 y 75) tendremos la respuesta, pero también podríamos acelerar el proceso multiplicando las posiciones, es decir, la posición encontrada es el \(P_{25}\), para sacar \(P_{50}\), basta multiplicarla por dos y para sacar \(P_{75}\), basta multiplicarla por 3. (OJO la posición, no el resultado final)

\[P_{50}=2\cdot 2.75=5.5\]

Promediamos el dato 5 y 6

\[P_{50}=\frac{39+45}{2}\]

\[P_{50}=42=Q_2\]

\[P_{75}=3\cdot 2.75=8.25\]

Promediamos el dato 8 y 9

\[P_{75}=\frac{46+48}{2}\]

\[P_{75}=47=Q_3\]

tenemos los tres datos, con esto podríamos hacer un diagrama de caja :3.

¿Qué es un diagrama de Caja y como se interpreta?

El diagrama de caja es una representación gráfica basada en cuartiles. Para elaborar este gráfico, se necesitan cinco datos: el valor mínimo, el primer cuartil, la mediana o segundo cuartil, el tercer cuartil y el valor máximo de la muestra. Gráficos más detallados también añaden los valores «atípicos».

Diagrama de caja y bigote

Mucho cuidado al momento de interpretar estos gráficos, ya que en él no vemos cantidades de datos sino que, agrupamos de a 25%, podemos observar claramente lo variados (heterogéneos que son los datos), mientras más larga la caja y los bigotes más variados serán los datos.

Es interesante en estos gráficos comparar mediante las medianas (Q2) ya que este valor nos da una mirada certera del centro de los datos.

Ejercicios de Medidas de posición y diagramas de caja tipo PAES

Las siguientes preguntas son recopiladas de Pruebas creadas por el DEMRE, compartiré con ustedes mi forma de desarrollar e interpretar, así que vamos allá :D.

Solución

Solución

Solución

Solución

Solución

Solución

Mientras tanto, les dejo pensar los problemas, durante la semana iré subiendo las resoluciones :D.

1 thought on “Medidas de posición: Percentiles y Diagrama de Caja (¿Qué son y cómo se calculan?)

Leave a Comment